Inteligencia Artificial y Tecnologías del Lenguaje

“El español es uno de los grandes activos que puede ser catalizador de nuestra competencia en inteligencia artificial” ―Elena González-Blanco García

Un sillón para la Inteligencia Artificial en la Real Academia Española fue la solicitud que hiciesen los directivos de Telefónica durante el pasado CILE 2019 en Argentina. ¿Por qué solicitar un sillón para la IA? Si no está familiarizado con la RAE probablemente desconozca que las llamadas plazas académicas llevan letras del alfabeto y son colocadas en los sillones de la institución.

Actualmente hay cuarenta y seis plazas de miembros de número (personas que estudian, cultivan y defienden la lengua española), que ocupan sillas designadas —en mayúsculas y en minúsculas— con parte de las letras del alfabeto español. Al investigar sobre las plazas académicas llama la atención que estas son vitalicias y solo ocho letras del alfabeto no están representadas —ni lo han estado en el pasado— en los sillones de la institución: v, w, x, y, z, Ñ, W, Y.  El modelo de los sillones y las letras se replica en las Academias de la Lengua Española de los países donde se tiene representación, por lo que, en su país, es muy probable que funcione igual.

En este momento quizás se preguntará ¿Hacia a dónde va este articulo? ¿Cuál es la relación entre la Academia y la Inteligencia Artificial? ¿Por qué debo seguir leyendo? De interesarle las tecnologías y los asistentes de voz este artículo le será de utilidad. Existe una relación cada vez más compleja entre la Academia y la Inteligencia Artificial y nos estamos jugando el futuro de la lengua.

La institución tiene como misión principal la defensa de la unidad de la lengua española, fundada en 1713, determina el rumbo que tiene nuestra lengua con el devenir del tiempo. Con la llegada de la tecnología digital la lengua española se enfrenta a nuevos retos, entre los principales está la influencia que sobre ella tiene Internet, la creación masiva de contenidos, la Inteligencia Artificial y los algoritmos, creados ―en la mayoría de los casos―por personas que no tienen vasto conocimiento de nuestra lengua y todo lo que implica su uso, enseñanza y estudio.

Las lenguas e Internet

A todos suele sucedernos, al utilizar redes sociales o navegar en la red, nos encontramos con cientos de errores de construcción gramatical, ortográficos, palabras mal escritas o mal utilizadas, pasando por alto toda norma conocida. Pudiera parecer normal y sin importancia, pero, si se normaliza el uso incorrecto, se corre el riesgo de que el idioma sufra cambios que no beneficien.

El conjunto de normas que regulan la escritura conocido como ortografía es importante. Forma parte de la gramática normativa ya que establece las reglas para el uso correcto de las letras, palabras y los signos de puntuación. Por su parte la lingüística estudia la estructura de las palabras y sus accidentes, así como la manera en que se combinan para formar oraciones. Imagínese que quien programa, crea o escribe desconozca o utilice únicamente su vocabulario personal ¿Qué pasa si es limitado? ¿Qué sucede si es deficiente?

En la red se ha hecho popular un escrito que menciona que “el idioma español tiene cerca de 300.000 palabras. En el libro Don Quijote, Cervantes usó 22,939 palabras diferentes. En una conversación entre dos profesionales pensionados se usan más de 320 palabras, en promedio. Una canción de reggaetón tiene en promedio 30 palabras. La mayoría de los jóvenes se comunican con 300 palabras, de las cuales 78 son groserías, y usan 37 emoticones.” Dando a entender que es necesario prestarle atención al uso y estudio de la lengua.

Lo cierto es que, el contenido en Internet requiere de las lenguas, del uso correcto de ellas para lograr esa comunicación fundamental. Las aplicaciones, la Inteligencia Artificial y una parte importante de lo que consumimos en materia de tecnología gira en torno a la lengua, y la mejor forma de asegurar la calidad de estos contenidos y perfeccionar sin sacrificar, en este caso la lengua española, es utilizando las diversas disciplinas de la lingüística: fonología, morfología, sintaxis, fonética, semántica, pragmática, lexicografía y lexicología, al desarrollar tecnologías que aspiran ser capaces de comunicarse de la manera como lo hacen los humanos.

No es necesario investigar mucho, con tan solo utilizar un móvil y su predictivo de textos, un ordenar y su corrector ortográfico podemos percatarnos de que las palabras poco usadas, las menos comunes usualmente se marcan como “errores”. Y este sí que es un error, hacerle creer al usuario que una palabra está mal sin estarlo. 

El sillón metafórico es necesario

Durante el CILE 2019 el presidente de Telefónica José María Álvarez-Pallete, quien insiste en recordar al mundo que la tecnología –“ya está aquí”– que no es su momento, es el momento de las humanidades y la regulación, dijo que: “Hoy hay algoritmos decidiendo por sí mismos, aprendiendo a contextualizar, teniendo sesgos de género en el idioma. Pero no son perfectas; tenemos que comprender sus limitaciones y evitar que se pierda la riqueza del idioma ya que no se trata solo de la palabra sino del contexto. Teniendo en cuenta que para finales de este siglo habrá 780 millones de máquinas dialogando, no podemos permitir que se globalice nuestra forma de hablar”.

Preocupa aún más saber que «Los algoritmos de los correctores automáticos, basados en la recurrencia de información, tienden a viralizar errores –infinitivo en lugar de imperativo– y a reprimir, por infrecuente, la parte más creativa de la lengua: “De las 93.000 palabras del diccionario, Word señala como incorrectas 7.500”.» lo ha dicho el presidente de Telefónica.

¿Le ha pasado que el corrector de textos le propone correcciones a palabras que ha escrito correctamente? o ¿Qué utiliza un término especifico y el corrector lo marca con rojo? Seguramente, el corpus lingüístico utilizado no incluyó esta palabra, pero no está incorrecta, usted lo sabe y aunque por un momento le hizo dudar, hace caso omiso y la utiliza, es más la agrega al diccionario, pero ¿lo sabrán los chicos que vienen creciendo y creyendo ciegamente en todos los productos digitales que consumen? Sobre esta situación Chema Alonso advirtió sobre las atribuciones de programas como Blogger y Word a la hora de corregir los términos que utilizamos los hablantes.

“La lengua española no está siendo bien tratada en la tecnología y tenemos que empezar a preocuparnos por eso."-Chema Alonso Clic para tuitear

El corpus lingüístico es definido como un conjunto de datos o de textos sobre un idioma concreto, unos datos que se han seleccionado siguiendo unos criterios determinados previamente y que, además, se han codificado de tal forma que su uso sea relativamente sencillo para el usuario. ¿Quién está supervisando esos corpus lingüísticos? Si la Academia de la Lengua Española no se involucra, si los expertos no participan de estos desarrollos de IA, le dejan el futuro del idioma a personas que no tienen las competencias para hacerlo.

«La Voz» de las expertas

Fundación Telefónica no dejó la solicitud de ese sillón metafórico en la Academia, ha ido más allá y es la razón por la que la edición de la Revista TELOS 111 cuyo cuaderno central es “La Voz”y donde aparece la imagen de la colombiana Juliana Rueda, emprendedora pionera del audiolibro en español, es imperdible.

"La voz aún nos distingue como humanos"― Juliana Rueda Clic para tuitear
Fundación Telefónica: Revista TELOS

En esta edición encontramos artículos de expertas en tecnología lingüística y todo lo relacionado a la voz (recordemos que el insumo de estos asistentes e interfases es el lenguaje) en materia de Inteligencia Artificial como lo son:  Elena González―Blanco García, Ana Ormaechea, Nieves Ábalos Serrano entre otros profesionales.

Es posible descargarla para su lectura, entre los artículos que sugerimos leer está el que se titula “En el corazón de la encrucijada” que trata de los avances y retos de las PLN. Es un tema que trata con profesionalismo, un artículo recomendado del que compartimos un aporte  interesantísimo para hacernos reflexionar en la importancia del lenguaje y su relación con la IA: “Las tecnologías del lenguaje se están convirtiendo en una de las áreas de mayor potencial dentro de la inteligencia artificial, gracias a su combinación con los sistemas tradicionales de Procesamiento del Lenguaje Natural basado en reglas, con las últimas tecnologías de machine learning y deep learning.”  

Las academias de la lengua deben entrar en la discusión, la actualización, la compresión del problema y su abordaje, así como la alfabetización digital de sus miembros es menester, independientemente de su edad.
Los expertos en tecnología deben tomar en serio la responsabilidad de tratar correctamente al lenguaje e incluir a expertos en lenguaje en los equipos de desarrollo. A nosotros nos toca prestar atención al lenguaje natural y su relación con la tecnología digital, porque es un tema de actualidad que todo profesional del sector debería conocer para hacer frente al reto de la comunicación ya sea por voz, escrita o visual.  Le invitamos a descargar y leer el número 111 de la Revista Telos.

Imagen: Pixabay

Referencia Consultada:
https://telos.fundaciontelefonica.com/revista/telos-111/

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *