Inteligencia Artificial: hombre-máquina y corpus lingüístico

“El punto de partida de cualquier proyecto de PLN es el corpus, un conjunto de textos, ordenados o no, que sirven de base para cualquier análisis lingüístico o estadístico.” ― Carmen Torrijos Caruda

Las aplicaciones web que gestionan el diálogo entre hombre y máquina (agentes conversacionales) abundan. Gracias al trabajo conjunto de expertos en lingüística, lingüistas computacionales, psicólogos conductivistas y desarrolladores de Inteligencia Artificial podemos consultar y solucionar problemas con el banco a cualquier hora, 365 días al año; comprar en línea lo que queramos y traducir al idioma que deseemos, todo esto sin preocuparnos de que nos comprendan. ¿Quién está respondiendo nuestras consultas? ¿Por qué nos comprenden?  ¿Conversamos siempre con otros humanos en la red?   

Hace unas horas un mensaje me impedía entrar a la banca en línea desde el teléfono móvil, era de noche y aunque en principio pensé hacer la consulta al día siguiente, me animé a hacerla vía mensajería en ese mismo instante. Recibí un mensaje de vuelta justo al teclear la última letra de mi consulta.
“Estimado Cliente: Gracias por contactarnos. Bienvenido a nuestro servicio de atención por WhatsApp. Estamos presentando un alto volumen de interacciones, por lo cual el tiempo de espera es mayor de lo habitual. Agradecemos su paciencia y comprensión.” Había consultas y debía esperar. Pasaron unos minutos y me asignaron a un agente (dieron su nombre), volví a escribir y en lo que terminé de consultar, ya tenía dos opciones para elegir la solución, solicitud de confirmación de mis datos para comprobar que en efecto fuese la titular de la cuenta y una conversación que podía pasar (para personas no relacionadas con IA) la prueba de Turing. De no haber sido porque al concluir la interacción se despidió solicitando que respondiera a unas preguntas y al responder algo distinto apareció un mensaje en la pantalla que decía: “Disculpa, no he entendido eso. Por favor selecciona alguna de las siguientes opciones”, cualquiera pensaría que era una persona la que atiende. Un chatbot resolvió mi consulta.

Los agentes conversacionales existen desde los años 70, pero gracias a la inclusión de un modelo lingüístico formal les ha permitido simular la comprensión durante el diálogo con humanos. Lo que se conoce como la Teoría Sentido-Texto.[1] Pensando en voz alta podríamos inferir que para lograr comunicarse en dos vías (emisor-receptor) las máquinas requieren de muchísima información (datos), estos a su vez, deben ser de calidad, lo más exactos y precisos posibles para ser comprendidos por los humanos.

“Una máquina podrá comunicarse a través de modelos de lenguaje natural, solo cuando tenga la información necesaria ―corpus―para hacerlo.” Clic para tuitear

La Teoría Sentido-Texto

Al mencionarla nos referimos al marco teórico lingüístico creado por Aleksandr Žolkovskij e Igor Mel’čuk, para la construcción de modelos de lenguaje natural. Es una fuente que proporciona una base extensa y elaborada para la descripción lingüística y, debido a su carácter formal, se adapta a la perfección a las aplicaciones informáticas. La teoría reconoce que los elementos del léxico (unidades léxicas) en una lengua pueden relacionarse entre sí en un sentido semántico abstracto ( lo que significa, lo que decodificamos, por ejemplo: connotaciones, metáforas, analogías, dobles sentidos, etc.) Estas relaciones se representan mediante funciones léxicas. Dicho de manera sencilla, si no tiene sentido lo que nos dicen ―dado que para nosotros lo abstracto convive con lo real y lo procesamos de forma natural― con las palabras que conocemos (guardadas en nuestro cerebro/nuestro léxico), la comunicación no se da, porque el humano busca coherencia en el mensaje que recibe y transmite, para continuar el proceso de intercambio, para que haya comunicación tal como la conocemos.

A medida que vamos aprendiendo un idioma (desde pequeños en el caso de la lengua materna/académica o experiencialmente, en otros casos.) guardamos en el cerebro una cantidad grande de palabras, imágenes, significados, reglas gramaticales, sonidos que asociamos para comprender lo que nos dicen y para comunicarnos. Este proceso es natural e imperceptible, tan natural que lo damos por hecho. Para una máquina es mucho más complejo, requiere realizar una función que emule a la máquina más perfecta que ha sido creada (el cerebro humano) lo más rápido y precisamente posible lo que implica muchísima información tanto especifica del tema como de forma para expresarla (para que pueda ser comprendida).

La Inteligencia artificial utilizada con fines conversacionales y de interacción con humanos requiere de un corpus lingüístico. Al llegar a este punto, lo más seguro es que tenga más sentido para el lector la participación de la lingüística en todo lo que a IA se refiere. Pero aún hay más temas involucrados, por ello, creemos que el futuro es tan multidisciplinar como lo somos los humanos.

Corpus lingüístico, no solo textos

La definición más aceptada de un corpus lingüístico nos dice que es “un conjunto amplio y estructurado de ejemplos reales de uso de la lengua. Estos ejemplos pueden ser textos (los más comunes), o muestras orales (generalmente transcritas) ​. Un corpus lingüístico es un conjunto de textos relativamente grande, creado independientemente de sus posibles formas o usos. Es decir, en cuanto a su estructura, variedad y complejidad, un corpus debe reflejar una lengua, o su modalidad, de la forma más exacta posible; en cuanto a su uso, preocuparse de que su representación sea real. Los corpus​ tienen similitudes con los textos porque están compuestos por ellos, por otro lado, no son textos en sí, porque a diferencia de los mismos, no tiene sentido analizarlos en su totalidad. [Un texto tiene un principio y un fin, y es cohesivo y coherente en mayor o menor grado, mientras que un corpus carece de tales características por no poseer una estructura, sino sólo una composición. Por esta razón conviene analizar un corpus recurriendo a herramientas y metodología propias.]”-Wikipedia

La necesidad de trabajar las muestras recogidas de forma eficaz da lugar al nacimiento de la lingüística computacional.

Lingüística computacional

En la actualidad se están formando en las más prestigiosas universidades lingüistas que saben codificar. Los encontramos también en los centros de investigación y desarrollo, así como en las empresas que comercializan aplicaciones para modelar el lenguaje. Otra de esas profesiones que «se cree» pasada de moda y que son vitales para los desarrollos de Inteligencia Artificial. Su estudio abre un mundo de posibilidades de empleo con alta demanda en el mundo tecnológico.

Los expertos como Carmen Torrijos, citada al inicio de este artículo describen a la lingüística computacional como “un campo interdisciplinario que se ocupa del desarrollo de formalismos descriptivos del funcionamiento del lenguaje natural, tales que puedan ser transformados en programas ejecutables para un ordenador. Dicho desarrollo se sitúa entre el modelado basado en reglas y el modelado estadístico del lenguaje natural desde una perspectiva computacional, y en él participan lingüistas e informáticos especializados en inteligencia artificial, psicólogos cognoscitivos y expertos en lógica, entre otros.”[2]

La lingüística computacional, disciplina encargada de entender cómo representar y procesar el lenguaje natural individual usando ordenadores, surge en los EE. UU. en los años 1950 en los laboratorios de estudiosos que buscaban desarrollar computadoras capaces de traducir textos automáticamente de lenguas extranjeras al inglés, particularmente de revistas científicas rusas. Surgió como resultado de las aseveraciones de Warren Weaver, quien veía en la traducción una forma de descifrado y fue el encargado de escribir la introducción para “el público no especializado” del libro The Mathematical Theory of Communication.

Con la llegada de la Inteligencia Artificial en los años sesenta, la lingüística computacional se integra como una rama de la IA, para gestionar el nivel de comprensión humano y la producción de los lenguajes naturales.

¿Cuán complejo es traducir un idioma? En la red parece fácil

La traducción que vemos aparecer de manera casi instantánea es mucho más compleja de lo que siquiera imaginamos, para traducir de un lenguaje a otro la máquina debe entender la sintaxis de ambos lenguajes, su morfología (la sintaxis de las palabras) y las frases enteras. Para entender la sintaxis, es necesario que comprenda la semántica del vocabulario y la pragmática del lenguaje. Toda una agrupación de procesos y conocimientos que toman tiempo y recursos.

La lingüística de corpus surge por la necesidad que existía de poder traducir lenguajes, involucra diversas de estudio, entre ellas: Corpus lingüístico asistido por ordenador. Diseño de analizadores sintácticos (parser), para lenguajes naturales. Diseño de etiquetadores o lematizadores, tales como el POS-tagger. Definición de lógicas especializadas que sirvan como fuente para el Procesamiento de Lenguajes Naturales. Estudio de la posible relación entre lenguajes formales y naturales y la traducción automática.

Un ejemplo práctico de la multidisciplinariedad requerida y de lo importante de la lingüística en toda esta explosión de Inteligencia Artificial lo tenemos en un proyecto que se llevó a cabo en el Instituto de Ingeniería del Conocimiento y el Instituto Cervantes en la Universidad de Harvard (Observatorio de la lengua española y las culturas hispánicas en los Estados Unidos) desarrollaron durante el 2016, un programa de investigación destinado a la aplicación de la tecnología informática y de la lingüística de corpus a las redes sociales con el fin de identificar y documentar anglicismos que estén surgiendo y desarrollándose en el español que se utiliza en los Estados Unidos. Una parte esencial de esa metodología consiste en proporcionar el contexto de uso de los anglicismos, con información sobre el perfil de los hablantes y la geolocalización del mensaje.

Los corpus de referencia son necesarios para desarrollar IA. Las lenguas en peligro de extinción se ven más afectadas con la digitalización y el uso de nuevas tecnologías. Por ello, las lenguas que no tienen una representación en la red están en gran desventaja, sin un corpus digital es muy difícil que puedan dar el paso a la IA, lo que es preocupante. Otra razón de peso, para valorar la lengua que hablamos y comprender cuan importante es el lenguaje para el cambio de era que estamos experimentando.

Entre los corpus más confiables que existen, a los que acuden los desarrolladores de tecnología de Inteligencia Artificial para crear sus soluciones, podemos mencionar:

  • CORPES: Según la Real Academia de la Lengua es el corpus lingüístico del español del siglo XXI y sucesor natural de sus corpus antecesores CREA y CORDES. El proyecto CORPES está en construcción actualmente.
  • CREANET: Corpus de referencia del portugués .
  • BNC: Corpus lingüístico especializado en inglés.

Las palabras y su estudio están presentes en el desarrollo de Inteligencia Artificial. Quien desee desarrollar productos de excelencia debe ser consciente de que el modelado del lenguaje no se toma a la ligera.

Bots, chatbots, agentes conversacionales con imprecisiones de lenguaje son el producto de obviar la presencia de expertos en lingüística en el equipo de desarrollo. ¿Se están corriendo el riesgo en su empresa? Debería tomarlo muy en serio. ¿Quién dirige la creación de contenido de sus productos? ¿Un arquitecto de infraestructuras sin formación en lingüística? podría salir muy caro.

En el caso de la Lengua Española existe una oportunidad de oro para aquellos que dominen la lingüística computacional, podrán ser parte del desarrollo de nuevas tecnologías en un mundo cambiante y exigente.

Casi podríamos aseverar que sin corpus lingüístico no hay IA que pueda conversar con los humanos.

Imagen: Pixabay

Recursos Consultados:
https://scielo.conicyt.cl/scielo.php?script=sci_arttext&pid=S0718-09342018000300382
https://retina.elpais.com/retina/2019/01/15/tendencias/1547545169_410011.html
http://www.llf.cnrs.fr/sites/llf.cnrs.fr/files/biblio/Ling%C3%BC%C3%ADstica%20espa%C3%B1ola%20e%20I.A_Oscar_Garcia_Marchena.pdf


[1] García Marchena, Óscar: “Lingüística española e Inteligencia Artificial: Aplicación informática de gramáticas de restricciones para la confección de agentes de diálogo” en Interlingüística, nº 18, (2007)

[2] Torrijos Caruda, Carmen: “La lingüística computacional, el campo donde se unen las ciencias y las letras” en Retina El Pais. (2019)

Escrito por : Msc. irasema Rivas-González