Corpus lingüísticos en aplicaciones de Inteligencia Artificial

Nuestra lengua española es una de las más complejas y es la segunda que más se habla en el mundo. Sitial que ostenta por derecho propio y que con el desarrollo de la lingüística y los modelos de estudio sobre el funcionamiento de la lengua aplicados a las tecnologías de la comunicación se va cimentando cada día. Aunado esto, al creciente interés de los chinos por dominar el lenguaje de los países latinoamericanos donde tienen intereses económicos.[1]

Las lenguas usualmente tienen corpus lingüísticos que son conjuntos amplios y estructurados de ejemplos reales de uso de esa lengua en particular.  En temas relacionados a la lingüística computacional se habla de un corpus para referirse al conjunto de (fragmentos de) textos naturales, almacenados en formato electrónico, representativos de una lengua cuyo objetivo es facilitar el estudio científico, “incluyendo información gramatical, léxica y pragmática a la simple secuencia de formas gráficas que constituyen el texto en el sentido más habitual de la palabra.” (Sierra Martínez, 2017)

La lingüística de corpus

Es una rama de la lingüística que basa sus investigaciones en datos obtenidos a partir de corpus, esto es, muestras reales de uso de la lengua con un enfoque metodológico que es posible adoptar desde disciplinas diversas.

En tecnologías del lenguaje se procesan tanto la voz como el texto, el uso de corpus se extiende para crear sistemas de diálogo, generadores de documentos, recuperadores, extractores de información, traductores y resumidores automáticos, que son programas que nos facilitan la vida enormemente. Son tan normales que no pensamos en todo lo que involucra su producción, solo los utilizamos.

Aplicaciones de la lingüística de corpus

La lingüística de corpus se aplica a la confección de agentes de diálogo o chatbots capaces de mantener un diálogo con un humano a través de un cuadro de diálogo de estilo chat o reconocimiento y síntesis vocal. Es utilizada por esos asistentes virtuales que nos han ido acostumbrando a utilizar en nuestros teléfonos móviles, ordenadores o en dispositivos exclusivos para tal fin.

La integración de conocimientos lingüísticos en la construcción de estas aplicaciones ha permitido mejorar las capacidades comunicativas de los agentes conversacionales (asistentes virtuales que se utilizan para brindar servicios 24/7), están instalados en los sitios web (se encargan de las reservaciones, las agendas, información del clima, información de servicios ofrecidos, los carritos de compras y otros usos)

Algunos autores y estudiosos reconocen esta realidad como la humanización de sistemas comunicacionales y agentes artificiales atribuyéndole su éxito comercial, humanización que según ellos es un mérito propio del modelo lingüístico con el que está construido el agente. Preferimos hablar de sistemas que emulan el lenguaje humano a utilizar un termino tan amplio como es la humanización que tiene otras connotaciones filosóficas, semánticas y pragmáticas.

El puente entre las letras y los códigos

En la medida que aumente el uso de inteligencia artificial se hace más necesario el uso de corpus lingüísticos de calidad para afrontar la demanda en franco crecimiento.

«La colaboración entre lingüistas e ingenieros ha permitido así dar un salto cualitativo en el área de la inteligencia artificial. La naturaleza exacta de cómo deba ser esta nueva inteligencia artificial es sin embargo difusa. Bajo el objetivo común de realizar máquinas cuyo comportamiento sea un reflejo del comportamiento racional humano, la posición de ingenieros y lingüistas puede ser diferente; la implementación informática permite simular respuestas inteligentes que dan una impresión de inteligencia.» (García Marchena, 1987)

Siendo un campo interdisciplinario que se ubica entre la lingüística y la informática cuya finalidad es la elaboración de modelos computacionales que reproduzcan distintos aspectos del lenguaje humano dejó de ser un ámbito exclusivo de centros académicos, contrario a ello, su impulso y avance en la actualidad se da en la industria privada.  Las grandes empresas de tecnología y desarrollo de inteligencia artificial saben de hace años que el procesamiento automático del lenguaje humano es el principal campo de desarrollo futuro.

Para cerrar esta nota recordemos puntos clave:

  • La Lingüística Computacional se considera una rama de la Inteligencia Artificial.
  • Busca emular la conducta lingüística humana en cuanto a capacidad cognitiva básica (no profundiza en el aspecto psicológico)
  • Desarrolla programas para los chatbots se centran en hacerlos capaces de “hablar”: reconocer, comprender y producir enunciados, sin preocuparse por la forma en que funciona el cerebro humano para emitir vocablos ordenados y dar significado a un pensamiento o idea.
  • Se requerirán cada vez más lingüistas para afrontar la creciente industria de la IA.

Viendo cuán importante es el lenguaje ¿se anima a dedicarle unas horas a leer y a iniciar su estudio? Tal vez, sea el giro que su profesión requiera.

Bibliografía:

Barriga Villanueva, R. (2019) «Gerardo Sierra Martínez. Introducción a los Corpus Lingüísticos. Universidad Nacional Autónoma de México-Instituto de Ingeniería, México, 2017; 212 p»p, Lingüística Mexicana. Nueva Época, 1(2), pp. 175-178. Disponible en: http://linguisticamexicana-amla.colmex.mx/index.php/Linguistica_mexicana/article/view/336

García Marchena, Óscar, “Lingüística española e Inteligencia Artificial: Aplicación informática de gramáticas de restricciones para la confección de agentes de diálogo” Interlingüística, ISBN X, nº 18, 2007, pp. X-X.

Sierra Martínez, Gerardo. Introducción a los Corpus Lingüísticos. Universidad Nacional Autónoma de México-Instituto de Ingeniería, México, 2017; 212 pp

Disponible en: http://linguisticamexicana-amla.colmex.mx/index.php/Linguistica_mexicana/article/view/336

Disponible en: http://www.aulamagna.com.es/linguistica-actualizada-inteligencia-artificial-para-los-estudios-de-la-lengua/

Imagen: Pixabay

Escrito por: Msc. Irasema Rivas-González

[1] China está madura y apuesta fuerte por el español por «la relación económica y comercial cada vez más estrecha con los países hispanohablantes»―Tao profesora en la prestigiosa Universidad de Estudios Internacionales de Shanghái (SISU)