¿Quién posee la lengua cuando hay más máquinas hablando nuestro idioma que personas?
El español es la segunda lengua con más hablantes nativos, pero ya hay más máquinas expresándose en nuestro idioma dotadas de sistemas de tratamiento del lenguaje natural, basado en técnicas de la inteligencia artificial, que personas
¿Pueden las máquinas tomar decisiones justas?

A lo largo de la historia, las lenguas habladas por los seres humanos han evolucionado en múltiples direcciones, convirtiéndose en un océano lingüístico y multicultural. Unas han desaparecido al mismo tiempo que otras aparecían. La invención de la escritura dio mayor estabilidad a las lenguas ... que la adoptaron pero no eliminó su fragilidad ni su maleabilidad. Fenómenos como la globalización e Internet representan dos nuevos retos para la supervivencia de las lenguas, sobretodo para las minoritarias.
La globalización hace que, por ejemplo, se extiendan por todo el mundo palabras en inglés que tienden a ser adoptadas por todas las demás lenguas - desplazando palabras propias- que se llenan así de anglicismos y que de alguna manera empobrecen el vocabulario de los idiomas receptores pero que, a veces, llenan un espacio vacío, satisfacen una necesidad, y para muestra un botón, tuitear, googlear, o guasapear. En menos de cuarenta años Internet, como antes la televisión, se ha convertido en un preceptor de idiomas, más del 90% del contenido en la red se reduce a una docena de lenguas. Sin embargo, no todo es negativo en la aparición de Internet. Además de introducir una panoplia de nuevos términos, tal y como ocurrió cuando se crearon los barcos, los trenes o los aviones - cada uno de estos universos necesitó de nuevas palabras- ha creado nuevas comunidades, algunas con millones de personas, con las que aparecen novedosas formas de comunicarse y, también, de escribir.
El español es la segunda lengua con más hablantes nativos, solo por detrás del chino mandarín, pero hoy ya hay más máquinas expresándose en nuestro idioma dotadas de sistemas de tratamiento del lenguaje natural, basado en técnicas de la inteligencia artificial, que personas y este número crece. Internet y las redes sociales han cambiado el mundo de los negocios, la educación, la forma de comunicarnos y la pandemia ha acelerado este fenómeno. Su influencia en el español y en la ortografía es evidente permitiendo en el uso diario onomatopeyas, apócopes, acrónimos, etc. Internet y las plataformas de contenidos son hoy la primera fuente de información y de lectura. Hoy, el español es la tercera lengua más usada en estas redes.
El uso de herramientas basadas en aprendizaje automático ha permitido el desarrollo de nuevas tecnologías de procesamiento del lenguaje natural (TL) como son la Traducción Asistida por Ordenador (TAO), la Traducción Automática (TA) y las Tecnologías de la voz, entre otras. En 2019, las Instituciones europeas daban la bienvenida a estos avances pero advertían que «Aunque la calidad de los servicios relacionados con la lengua saldrá beneficiada con el uso de las TL y de la IA, no pueden minusvalorarse algunos riesgos. Por ejemplo, se teme que la TA afecte al dominio de la lengua y, más concretamente, que la posedición de la TA a tiempo completo acabe por afectar la capacidad de redacción del lingüista».
Los profesionales de la interpretación simultánea, como L. de Rioja, llevan años reflexionando sobre el impacto de la IA y las TL. En particular, en cómo y cuánto la pandemia y las conferencias a distancia han cambiado esa profesión. La comunicación basada en Internet tiene alrededor de treinta años, un suspiro en la escala histórica del lenguaje. Nunca ha habido un corpus lingüístico tan completo, extenso y difícil de manejar, una capacidad que parece solo al alcance de las grandes tecnológicas que controlan Internet y que ahora aspiran a controlar las TL. El control de las TL es un paso hacia el control de la lengua. Más allá del inglés, verdadera lingua franca en Internet, y de un pequeño grupo de idiomas grandes, que incluye el español, para los cuales sí se están desarrollando recursos de TL, la mayoría de las lenguas, incluso en Europa, carecen de las herramientas inteligentes necesarias y las existentes aún no son óptimas.
El español ocupa el tercer puesto de los idiomas que tienen modelos masivos de acceso abierto, después del inglés y el chino mandarín, esto gracias a que existe una iniciativa pública llamada MarIA. Además, también tenemos la iniciativa AIna que es un recurso de tecnologías de la voz para el catalán y otras herramientas emergentes para el gallego y euskera. Son unos primeros pasos en la dirección correcta. Sin embargo, debería de existir un esfuerzo del Estado para que la lengua sea una propiedad de sus hablantes y no de las compañías que dominan las TL e Internet. Si la lengua ha de evolucionar debemos ser los hablantes quienes decidamos el rumbo y ritmo y no una serie de algoritmos basados en análisis predictivo y prescriptivo de los usos del lenguaje, que la mayor parte de las veces no tienen en cuenta el contexto donde se produce su uso.
Cuando una lengua desaparece también lo hace un tesoro cultural y disminuye la diversidad lingüística. Hoy, el ritmo de declive y muerte de las lenguas no tiene precedentes, son unas diez al año. La globalización e Internet aceleran los procesos de extinción y empobrecimiento de las lenguas, por lo que preservarlas y fortalecerlas es un asunto urgente. Usemos la IA y las TL para generar los recursos públicos que mejoren la diversidad lingüística y protejan el océano las lenguas pero hagámoslo mejor que lo que lo hacemos con los otros océanos.
Esta funcionalidad es sólo para suscriptores
Suscribete
Esta funcionalidad es sólo para suscriptores
Suscribete