ENTREVISTA

«A los asistentes virtuales les cuesta todavía adaptar el lenguaje según el oyente»

Sergio Guadarrama, ingeniero de aprendizaje profundo de Google, señala las claves de «machine learning» o aprendizaje automático, que aún se encuentra en una fase incipiente pero se han logrado importantes avances

 «A los asistentes virtuales les cuesta todavía adaptar el lenguaje según el oyente»

Quédate con este concepto, «machine learning». En español le llamamos «aprendizaje automático» pero se trata de una pata más dentro del entramado del campo de la Inteligencia Artificial. Esta disciplina se centra en generalizar comportamientos a partir de una información suministrada en forma de ejemplos para que las máquinas puedan tomar decisiones por propia cuenta. Lo hace mediante entrenamientos previos, el análisis de datos y la estadística computacional. Es un área de investigación que muchas empresas han empezado a tensar y ver de qué manera se integra dentro de algunos productos y servicios que utilizan millones de personas en el mundo. Google (ahora Alphabet) es uno de los que más esfuerzo está haciendo.

Casado y con cuarenta años a pesar que no los aparenta, Sergio Guadarrama bien lo sabe como ingeniero español de software de TensorFlow, biblioteca de código abierto para el aprendizaje automático de Google (ahora Alphabet). Una de las ventajas es, sin duda, su flexibilidad, puesto que se potencialmente aplicable a numerosas áreas, como la eficiencia energética, en donde ya existen proyectos para reducir el consumo de los centros de datos. Pero el abanico es muy amplio y entronca, por ejemplo, a esos programas informáticos que empiezan a abrirse camino en los dispositivos móviles, los asistentes virtuales. Pero estos avances se encuentran en una fase muy incipiente y el reto, por ahora, es que las máquinas sean un poco menos tontas y un poco más útiles.

«Google es capaz de rechazar el 99.9% del correo spam»
«Machine learning para todos». Así se titula su ponencia que ha ofrecido en unas jornadas en Google Campus. Un concepto interesante. Explíqueme un poco a qué se refiere.

Es una nueva manera de programar, de hacer algoritmos, que ya están aplicando muchas empresas, entre ellos, Google. Se basa en dar ejemplos en lugar de programar con reglas. El ejemplo muy claro es el correo catalogado como «spam». Si contiene esta palabra es «spam», si no la tiene no lo es. Pero, claro, nunca puedes programar todas las reglas que necesitas. En vez de eso le enseñas ejemplos. [Y la máquina] va aprendiendo, modificándose para que al final sepa distinguir un correo no deseado de otro. Ahora Google es capaz de rechazar el 99.9% del «spam».

¿Qué parámetros se utilizan para poder afinar el resultado?

Estamos utilizando y que da buenos resultados es «deep learning» -aprendizaje profundo-. Son redes neuronales que intentan aprender patrones sencillitos. Por ejemplo, en una imagen se entiende muy bien. Reconoce primero bordes, colores o texturas. Otra capa encima aprende de esos patrones. Por ejemplo, si pones dos bordes seguidos reconoce una esquina. Cuando pones varios patrones seguidos la siguiente capa puede reconocer un ojo. Más arriba el sistema si ve dos ojos y una boca identifica una cara. En otra capa más arriba entiende que si esos ojos y boca están en una determinada posición puede ser un gato o un perro. La última capa puede identificar esa imagen. Cuando se equivoca cada capa le dice a la anterior que se ha equivocado y, entonces, se corrige.

¿Con qué margen de error? Porque en alguna ocasión se ha generado una cierta polémica por identificar el algoritmo a una persona con otra cosa.

No son perfectos, seguimos trabajando en ello para mejorarlos. Pero te puedo decir que en los últimos cinco años hemos reducido los errores en un 20%. Todavía se equivoca, no es perfecto, pero hoy en día el sistema de reconocimiento de animales, de razas de perros y cosas así a lo mejor es capaz de hacerlo bien en el 95% de las veces. En otros casos más complejos en donde el contexto cambia como un perro con sombrero y disfrazado de vaquero es más difícil y requiere de algo más de razonamiento. En ese caso se puede confundir…

Engañar…

No engañar, se puede confundir. En realidad es un perro disfrazado. Entra dentro de los fallos normales que todavía las máquinas siguen cometiendo pero tomamos buena nota y se corrige rápidamente. Lo que sí está claro es que se equivocan y también se equivocan porque no están bien entrenadas, necesitan más datos y más supervisión.

Extrapolando estos avances en un entorno más cercano, ¿de qué manera nos podemos beneficiar las personas que una máquina haga el trabajo?

En muchas cosas. Creo que la gente no se da cuenta pero un ejemplo es lo del «spam». Otro muy claro es el traductor. Hoy en día puedes ir a YouTube y el sistema puede poner subtítulos automáticamente y, además, los puede traducir. Imagínate que ves un video que está en inglés, lo transcribe, pone los subtítulos en ese idioma, pero si se quiere también se puede traducir al español. Otro ejemplo que está muy bien es el de las fotos. Antes tenías que etiquetarlas. Ahora, estos aprendizajes son capaces de aprender patrones y reconocer. Puedes buscar dentro de tu librería fotográfica y preguntarle «enséñame las fotos de cuando fui a Ibiza», «muéstrame las fotos donde haya un atardecer», o «dónde está mi perro». Y él solo es capaz de analizar de todas las fotos que tienes y enseñarte solo las que contienen esa búsqueda.

Viendo el nivel al que estamos llegando existe el debate acerca de los potenciales peligros de los robots y la Inteligencia Artificial pueden acarrear en la sociedad. ¿Debemos temer?

Yo creo que no. Es importante que las personas se hagan esas preguntas. Hay personas interesadas en analizar las implicaciones en la sociedad, qué beneficios puede tener al conjunto de la sociedad, que sean menos intrusivas. Desde Google optamos por guiarnos por unos principios que queremos aplicar «machine learning» para mejorar los productos, que pueda tener un impacto real en los usuarios y mejore la vida de la gente. E, incluso, llevarlo más allá y que sean capaces de atacar problemas reales complejos como el cambio climático, las energías renovables y que eso luego pueda tener un impacto beneficioso. El ejemplo de antes sirve. Un perro con sombrero de vaquero puede confundirse. Un niño no.

«En los últimos años los márgenes de error de reconocimiento han bajado. Antes era de un 20%. [...] Ahora estamos en torno al 3%»
Estos avances están relacionados con los llamados asistentes virtuales (Assistant, Siri, Cortana…). Hasta ahora, la interacción entre el ser humano y la máquina venía de texto y pantallas. ¿Estamos llegando al punto de madurez para que la voz se imponga?

Claramente. Los últimos años los márgenes de error de reconocimiento han bajado. Antes era de un 20%. De cada cien palabras podría equivocarse en veinte palabras. Y había que corregirlo. Ahora estamos en torno al 3%. De cada cien palabras que dices se equivoca en dos o tres. Si coges el móvil y le dices que te busque algo de manera coloquial, funciona. Eso va a transformar la manera en la que te comunicas con el móvil. En Google el 20% de las búsquedas ya se hacen con voz porque, claro, la gente no quiere estar tecleando algo concreto.

Está creciendo, pero el texto, pese a todo, sigue siendo el principal método de acceso.

Sí, eso no cambia porque hay otros casos en los que uno no quiere hablar. Imagínate que tú estás en una reunión y quieres contestar. No va a desaparecer el texto. Lo que quieres es añadir nuevas posibilidades.

¿Afecta el componente sociológico que las personas les cuesta, tal vez por vergüenza, hablar en público con el móvil?

Sí, eso es como todo. Hasta que se acostumbran a las nuevas tecnologías. Hace poco mi madre, por ejemplo, le estaba mandando un mensaje de WhatsApp a su nieto y, claro, con el móvil se cansaba. Y le enseñé que podía darle a un botón y dictarlo; ahora lo usa todo el día. Ella no sabe que hay «machine learning» detrás de todo ello. Tal vez no lo hace en público, pero cuando quiere mandarle un mensaje es mucho más cómodo.

¿Cuáles son los retos y obstáculos que se encuentra en este aspecto?

Retos hay muchos. No son perfectos. Es un ámbito de investigación para reducir esos márgenes de error donde todavía se producen, como en el contexto, si tal cosa es importante, el sentido común, si en función si ya te conozco o no utilizo distintas palabras. Esto último es algo que los seres humanos pueden hacer con mucha facilidad, el adaptar el lenguaje según el oyente, eso les cuesta a los asistentes más. Es un reto muy potente atacar. Algunos obstáculos son tecnológicos y, en otros, encontrar nichos de aplicación donde se ve la verdadera utilidad. Que eso tenga una utilidad real y que, por tanto, los usuarios quieren utilizarlos. Y eso es un obstáculo a veces porque no se puede demostrar el valor real que tiene a la sociedad.

Google Home es ejemplo de que también han dado el salto como control de algunas funciones domésticas. ¿Llegaremos al punto en que nos comunicaremos con las máquinas con un lenguaje natural?

Yo creo que eso es algo que ya pasa en aspectos concretos. Lo que no ocurre a lo mejor son otras cosas en general. Pero para casos como búsquedas ya sucede. Si le preguntas a Home si va a llover mañana, te contesta. Y si posteriormente le dices, «recuérdame entonces que me lleve el paraguas antes de irme» entonces a las ocho de la mañana antes de irte suena la alarma y te sugiere que no olvides llevártelo porque va a llover.

Se refiere a un reconocimiento contextual cuando antes el sistema tenía que reconocerlo palabra por palabra, ¿no?

Sí, ahora reconoce la frase completa y entiende el contexto. Hasta que le pidas que te recuerde la próxima visita al dentista y que sepa que es el mismo dentista al que fuiste el mes pasado. Estamos entrenando a las máquinas hoy en día.

«Estamos en los primeros pasos. Si AlphaGo juega contigo al Go te machaca, pero si le echas una partida a la brisca le das una paliza»
¿Y la privacidad dónde queda en todo esto cuando las máquinas están «escuchando» al usuario?

La privacidad se lo toman muy en serio. Nadie tiene acceso a ningún tipo de datos de nadie. Nadie dentro de Google puede dar ni correos, ni conversaciones. Cada uno solamente tiene acceso a la información justa que necesita para el proceso específico con lo cual no hay nadie que pueda espiar. Ni Larry Page (cofundador de la compañía) puede entrar ni ver nada. Para darte una idea. La privacidad es tan serio dentro de la compañía que nadie tiene acceso a ningún tipo de cosas. Pero, además, lo protege de «hackers».

Asombra ver, por ejemplo, cómo AlphaGo, la máquina que venció al campeón mundial del complicado juego Go..

Son avances muy importantes. Estamos en los primeros pasos. Si AlphaGo juega contigo al Go te machaca, pero si le echas una partida a la brisca le das una paliza. Porque no sabe, no está entrenado. Es un reto que tenemos por delante: cómo estos algoritmos de «machine learning» para que puedan resolver aspectos de diferentes tareas de manera más rápida y que necesiten menos datos de aprendizaje.

Toda la actualidad en portada

comentarios