martes, 15 de octubre de 2013

Los límites del traductor de Google en español

El traductor de Google (Google Translate) es una herramienta demasiado cómoda como para no usarla; aunque no hace falta ser filólogo para detectar errores de bulto, incongruencias y disparates, por no hablar del fino hilo que da sentido, tono y emoción a las palabras, frases y párrafos bien interpretados. ¿Por qué no acierta más? ¿Por qué Google habla un español raro (peor catalán y aún peor chino, y con diferente acierto en cada uno de los 71 idiomas que comprende)? ¿Ha tocado techo la calidad traducción automática? La respuesta es que ya no queda tanto margen de mejora y busca sin parar implementar el sistema para ganar calidad.

Google no traduce palabra por palabra, no sigue reglas gramaticales ni sintácticas, porque las excepciones a la regla, y las excepciones a las excepciones en cada uno de los idiomas haría inviable la herramienta. Google Translate, por el contrario, sigue la traducción automática estadística (la propulsó IBM en los noventa, pero GT es un desarrollo avanzado). Consiste en extraer patrones estadísticos a través de las probabilidades obtenidas tras analizar textos ya interpretados por traductores humanos profesionales.

La compañía de Mountain View, por ejemplo, ha confesado el análisis sistemático de los textos traducidos a diferentes idiomas por la ONU y la Unión Europea. La conversión, por tanto, consiste en reproducir las palabras en función de la probabilidad que hay de que la combinación se repita en el otro idioma (las llamadas tablas de frases). A las máquinas se les dan bien los números, no las letras; y esta es la forma de que entiendan una lengua.

Analizar traducciones humanas

El ideal consiste en que cuantos más textos analice, mejor será el patrón estadístico y mejor será por tanto la traducción. Aunque, en realidad, el margen de mejora que queda es escaso. Según confesó un entonces trabajador de Google Translate a «The Guardian», cada vez que Google duplica el número de textos analizados, solo mejora su acierto con suerte en un 0,5%. Y no se puede doblar hasta el infinito por mucho que la compañía no tenga rival en recorrer textos por internet.

Además, esta técnica solo da resultado en los idiomas que tienen un volumen de textos significativos para hacer una traducción directa entre un par de lenguas. Por ejemplo, Google no traduce directamente del inglés al catalán, sino que traduce del inglés al español y luego al catalán; entre las dos traducciones se multiplica el porcentaje de error. Igual ocurre con muchos otros pares, como el ucraniano con el inglés, que previamente tiene que pasar por el ruso. La empresa reconoce esa necesidad de mejora en cuanto proporciona una herramienta de participación para depurar las traducción, el Translator Toolkit.

Porcentaje de acierto

No existen muchas investigaciones externas sobre la exactitud de las traducciones de Google. Uno reciente (de 2013) ha sido elaborado por la Agencia para la Investigación y la Calidad del Cuidado de la Salud, del Gobierno de Estados Unidos. El organismo realizó un estudio para dar un porcentaje a la calidad de las traducciones de Google en comparación con traducciones profesionales en estudios médicos, del inglés al chino, al francés, al alemán, al japonés y al español. El estudio se hace sobre datos concretos extraídos del texto, no sobre el sentido del texto en su conjunto.

El resultado da un porcentaje de acierto global mayor del 76% en el 78% de los datos en español, similar al francés (74%) y superior al alemán (70%) y al japonés (67%). En chino, el porcentaje de acierto menor del 50% es del 22% de los datos, el peor de todos. La conclusión del estudio es que la traducción está lejos de la perfección y el «riesgo de ocasionar errores es muy alto». Y eso que ocurre entre pares de idiomas con traducción directa. En definitiva, no es perfecto. Y por eso Google busca un sistema mejorado.

Buscando un nuevo sistema

El equipo de investigación del gigante tecnológico acaba de hacer público un sistema que pretende completar al actual, y llevarlo a nuevas cotas de acierto. En lugar de analizar los textos contando las filas de palabras y extrayendo probabilidades, crea un mapa de palabras en un solo idioma (ver ejemplo debajo). Los vectores a partir de la distribución en el mapa se pueden reproducir en cualquier otra lengua. La traducción, por tanto, depende entonces del lugar que ocupe en el eje. El sistema, además, permite automatizar el aprendizaje.

Según sus autores, la calidad de la traducción entre el español y el inglés alcanza el 90% (del inglés al vietnamita se quedaría en el 30%). Aunque, como concluyen los investigadores, «claramente, todavía hay mucho que explorar». Por eso Google abrió en agosto la herramienta word2vec, un software diseñado para entender las relaciones entre palabras sin una guía humana, para que investigadores de todo el mundo sumen esfuerzos a la gran tarea del idioma en la aldea global.

Este estudio es el más reciente y con mayor publicidad, pero son continuas las líneas de investigación. Google cuenta con varias áreas de estudio dedicadas a la traducción y la relación lenguaje humano-máquina: traducción mecánica, procesamiento del discurso, procesamiento del lenguaje natural

La idea futurista final, ya anunciada, es crear el traductor universal, hablar por un auricular en un idioma y recibirlo en otra lengua al otro lado del teléfono. Sin olvidar la necesidad de Google de entender todos los textos que recorre, para analizar el caudal de información y, finalmente, colocar anuncios relacionados, al fin y al cabo la fuente de su negocio. Google no es la única compañía explorando el campo. Microsoft, la china Baidu, Ersatz y AlchemyAPItambién buscan analizar el lenguaje mediante técnicas de aprendizaje automático. Y ya comienza a ser cada vez más real el asistente virtual para que la máquina entienda la voz de su dueño.

No hay comentarios:

Publicar un comentario en la entrada