TRADUCCIÓN AUTOMÁTICA

La traducción automática (TA), también llamada MT (del inglés Machine Translation), es un área de la lingüística computacional que investiga el uso de software para traducir texto o habla de un lenguaje natural a otro. En un nivel básico, la traducción por computadora realiza una substitución simple de las palabras atómicas de un lenguaje natural por las de otro. Por medio del uso de corpora lingüísticos se pueden intentar traducciones más complejas, lo que permite un manejo más apropiado de las diferencias en la tipología linguística, el reconocimiento de frases, la traducción de expresiones idiomáticas y el aislamiento de anomalías.

Sistemas de Traducción Automática

Normalmente, los sistemas de traducción automática actuales permiten establecer parámetros (por ejemplo, limitando el rango de sustituciones permitidas) de acuerdo con el dominio o la profesión en la que se hace la traducción, lo que efectivamente mejora el resultado. Esta técnica es particularmente útil en campos donde se emplea un lenguaje formal o basado en formularios, como los reportes del tiempo y los documentos legales o administrativos, pero su uso no es viable en la traducción de conversaciones u otros textos menos estandarizados.

En las últimas décadas ha habido un fuerte impulso en el uso de técnicas estadísticas para el desarrollo de sistemas de traducción automática. Para la aplicación de estas técnicas a un par de lenguas dado, se requiere la disponibilidad de un corpus paralelo para dicho par. Mediante este corpus se estiman parámetros de sendos modelos estadísticos que establecen la probabilidad con la que ciertas palabras son susceptibles de traducirse por otras, así como las posiciones más probables que tienden a ocupar las palabras de la lengua destino en función de las palabras correspondientes de la frase origen. El atractivo de estas técnicas radica en que el desarrollo de un sistema para un par de lenguas dado puede hacerse de manera muy automática, con una muy reducida necesidad de trabajo experto por parte especialistas en lingüística.

La intervención humana puede mejorar la calidad de la salida: por ejemplo, algunos sistemas pueden traducir con mayor exactitud si el [usuario] ha identificado previamente las palabras que corresponden a nombres propios. Con la ayuda de estas técnicas, la traducción por computadora ha mostrado ser un auxiliar útil para los [traductores] humanos. Sin embargo, y aún cuando en algunos casos pueden producir resultados uilizables «tal cual», los sistemas actuales son incapaces de producir resultados de la misma calidad que un traductor humano, particularmente cuando el texto a traducir usa [lenguaje coloquial] o familiar.

En esta dirección, recientemente están cobrando especial interés las técnicas estadísticas de traducción asistida basadas en una aproximación interactiva-predictiva, en la que el computador y el traductor humano trabajan en estrecha colaboración mutua. Tomando como base el texto fuente a traducir, el sistema ofrece sugerencias sobre posibles traducciones a la lengua destino. Si alguna de estas sugerencias es aceptable, el usuario la selecciona y, sino, corrige lo necesario hasta obtener un fragmento correcto. A partir de este fragmento, el sistema produce mejores predicciones. El proceso continua de esta manera hasta obtener una traducción completamente aceptable por el usuario. Según las evaluaciones realizadas con usuarios reales en el proyecto TransType-2, este proceso permite reducir considerablemente el tiempo y esfuerzo necesarios para obtener traducciones de calidad.

Historia de la traducción automática

La aspiración de obtener artilugios mecánicos que sirvan para superar las barreras lingüísticas viene de antiguo. En el siglo XVII se habla de la utilización de diccionarios mecánicos (basados en códigos numéricos universales) para superar las barreras del lenguaje, dentro de un movimiento a favor de la creación de una “lengua universal” no ambigua, basada en principios lógicos y símbolos icónicos, que permitiese comunicarse a toda la humanidad. Este empeño precede por bastante tiempo a la propia existencia del ordenador. Por ello, se puede entender que desde el momento en que un ordenador estuvo disponible en la década de 1940, la traducción automática pasó a convertirse inmediatamente en una de las aplicaciones estrella de la informática.

Desde entonces, ha dado tiempo a realizar numerosos experimentos, pequeños y grandes, así como inversiones institucionales e industriales sustanciosas. Un referente obligado para conocer con más detalle la evolución de la traducción automática es el académico británico John Hutchins, cuya bibliografía puede, por suerte, ser consultada libremente en Internet. En esta breve reseña de la TA vamos a seguir el esquema simplificado de Johnatan Slocum, que aborda la historia de la TA por décadas. A sus cuatro décadas hasta 1985 vamos añadir dos más.

Tipos de traducción automática

Si disponen de suficiente información, las traducciones automáticas pueden funcionar bastante bien, permitiendo que personas con una lengua materna determinada sean capaces de hacerse una idea de lo que ha escrito otra persona en su idioma. El problema principal reside en obtener la información adecuada para cada uno de los métodos de traducción.

Según su aproximación, los sistemas de traducción automática se pueden clasificar entre dos grandes grupos: los que se basan en reglas lingüísticas por una parte, y los que utilizan corpus textuales por otra.

1. Traducción automática basada en reglas

Esquema que muestra la relación entre los diferentes paradigmas de traducción automática basada en reglas.

La traducción automática mediante reglas consiste en realizar transformaciones a partir del original, reemplazando las palabras por su equivalente más apropiado.

En general, en una primera fase se analizará un texto, normalmente creando una representación simbólica interna. Dependiendo de la abstracción de ésta representación también podemos encontrar diferentes grados: desde los directos, que básicamente hacen traducciones palabra por palabra, hasta interlingua, que utiliza una representación intermedia completa.

2. Diccionario

Utilizan como modelo diccionarios bilingües. La traducción de un texto se obtiene a partir de la traducción palabra por palabra, sin tener en cuenta ni la relación entre ellas ni el contexto en que se encuentran.

3. Transferencia

En la traducción por transferencia, el análisis del original juega un papel más importante, y da paso a una representación interna que es la que se utiliza como enlace para traducir entre idiomas distintos.

4. Lenguaje intermedio

La traducción automática a partir de un lenguaje intermedio es un caso particular de la traducción automática basada en reglas. El lenguaje original, por ejemplo un texto que debe ser traducido, es transformado a un lenguaje intermedio, cuya estructura es independiente a la del lenguaje original y a la del lenguaje final. El texto en el lenguaje final se obtiene a partir de la representación del texto en el lenguaje intermedio.

5. Traducción automática basada en corpus

La traducción automática a partir corpus lingüísticos se basa en el análisis de muestras reales con sus respectivas traducciones. Entre los mecanismos que utilizan corpus se incluyen los métodos estadísticos y los basados en ejemplos.

6. Estadística

El objetivo de la traducción automática estadística es generar traducciones a partir de métodos estadísticos basados en corpus de textos bilingües, como por ejemplo las actas del parlamento europeo, que se encuentran traducidas en todos los idiomas oficiales de la UE Si la existencia de estos corpus fuese mayor se podrían conseguir resultados excelentes al traducir textos de ámbitos similares.

El primer programa de traducción automática estadística fue CANDIDE, desarrollado por IBM. Hoy en día Google usa SYSTRAN, pero está trabajando en un método de traducción estadística para sus futuras traducciones automáticas. Recientemente han mejorado sus capacidades traductoras al añadir 200 billones de palabras de las Naciones Unidas que permitirán entrenar el sistema.

Aunque la exactitud de las traducciones, tanto las estadísticas como las que no, se ha incrementado con los años, la gran cantidad de posibilidades que tiene una palabra de ser traducida de un idioma a otro relega la traducción automática a un método que tan solo permite transmitir la idea esencial.

7. Basada en ejemplos

La traducción automática basada en ejemplos, se caracteriza por el uso de un corpus bilingüe como principal fuente de conocimiento en tiempo real. Es esencialmente una traducción por analogía y puede ser interpretada como una implementación del razonamiento por casos base empleado en el aprendizaje automático, que consiste en la resolución de un problema basándose en la solución de problemas similares.

8. Traducción automática basada en el contexto

La traducción automática basada en el contexto utiliza técnicas basadas en hallar la mejor traducción para una palabra fijándose en el resto de palabras que la rodean, básicamente este método se basa en tratar el texto en unidades de entre 4 y 8 palabras, de manera que se traduce cada una de ellas por su traducción al idioma destino y se eliminan las traducciones que han generado una "frase" sin sentido. Luego se mueve la ventana una posición (palabra), retraduciendo la mayoría de ellas de nuevo y volviendo a filtrar dejando solo las frases coherentes. Se repite dicho paso para todo el texto. Y luego se pasa a concatenar los resultados de dichas ventanas de manera que se logre una única traducción del texto. El filtrado que se realiza donde se decide si es una frase con sentido utiliza un corpus del lenguaje destino, donde se cuentan el número de apariciones de la frase buscada.

Es por tanto un método basado en ideas bastante simple que ofrece unos muy buenos resultados en comparación a otros métodos. Como ventajas aporta también la facilidad de añadir nuevas lenguas. Ya que es solo necesario:

· un buen diccionario, que puede ser cualquier versión comercial adaptada mediante reglas gramaticales para tener los verbos conjugados y los nombres/adjetivos con sus variaciones en número y género.

· un Corpus en el lenguaje destino, que se puede sacar por ejemplo de Internet. Sin que sea necesario traducir ninguna parte, como en los métodos estadísticos.

Actualizado el 25/11/2009 Eres el visitante número ¡En serio! Eres el número