Logotipo de Zephyrnet

El kiwi perdido de la traducción automática: estimación de calidad de código abierto

Fecha:

Era 1954 y el futuro estaba claro: los traductores humanos quedarían obsoletos en unos pocos años.

Al menos eso es lo que los investigadores de IBM declaró con orgullo en la primera demostración pública de su sistema de traducción automática.

Ahora sabemos cuán lejos de la verdad estaba y sigue estando esa declaración. Pero incluso al principio de la historia de la traducción automática, durante los años de la posguerra, no todo fue un optimismo desenfrenado.

De hecho, en 1947, el científico estadounidense y pionero de la MT Warren Weaver dijo:

Naturalmente, uno se pregunta si el problema de la traducción podría tratarse como un problema de la criptografía. Cuando miro un artículo en ruso, digo: 'Esto está realmente escrito en inglés, pero ha sido codificado con algunos símbolos extraños. Ahora procederé a decodificar.

Unos años más tarde, Weaver prosiguió con esto: "Ninguna persona razonable cree que una traducción automática pueda lograr elegancia y estilo".

La cuestión es que la traducción requiere más que un anillo decodificador. Si alguna vez ha intentado traducir poesía o literatura con un servicio de traducción automática, la salida puede parecerse mucho a si estuviera decodificando mensajes secretos.

Y es por eso que los humanos juegan un papel clave. Nuestro conocimiento único sobre el mundo es fundamental para la traducción. Los humanos entendemos el contexto de una conversación, el trasfondo cultural, los significados ocultos. Las máquinas aún no tienen ese tipo de conocimiento. Como dice nuestro CEO, Vasco Pedro: “Los sistemas de traducción automática están entrenados para leer oraciones paralelas, que es un poco como enseñar a hablar a un loro; el loro puede hacerlo, pero nunca van a entender realmente lo que están diciendo."

Esto explica por qué los extraordinarios desarrollos en la MT en los últimos años aún no han alcanzado el nivel en el que las personas tienen la confianza suficiente para permitir que los humanos los controlen. Aquí es donde estimación de calidad (QE) entra en juego.

En Unbabel, hemos estado impulsando el estado del arte en QE para ayudar a entregar traducciones rápidas y precisas, a escala, a muchos de nuestros clientes, incluidas empresas como Booking.com, Microsoft, Skyscanner y Pinterest.

Debido a que la QE juega un papel tan importante en nuestro negocio, decidí escribir este artículo para explicar por qué creo QE es realmente el eslabón perdido en la traduccióny cómo OpenKiwi (nuestro nuevo marco de código abierto para QE) contribuirá al avance de la MT impulsada por humanos.

¿Qué es la estimación de la calidad de la traducción?

Antes de profundizar en lo que puede hacer QE para mejorar las traducciones automáticas, es importante entender exactamente de qué estamos hablando.

La estimación de calidad es lo que utilizamos para evaluar la calidad de un sistema de traducción sin acceso a traducciones de referencia. En otras palabras, su objetivo es averiguar qué tan buena o mala es una traducción, sin intervención humana.

Se puede utilizar para muchos propósitos diferentes:

  • Informar a un usuario final sobre la confiabilidad del contenido traducido;
  • Para decidir si una traducción está lista para su publicación o si requiere post-edición humana;
  • Para resaltar las palabras que deben cambiarse.

En Unbabel, utilizamos QE para garantizar que, si una traducción no es lo suficientemente buena para ser entregada, sea revisada por nuestra comunidad bilingüe de más de 100,000 traductores. Pueden corregir rápidamente los errores y proporcionar traducciones de alta calidad a nuestros clientes. Cuanto más traducimos, más aprende el sistema y menos errores cometerá en el futuro.

Por lo tanto, una buena QE alivia la carga de los traductores humanos. Con un sistema automatizado que resalta los errores incluso antes de que comience el proceso humano, los traductores pueden concentrarse en las áreas de un contenido que probablemente necesite atención.

En los últimos años, hemos sido testigos de las cosas notables que la tecnología y la comunidad pueden lograr juntas. Nos gustaría integrar la comunidad aún más profundamente en nuestra tecnología y procesos, con OpenKiwi, un marco colaborativo para la estimación de calidad.

Marco de código abierto para la estimación de la calidad

OpenKiwi: un marco de código abierto para la comunidad de traducción automática

En Unbabel, nuestros modelos de traducción automática se ejecutan en sistemas de producción para 14 pares de idiomas, y la cobertura y el rendimiento mejoran con el tiempo, gracias a la creciente cantidad de datos producidos por nuestros traductores humanos a diario. Esta combinación de inteligencia artificial y humanos es lo que hace que nuestro proceso de traducción sea mejor y más rápido.

Sin embargo, nuestro sistemas de estimación de calidad galardonados no estaban disponibles para investigadores externos, y esto impuso un límite a lo que podíamos lograr juntos. En Unbabel creemos firmemente en la investigación reproducible y colaborativa. Queremos que toda la comunidad de investigación de IA se beneficie de nuestros hallazgos y queremos que podamos construir, prosperar y experimentar juntos.

Esto nos inspiró a construir AbiertoKiwi.

OpenKiwi es un marco de código abierto que implementa los mejores sistemas de estimación de calidad, lo que hace que sea realmente fácil experimentar e iterar con estos modelos bajo el mismo marco, así como desarrollar nuevos modelos. Combinando estos modelos podemos lograr mejores resultados en estimación de calidad a nivel de palabra.

El poder del código abierto

Ahora, mucha gente puede preguntarse qué nos hizo construir un marco de código abierto, en lugar de guardarnos nuestra tecnología QE para nosotros. Si hay algo en lo que creemos es en la colaboración.

No hace mucho, la "barrera de entrada" incluso para proyectos de software básicos era extremadamente alta. Podría llevar meses reproducir los resultados de un trabajo de investigación, simplemente porque el código subyacente utilizado en el proyecto no estaba disponible.

El software de código abierto ofrece un conjunto de beneficios que supera con creces los inconvenientes percibidos. Al permitir que otros accedan a lo que hemos creado, no solo nos permite conseguir una comunidad más grande de expertos para trabajar con nosotros, sino que también podemos realizar mejoras más rápidas y adicionales juntos. En las soluciones de código abierto, incluso los problemas más pequeños se notan, señalan y solucionan más rápido.

Mire la traducción automática en sí. Como campo, MT se ha beneficiado enormemente del software de código abierto como Moisés, AbiertoNMTy Marian, Entre muchos otros. Estos proyectos lograron agregar una gran comunidad de colaboradores que están avanzando en el estado del arte en traducción automática, provenientes tanto de la industria como del mundo académico. También contribuimos a algunos de estos proyectos. ¡Esto es genial!

Sin embargo, no existía nada equivalente en Quality Estimation. Allí, las iniciativas de código abierto existentes son muy pocas, utilizadas solo por unos pocos gr.
grupos en la academia, y en realidad nunca ganaron la misma tracción. Este es el vacío que estamos llenando ahora con OpenKiwi.

Al hacer que OpenKiwi esté disponible para la comunidad, estoy seguro de que todos contribuiremos a una imagen más amplia y daremos forma al futuro de la traducción.

A pesar de todos los avances, la traducción automática sigue siendo muy mecánica, al menos por ahora. Pero junto con los datos implementados cuidadosamente y los editores humanos que conocen su idioma por dentro y por fuera, la traducción automática está preparada para aumentar el acceso, mejorar las relaciones entre el consumidor y la empresa y crear comprensión en todo el mundo.

Fuente: https://unbabel.com/blog/open-source-machine-translation-quality-estimation/

punto_img

Información más reciente

punto_img