Creación de corpus oral y bilingüe

Creación de corpus oral y bilingüe

La traducción automática, que se viene desarrollando desde aproximadamente finales de los años 70, utiliza un método llamado traducción automática basada en reglas (software típico: SYSTRAN), que utiliza diccionarios y gramáticas creados por humanos para la traducción. Sin embargo, hay pocas combinaciones lingüísticas para las que se disponen diccionarios y gramáticas, y se necesitaba una enorme cantidad de tiempo sólo para recopilar la información.

Más tarde, en las décadas de los 80 y 90, la traducción automática estadística sustituyó a la traducción automática basada en reglas. La traducción automática estadística es un método estadístico de traducción que utiliza frecuencias y distribuciones de palabras para calcular la importancia de cada una de ellas. La máquina consta de dos modelos: un modelo de traducción que aprende a partir de datos bilingües y un modelo estadístico que define la secuencia de palabras en el idioma al que se traduce, lo que permite traducir muchos idiomas por máquina siempre que haya datos bilingües (corpus) para el entrenamiento y datos del idioma al que se traduce. Sin embargo, sigue habiendo problemas de precisión, y aunque la traducción entre combinaciones lingüísticas occidentales, como el inglés-francés, funciona bien, no se puede garantizar una alta precisión de traducción entre lenguas con órdenes de palabras diferentes, como el japonés-inglés.

Sin embargo, en 2016, Google cambió su método de traducción de su anterior traducción automática estadística a una nueva traducción automática que utiliza el aprendizaje profundo. La traducción resultante sorprendió a los usuarios al ser tan fluida y legible como si fuera una traducción humana. Se consiguió una precisión de traducción muy alta mediante el aprendizaje de grandes cantidades de datos de texto con una red neuronal de tres capas. A partir de ese momento, se generalizó el uso de la llamada traducción automática con Inteligencia Artificial (IA). (Ejemplos típicos: Google, DeepL, Mirai Translation, Rosetta, etc.)

La traducción automática estadística también utilizaba corpus como datos de aprendizaje, pero el aprendizaje profundo requiere una cantidad mucho mayor de datos para aprender una amplia variedad de características. Actualmente se está investigando y desarrollando para que las máquinas aprendan por sí solas, incluso con pocos datos de aprendizaje, pero para mejorar la precisión de la traducción automática en cualquier campo se necesita una cantidad importante de datos de aprendizaje.

En la actualidad, empresas grandes extranjeras como Google y Amazon están utilizando una gran cantidad de presupuesto para desarrollar una IA utilizando grandes cantidades de datos de aprendizaje y aplicaciones de IA a través de sus propias plataformas. Aunque el uso de datos grandes, que es una mezcla de datos limpios y sucios, para el aprendizaje de datos puede llevar a veces a errores de traducción y reconocimiento, pero la ventaja es que el desarrollo puede proceder de forma dinámica y rápida. Por otro lado, Japón también tiene una historia de investigación en traducción automática que diferentes compañías compiten entre sí desde los años 90. Un corpus de gran precisión será esencial durante algún tiempo para proporcionar a la IA, y a los productos equipados con ella una funcionalidad de traducción de mayor calidad que es única en Japón.

Desde 2020, Franchir también trabaja con el banco de traducción del Instituto Nacional de Tecnologías de Información y Comunicación (por sus siglas en inglés NICT), que se utiliza para crear datos bilingües, evaluar los resultados de la traducción y grabar las voces de los actores de voz extranjeros para la síntesis de texto a voz. También hemos participado en proyectos de empresas extranjeras de grabación de voces japonesas. Esperamos seguir proporcionando corpus de alta calidad para su investigación y uso en IA.

Logros en la creación de corpus oral y bilingües

  • Desarrollo de datos relacionados con el banco de traducción (creación de datos bilingües para 263 libros), en el 2020.
  • Elaboración de datos bilingües para japonés, inglés, chino y coreano (creación de datos bilingües para 34 libros), en el 2020.
  • Evaluación de los resultados de la traducción automática para las lenguas asiáticas (inglés/hindi/bengalí), en el 2020.
  • Trabajo de grabación del corpus de habla rusa para la síntesis del habla (contrato de precio por unidad) (10.500/vocalista, aproximadamente 105 horas)
  • Trabajo de grabación de enunciados en japonés (cliente extranjero) (20 enunciados por persona, 61 mujeres, 54 hombres), en el 2020.
  • Comparación de la precisión de traducción de los motores de traducción automática para la conversación médica (japonés, inglés, chino, coreano, español, francés, tailandés, portugués, tagalo, etc.).
  • Trabajo de construcción de un corpus de interpretación simultánea (inglés, chino, coreano, vietnamita), en el 2021.
  • Recopilación de terminología empresarial y trabajo de traducción multilingüe (contrato de precio por unidad) (inglés, chino, coreano, tailandés, vietnamita, indonesio, birmano, español, francés, portugués brasileño, filipino, nepalí, jemer, mongol: 14 idiomas), en el 2021.

Tarifa básica de creación de corpus oral y bilingües

Corpus bilingüe

Japonés – Inglés (sin IVA) Japonés – lenguas extranjeras distintas del inglés (sin IVA) Inglés – lengua extranjera (sin IVA)
corpus bilingüe
(Datos de texto)
500 yenes/página 500 yenes/página 500 yenes/página
corpus bilingüe
(PDF, datos de imagen, en hoja, etc. que requieren la conversión de texto)
600 yenes/página 600 yenes/página 600 yenes/página
El formato de entrega es en libro de Excel (formato .xlsx).
Una página es de aproximadamente 800 carácteres japoneses y 250 palabras en inglés.

Evaluación de los resultados de la traducción automática

Japonés – Inglés (sin IVA) Japonés – lenguas extranjeras distintas del inglés (sin IVA) Inglés – lengua extranjera (sin IVA)
corpus bilingüe
(Datos de texto)
300 yenes/oración 300 yenes/oración 300 yenes/oración

Recolección de datos grabados para la síntesis del habla

Japonés (sin IVA) Inglés (sin IVA) Otros idiomas (sin IVA)
Recolección de voz para la síntesis del habla 500 yenes/oración 500 yenes/oración 500 yenes/oración
El audio grabado se entrega en archivos de formato WAV.

Notas

* Por favor, infórmenos por adelantado los detalles del uso previsto y el formato de entrega.
* Los precios anteriores son sólo de referencia. El precio indicado puede variar en función del volumen, las especificaciones y el idioma.
Haga clic aquí para una estimación sin costo
Realice una solicitud cuando quiera
Para trabajar como intérprete o traductor (autónomo)
Si tiene alguna pregunta, no dude en contactarnos.
Buscar dentro de la página web
Franchir ha recibido la marca de privacidad (Privacy Mark)