Réalisation de corpus vocaux et bilingues

La traduction automatique, développée à partir de la deuxième moitié des années 1970, utilisait une méthode appelée « traduction automatique à base de règles », qui nécessite pour traduire des entrées de dictionnaires et des règles linguistiques créées par l’homme (logiciel type: SYSTRAN). Cependant, peu de paires de langues disposaient de dictionnaires et de grammaires;de plus, le simple fait de collecter les informations prenait énormément de temps.

Plus tard, dans les années 1980 et 1990, la traduction automatique statistique a remplacé la traduction automatique basée sur des règles. La traduction automatique statistique est une méthode de traduction statistique qui calcule l’importance de chaque mot sur la base de facteurs tels que la fréquence des mots et leur distribution. Le traducteur automatique se compose de deux modèles : un modèle de traduction qui apprend à partir de données bilingues et un modèle statistique qui définit la séquence des mots dans la langue cible. Il était ainsi possible de traduire de nombreuses langues par traduction automatique, à condition de disposer de données bilingues (corpus) pour l’apprentissage et de données sur la langue cible. Toutefois, des problèmes de précision subsistaient et, même si la traduction entre des paires de langues occidentales telles que l’anglais et le français fonctionnait bien, il n’était pas possible de garantir une grande précision de traduction entre des langues dont l’ordre des mots est différent, comme le japonais et l’anglais.

Cependant, en 2016, Google a changé de méthode de traduction, passant de la traduction automatique statistique utilisée jusque-là à une nouvelle traduction automatique utilisant l’apprentissage profond. La traduction obtenue a surpris les utilisateurs par sa fluidité et sa lisibilité, comparables à celles d’une traduction humaine. L’apprentissage de grandes quantités de données textuelles à l’aide d’un réseau neuronal à trois couches a permis d’obtenir une très grande précision de traduction. À partir de là, l’utilisation de la traduction automatique dite « IA » s’est généralisée. (logiciels représentatifs : Google, DEEPL, Mirai Translation, Rosetta, etc.)

Même si la traduction automatique statistique utilise également des corpus comme données d’apprentissage, l’apprentissage profond nécessite lui beaucoup plus de données d’apprentissage pour assimiler une grande variété de caractéristiques. Actuellement, des travaux de recherche et développement sont menés pour permettre aux traducteurs automatiques d’apprendre automatiquement, même à partir de quantité minime de données d’apprentissage; cependant, l’amélioration de la précision de la traduction automatique dans tous les domaines nécessite, en l’état actuel, une quantité considérable de données d’apprentissage.

Aujourd’hui, les géants internationaux du Web tels que Google et Amazon investissent énormément pour développer l’IA en utilisant les quantités considérables de données d’apprentissage disponibles sur leurs propres plateformes et les applications d’IA . L’utilisation du big data, ensemble de données propres (exactes) et de données sales (inexactes, inappropriées, etc.), comme données d’apprentissage, conduit parfois à des erreurs de traduction ou d’interprétation ; cependant, l’avantage de son utilisation réside dans un développement dynamique et rapide. D’autre part, les recherches sur la traduction automatique se poursuivent également au Japon depuis les années 1990, les fabricants se livrant à une course à la concurrence. Afin de fournir à l’IA et aux produits équipés d’IA les capacités de traduction de haute qualité propres au Japon, un corpus très précis s’avère essentiel pour le moment.

Depuis 2020, Franchir participe également à l’élaboration de données bilingues rassemblées sous forme d’une banque de traduction pour l’Institut national des technologies de l’information et de la communication (NICT), nous évaluons des résultats de traduction, ou encore nous effectuons des enregistrements de voix de narrateurs professionnels étrangers pour la synthèse vocale. Nous avons également participé à des projets d’enregistrement de bandes sonores en japonais pour des entreprises étrangères. Nous souhaitons continuer à vous proposer des corpus de haute qualité que ce soit pour vos recherches ou pour l’utilisation de l’IA.

Exemples de réalisations de corpus vocaux et bilingues.

2020, développement des données en relation avec la banque de traduction (création de données bilingues pour 263 volumes)
2020, élaboration de données bilingues japonais-anglais-chinois-coréen (création de données bilingues pour 34 volumes)
2020, évaluation de résultats de traduction automatique pour les langues asiatiques (anglais/hindi/bengali)
Travail sur l’enregistrement d’un corpus vocal russe pour la synthèse vocale (contrat à prix unitaire) (10 500/vocaliste, environ 105 heures)
2020 (demande d’un client étranger), travail d’enregistrement d’énoncés en japonais (20 énoncés par personne, 61 femmes, 54 hommes)
Comparaison de la précision de traduction des moteurs de traduction automatique pour la conversation médicale (japonais, anglais, chinois, coréen, espagnol, français, thaïlandais, portugais, tagalog, etc.)
2021, travail sur la création de corpus d’interprétation simultanée (anglais, chinois, coréen, vietnamien)
2021, collecte de termes commerciaux et travaux de traduction multilingue (contrat à prix unitaire) (anglais, chinois, coréen, thaïlandais, vietnamien, indonésien, birman, espagnol, français, portugais brésilien, philippin, népalais, khmer, mongol : 14 langues au total)

Tarif de base pour travaux de corpus vocal et bilingue

Corpus bilingue

	Japonais – Anglais (hors taxes)	Japonais – langues étrangères autres que l’anglais (hors taxes)	Anglais – langue étrangère (hors taxes)
Corpus bilingue (Données textuelles)	500 yens/page	500 yens/page	500 yens/page
Corpus bilingue (PDF, données d’image, papier, etc., tout document nécessitant une transcription)	600 yens/page	600 yens/page	600 yens/page

Le format de livraison est un document Excel (format xlsx).
Définition d’une page　: environ 800 caractères japonais ou 250 mots de texte anglais.

Travaux d’évaluation de résultats de traduction automatique.

	Japonais – Anglais (hors taxes)	Japonais – langues étrangères autres que l’anglais (hors taxes)	Anglais – langue étrangère (hors taxes)
Corpus bilingue (Données textuelles)	300 yens/phrase	300 yens/phrase	300 yens/phrase

Collecte de données enregistrées pour synthèse vocale

	Japonais (hors taxes)	Anglais (hors taxes)	Autres langues (hors taxes)
Collecte de données vocales pour synthèse vocale	500 yens/phrase	500 yens/phrase	500 yens/phrase

Les enregistrements audio sont livrés sous forme de fichiers au format WAV.

Notes

※	Veuillez nous indiquer à l’avance l’utilisation prévue, le format de livraison souhaité et tout autre détail pertinent.
※	Les prix ci-dessus sont donnés à titre indicatif. Les prix des devis peuvent varier en fonction du volume, des spécifications et de la langue.

N'hésitez pas à faire votre demande

TEL: 03-6908-3671

Posez votre candidature comme traducteur/ interprète (freelance)

N`hesitez-pas a nous contacter.

Rechercher sur le site.

Information

Infos utiles

Blog

Franchir a obtenu la certification « Privacy Mark » pour protéger vos données personnelles.