音声・対訳コーパス作成
音声・対訳コーパス作成
1970年代後半ごろから開発されてきた機械翻訳は、人が作成した辞書や文法により翻訳するルールベース機械翻訳(Rule-based machine translation)という方法が使われていました(代表的なソフト:SYSTRAN)。しかし辞書や文法が揃っている言語ペアはあまりなく、情報を収集するだけでも膨大な時間が必要でした。
その後1980年代から1990年代には、統計的機械翻訳(Statistical machine translation)がルールベース機械翻訳に代わって使われるようになりました。統計的機械翻訳とは、単語の出現頻度や単語の分布といったものでそれぞれの単語の重要度などを計算し、統計的な手法で翻訳するものです。翻訳機は対訳データから学習する翻訳モデルと、出力言語の単語の並びを規定する統計モデルという二種類のモデルで成り立っており、学習用の対訳データ(コーパス)と出力言語のデータさえあれば多くの言語を機械により翻訳することが可能になりました。ただ、その精度にはまだ問題が残り、英語―フランス語などの西洋言語同士の言語ペアでの翻訳がうまくいっても、日本語―英語のような語順が違う言語間では高い翻訳の精度は確保できませんでした。
しかし2016年、Googleはそれまでの統計的機械翻訳からディープラーニングを用いた新たな機械翻訳へと翻訳手法をスイッチしました。出来上がる翻訳は人間の翻訳であるかのように流暢で読みやすくなり、ユーザーを驚かせました。3層のニューラルネットワークで大量のテキストデータを学習することで、とても高い精度の翻訳が実現したのです。ここからいわゆるAI機械翻訳が広く使われるようになりました。(代表的なもの:Google, DEEPL, みらい翻訳、ロゼッタ、etc.)
統計的機械翻訳でも学習データとしてコーパスが使われていましたが、ディープラーニングでは、多種多様な特徴を学習するためには、より大量の学習データが必要となってきます。現在は少ない学習データでからでも機械が自分で学習するような研究開発が進められていますが、あらゆる分野での機械翻訳の精度をあげようとすると現状ではかなりの分量の学習データが必要になっています。
現在、Googleやアマゾンなどの海外の巨大会社はふんだんに予算を使い、自社のプラットフォームなどを通じて膨大な学習データやAIの活用を使ってAIを開発しています。清濁混ざったビッグデータを学習データに使うため時には誤訳や誤認識もおこしますが、ダイナミックかつスピーディに開発を進められるという利点があります。一方、日本にも1990年代から各メーカーが競って機械翻訳についての研究をしてきました歴史があります。日本独自の、より高い品質の翻訳機能をAIやAIを搭載した製品に提供するためには、しばらくは精度の高いコーパスがかかせません。
フランシールでも2020年から情報通信研究機構(NICT)の翻訳バンクと呼ばれる対訳データの作成や、翻訳結果の評価作業、音声合成用の外国人の声優音声の録音などを行っています。また海外企業から日本語の音声の収録プロジェクトにも参加してきました。今後も皆様の研究やAI利用のために、高品質のコーパスを提供したいと思っています。
その後1980年代から1990年代には、統計的機械翻訳(Statistical machine translation)がルールベース機械翻訳に代わって使われるようになりました。統計的機械翻訳とは、単語の出現頻度や単語の分布といったものでそれぞれの単語の重要度などを計算し、統計的な手法で翻訳するものです。翻訳機は対訳データから学習する翻訳モデルと、出力言語の単語の並びを規定する統計モデルという二種類のモデルで成り立っており、学習用の対訳データ(コーパス)と出力言語のデータさえあれば多くの言語を機械により翻訳することが可能になりました。ただ、その精度にはまだ問題が残り、英語―フランス語などの西洋言語同士の言語ペアでの翻訳がうまくいっても、日本語―英語のような語順が違う言語間では高い翻訳の精度は確保できませんでした。
しかし2016年、Googleはそれまでの統計的機械翻訳からディープラーニングを用いた新たな機械翻訳へと翻訳手法をスイッチしました。出来上がる翻訳は人間の翻訳であるかのように流暢で読みやすくなり、ユーザーを驚かせました。3層のニューラルネットワークで大量のテキストデータを学習することで、とても高い精度の翻訳が実現したのです。ここからいわゆるAI機械翻訳が広く使われるようになりました。(代表的なもの:Google, DEEPL, みらい翻訳、ロゼッタ、etc.)
統計的機械翻訳でも学習データとしてコーパスが使われていましたが、ディープラーニングでは、多種多様な特徴を学習するためには、より大量の学習データが必要となってきます。現在は少ない学習データでからでも機械が自分で学習するような研究開発が進められていますが、あらゆる分野での機械翻訳の精度をあげようとすると現状ではかなりの分量の学習データが必要になっています。
現在、Googleやアマゾンなどの海外の巨大会社はふんだんに予算を使い、自社のプラットフォームなどを通じて膨大な学習データやAIの活用を使ってAIを開発しています。清濁混ざったビッグデータを学習データに使うため時には誤訳や誤認識もおこしますが、ダイナミックかつスピーディに開発を進められるという利点があります。一方、日本にも1990年代から各メーカーが競って機械翻訳についての研究をしてきました歴史があります。日本独自の、より高い品質の翻訳機能をAIやAIを搭載した製品に提供するためには、しばらくは精度の高いコーパスがかかせません。
フランシールでも2020年から情報通信研究機構(NICT)の翻訳バンクと呼ばれる対訳データの作成や、翻訳結果の評価作業、音声合成用の外国人の声優音声の録音などを行っています。また海外企業から日本語の音声の収録プロジェクトにも参加してきました。今後も皆様の研究やAI利用のために、高品質のコーパスを提供したいと思っています。
音声・対訳コーパス作成実績例
- 2020年 翻訳バンク関連データ整備 (263冊分の対訳データ作成)
- 2020年 日英中韓対訳データの構築作業 (34 冊分の対訳データ作成)
- 2020年 アジア言語の機械翻訳結果の評価作業(英語/ヒンディー語/ベンガル語)
- 音声合成用ロシア語音声コーパス収録作業(単価契約)(10,500/発声者、約105時間)
- 2020年(海外発注者依頼)日本語による発話の収録業務(1人20発話、女性61名、男性54名)
- 医療会話自動翻訳エンジンの翻訳精度比較(日英中韓西仏タイ葡タガログなど)
- 2021年 同時通訳コーパスの構築作業(英語、中国語、韓国語、ベトナム語)
- 2021年 ビジネス用語収集・多言語翻訳作業(単価契約)(英語、中国語、韓国語、タイ語、ベトナム語、インドネシア語、ミャンマー語、スペイン語、フランス語、ブラジルポルトガル語、フィリピン語、ネパール語、クメール語、モンゴル語:全14言語)
音声・対訳コーパス作成 基本料金
対訳コーパス
日本語―英語(税別) | 日本語―英語以外の外国語(税別) | 英語―外国語(税別) | |
対訳コーパス (テキストデータ) |
500円/頁 | 500円/頁 | 500円/頁 |
対訳コーパス (PDF、イメージデータ、紙など、文字のテキスト化が必要なもの) |
600円/頁 | 600円/頁 | 600円/頁 |
1頁の目安は日本語800文字、英文250W程度。
機械翻訳結果の評価作業
日本語―英語(税別) | 日本語―英語以外の外国語(税別) | 英語―外国語(税別) | |
対訳コーパス (テキストデータ) |
300円/文 | 300円/文 | 300円/文 |
音声合成用録音データ収集
日本語(税別) | 英語(税別) | 他言語(税別) | |
音声合成用音声収集 | 500円/文 | 500円/文 | 500円/文 |
注意事項
※ | 使用目的や納品形態などの詳細を事前にお伝えください。 |
---|---|
※ | 上記の料金は参考価格です。分量や仕様、言語により見積り価格は前後します。 |