Создание речевых и диалоговых корпусов

Создание речевых и диалоговых корпусов.

Машинный перевод, который разрабатывался примерно с конца 1970-х годов, использовал метод, называемый машинным переводом на основе правил (Rule-based machine translation), который использует созданные человеком словари и грамматику для перевода (типичное программное обеспечение: SYSTRAN). Однако, не для многих языковых пар были доступны словари и грамматика, и сбор информации занимал огромное количество времени.

Позже, в 1980-х и 1990-х годах, статистический машинный перевод (Statistical machine translation) заменил машинный перевод, основанный на правилах. Статистический машинный перевод — это статистический метод перевода, который использует частоту слов и их распределение для расчета важности каждого слова. Переводческий аппарат состоит из двух моделей: модели перевода, которая обучается на основе двуязычных данных, и статистической модели, которая определяет последовательность слов в выходном языке, что делает возможным машинный перевод многих языков при условии наличия двуязычных данных (корпуса) для обучения. Тем не менее, все еще существуют проблемы с точностью, и даже если перевод между западными языковыми парами, такими как английский-французский, работает хорошо, высокая точность перевода не может быть обеспечена между языками с различным порядком слов, такими как японский-английский.

Однако в 2016 году Google перешел от прежнего статистического машинного перевода к новому методу перевода с использованием глубокого обучения. Полученный перевод удивил пользователей, став таким же беглым и читаемым, как если бы это был человеческий перевод. Благодаря изучению большого количества текстовых данных с помощью трехслойной нейронной сети была достигнута очень высокая точность перевода. С этого момента в широкое употребление вошел так называемый машинный перевод с искусственным интеллектом. (Типичные примеры: Google, DEEPL, Mirai Translation, Rosetta и др.)

Статистический машинный перевод также использует корпус в качестве обучающих данных, но глубокое обучение требует гораздо большего количества обучающих данных для изучения широкого спектра характеристик. В настоящее время ведутся исследования и разработки, позволяющие машинам самостоятельно обучаться даже на небольшом количестве обучающих данных, однако для повышения точности машинного перевода во всех областях в настоящее время требуется значительное количество обучающих данных.

В настоящее время гигантские зарубежные компании, такие как Google и Amazon, тратят большие деньги для разработок ИИ, используя огромные объемы обучающих данных и приложений ИИ через свои собственные платформы. Хотя использование большой базы, представляющей собой смесь правильных и ошибочных данных, для обучения иногда может приводить к ошибкам в переводе и неправильному распознаванию, преимущество заключается в том, что развитие происходит динамично и быстро. С другой стороны, Япония также имеет историю исследований в области машинного перевода, причем производители конкурируют друг с другом с 1990-х годов. Высокоточный корпус будет необходим в настоящее время для обеспечения ИИ и продуктов, оснащенных ИИ, высококачественными функциями перевода, уникальными для Японии.

Franchir также сотрудничает с Национальным институтом информационно-коммуникационных технологий с 2020 года в области создания переводческой базы данных, содержащей двуязычные данные, работы по оценке результатов перевода и записи иностранных закадровых голосов для синтеза речи. Мы также участвовали в проектах по записи японских голосов для зарубежных компаний. Мы надеемся и дальше предоставлять высококачественные услуги по созданию языкового корпуса для ваших исследований и использования в области ИИ.

Достижения в области создания языкового корпуса

  • 2020 г. Развитие данных, связанных с переводческой базой данных (создание двуязычных данных для 263 книг Excel)
  • 2020 г. Создание двуязычных данных для японского, английского, китайского и корейского языков (создание двуязычных данных для 34 книг Excel)
  • 2020 г. Оценка результатов машинного перевода для азиатских языков (английский/хинди/бенгали)
  • Работа по записи корпуса русской речи для синтеза речи (контракт с фиксированной ценой) (10,500 фраз/диктор, около 105 часов)
  • 2020 г. (запрос от зарубежного клиента) Запись произношения фраз на японском языке (20 высказываний на человека, 61 женщина, 54 мужчины)
  • Сравнение точности перевода автоматических систем перевода для медицинской разговорной речи (японский, английский, китайский, корейский, испанский, французский, тайский, португальский, тагальский и т.д.)
  • 2021 г. Работа по созданию корпуса синхронного перевода (английский, китайский, корейский, вьетнамский)
  • 2021 г. Сбор деловой терминологии и многоязычный перевод (контракт с фиксированной ценой) (английский, китайский, корейский, тайский, вьетнамский, индонезийский, мьянманский, испанский, французский, бразильский португальский, филиппинский, непальский, кхмерский, монгольский: 14 языков)

Создание языкового корпуса: Базовая плата

Двуязычный корпус

Японский — английский (без учета налогов) Японский язык — иностранные языки, кроме английского (без учета налогов) Английский язык — иностранные языки (без учета налогов)
Двуязычный корпус
(Текстовые данные)
500 JPY/страница 500 JPY/страница 500 JPY/страница
Двуязычный корпус
(PDF-файлы, данные изображений, данные на бумаге и т.д., которые требуют преобразования в текст)
600 JPY/страница 600 JPY/страница 600 JPY/страница
Формат поставки — книга в формате Excel (формат.xlsx)
Ориентир для одной страницы — примерно 800 японских символов и 250 слов английского текста.

Оценка результатов машинного перевода.

Японский — английский (без учета налогов) Японский язык — иностранные языки, кроме английского (без учета налогов) Английский язык — иностранные языки (без учета налогов)
Двуязычный корпус
(Текстовые данные)
300 JPY/предложение 300 JPY/предложение 300 JPY/предложение

Сбор данных голосовых записей для синтеза речи

Японский (без учета налогов) Английский язык (без учета налогов) Другие языки (без учета налогов)
Сбор голосовых записей для синтеза речи 500 JPY/предложение 500 JPY/предложение 500 JPY/предложение
Записанный звук поставляется в виде файлов формата WAV.

Примечания

* Пожалуйста, заранее сообщите нам о цели использования, формате доставки и других деталях.
* Указанные выше цены являются ориентировочными. Предполагаемые цены могут меняться в зависимости от объема, технических характеристик и языка.
бесплатная смета
Свяжитесь с нами для получения консультации.
Тел.: 03-6908-3671
Вакансии переводчиков (фрилансеров)
Будем рады ответить на Ваши вопросы.
Поиск по сайту
Компанией Franchir был получен сертификат о защите конфиденциальности (Privacy Mark) для защиты персональных данных.