Создание речевых и диалоговых корпусов

Создание речевых и диалоговых корпусов.

Машинный перевод, который разрабатывался примерно с конца 1970-х годов, использовал метод, называемый машинным переводом на основе правил (Rule-based machine translation), который использует созданные человеком словари и грамматику для перевода (типичное программное обеспечение: SYSTRAN). Однако, не для многих языковых пар были доступны словари и грамматика, и сбор информации занимал огромное количество времени.

Позже, в 1980-х и 1990-х годах, статистический машинный перевод (Statistical machine translation) заменил машинный перевод, основанный на правилах. Статистический машинный перевод — это статистический метод перевода, который использует частоту слов и их распределение для расчета важности каждого слова. Переводческий аппарат состоит из двух моделей: модели перевода, которая обучается на основе двуязычных данных, и статистической модели, которая определяет последовательность слов в выходном языке, что делает возможным машинный перевод многих языков при условии наличия двуязычных данных (корпуса) для обучения. Тем не менее, все еще существуют проблемы с точностью, и даже если перевод между западными языковыми парами, такими как английский-французский, работает хорошо, высокая точность перевода не может быть обеспечена между языками с различным порядком слов, такими как японский-английский.

Однако в 2016 году Google перешел от прежнего статистического машинного перевода к новому методу перевода с использованием глубокого обучения. Полученный перевод удивил пользователей, став таким же беглым и читаемым, как если бы это был человеческий перевод. Благодаря изучению большого количества текстовых данных с помощью трехслойной нейронной сети была достигнута очень высокая точность перевода. С этого момента в широкое употребление вошел так называемый машинный перевод с искусственным интеллектом. (Типичные примеры: Google, DEEPL, Mirai Translation, Rosetta и др.)

Статистический машинный перевод также использует корпус в качестве обучающих данных, но глубокое обучение требует гораздо большего количества обучающих данных для изучения широкого спектра характеристик. В настоящее время ведутся исследования и разработки, позволяющие машинам самостоятельно обучаться даже на небольшом количестве обучающих данных, однако для повышения точности машинного перевода во всех областях в настоящее время требуется значительное количество обучающих данных.

В настоящее время гигантские зарубежные компании, такие как Google и Amazon, тратят большие деньги для разработок ИИ, используя огромные объемы обучающих данных и приложений ИИ через свои собственные платформы. Хотя использование большой базы, представляющей собой смесь правильных и ошибочных данных, для обучения иногда может приводить к ошибкам в переводе и неправильному распознаванию, преимущество заключается в том, что развитие происходит динамично и быстро. С другой стороны, Япония также имеет историю исследований в области машинного перевода, причем производители конкурируют друг с другом с 1990-х годов. Высокоточный корпус будет необходим в настоящее время для обеспечения ИИ и продуктов, оснащенных ИИ, высококачественными функциями перевода, уникальными для Японии.

Franchir также сотрудничает с Национальным институтом информационно-коммуникационных технологий с 2020 года в области создания переводческой базы данных, содержащей двуязычные данные, работы по оценке результатов перевода и записи иностранных закадровых голосов для синтеза речи. Мы также участвовали в проектах по записи японских голосов для зарубежных компаний. Мы надеемся и дальше предоставлять высококачественные услуги по созданию языкового корпуса для ваших исследований и использования в области ИИ.

Достижения в области создания языкового корпуса

2020 г. Развитие данных, связанных с переводческой базой данных (создание двуязычных данных для 263 книг Excel)
2020 г. Создание двуязычных данных для японского, английского, китайского и корейского языков (создание двуязычных данных для 34 книг Excel)
2020 г. Оценка результатов машинного перевода для азиатских языков (английский/хинди/бенгали)
Работа по записи корпуса русской речи для синтеза речи (контракт с фиксированной ценой) (10,500 фраз/диктор, около 105 часов)
2020 г. (запрос от зарубежного клиента) Запись произношения фраз на японском языке (20 высказываний на человека, 61 женщина, 54 мужчины)
Сравнение точности перевода автоматических систем перевода для медицинской разговорной речи (японский, английский, китайский, корейский, испанский, французский, тайский, португальский, тагальский и т.д.)
2021 г. Работа по созданию корпуса синхронного перевода (английский, китайский, корейский, вьетнамский)
2021 г. Сбор деловой терминологии и многоязычный перевод (контракт с фиксированной ценой) (английский, китайский, корейский, тайский, вьетнамский, индонезийский, мьянманский, испанский, французский, бразильский португальский, филиппинский, непальский, кхмерский, монгольский: 14 языков)

Создание языкового корпуса: Базовая плата

Двуязычный корпус

	Японский — английский (без учета налогов)	Японский язык — иностранные языки, кроме английского (без учета налогов)	Английский язык — иностранные языки (без учета налогов)
Двуязычный корпус (Текстовые данные)	500 JPY/страница	500 JPY/страница	500 JPY/страница
Двуязычный корпус (PDF-файлы, данные изображений, данные на бумаге и т.д., которые требуют преобразования в текст)	600 JPY/страница	600 JPY/страница	600 JPY/страница

Формат поставки — книга в формате Excel (формат.xlsx)
Ориентир для одной страницы — примерно 800 японских символов и 250 слов английского текста.

Оценка результатов машинного перевода.

	Японский — английский (без учета налогов)	Японский язык — иностранные языки, кроме английского (без учета налогов)	Английский язык — иностранные языки (без учета налогов)
Двуязычный корпус (Текстовые данные)	300 JPY/предложение	300 JPY/предложение	300 JPY/предложение

Сбор данных голосовых записей для синтеза речи

	Японский (без учета налогов)	Английский язык (без учета налогов)	Другие языки (без учета налогов)
Сбор голосовых записей для синтеза речи	500 JPY/предложение	500 JPY/предложение	500 JPY/предложение

Записанный звук поставляется в виде файлов формата WAV.

Примечания

*	Пожалуйста, заранее сообщите нам о цели использования, формате доставки и других деталях.
*	Указанные выше цены являются ориентировочными. Предполагаемые цены могут меняться в зависимости от объема, технических характеристик и языка.

Свяжитесь с нами для получения консультации.

Тел.: 03-6908-3671

Вакансии переводчиков (фрилансеров)

Будем рады ответить на Ваши вопросы.

Поиск по сайту

Информация

Полезная информация

Блог персонала

Компанией Franchir был получен сертификат о защите конфиденциальности (Privacy Mark) для защиты персональных данных.