Создание речевых и диалоговых корпусов
Создание речевых и диалоговых корпусов.
Машинный перевод, который разрабатывался примерно с конца 1970-х годов, использовал метод, называемый машинным переводом на основе правил (Rule-based machine translation), который использует созданные человеком словари и грамматику для перевода (типичное программное обеспечение: SYSTRAN). Однако, не для многих языковых пар были доступны словари и грамматика, и сбор информации занимал огромное количество времени.
Позже, в 1980-х и 1990-х годах, статистический машинный перевод (Statistical machine translation) заменил машинный перевод, основанный на правилах. Статистический машинный перевод — это статистический метод перевода, который использует частоту слов и их распределение для расчета важности каждого слова. Переводческий аппарат состоит из двух моделей: модели перевода, которая обучается на основе двуязычных данных, и статистической модели, которая определяет последовательность слов в выходном языке, что делает возможным машинный перевод многих языков при условии наличия двуязычных данных (корпуса) для обучения. Тем не менее, все еще существуют проблемы с точностью, и даже если перевод между западными языковыми парами, такими как английский-французский, работает хорошо, высокая точность перевода не может быть обеспечена между языками с различным порядком слов, такими как японский-английский.
Однако в 2016 году Google перешел от прежнего статистического машинного перевода к новому методу перевода с использованием глубокого обучения. Полученный перевод удивил пользователей, став таким же беглым и читаемым, как если бы это был человеческий перевод. Благодаря изучению большого количества текстовых данных с помощью трехслойной нейронной сети была достигнута очень высокая точность перевода. С этого момента в широкое употребление вошел так называемый машинный перевод с искусственным интеллектом. (Типичные примеры: Google, DEEPL, Mirai Translation, Rosetta и др.)
Статистический машинный перевод также использует корпус в качестве обучающих данных, но глубокое обучение требует гораздо большего количества обучающих данных для изучения широкого спектра характеристик. В настоящее время ведутся исследования и разработки, позволяющие машинам самостоятельно обучаться даже на небольшом количестве обучающих данных, однако для повышения точности машинного перевода во всех областях в настоящее время требуется значительное количество обучающих данных.
В настоящее время гигантские зарубежные компании, такие как Google и Amazon, тратят большие деньги для разработок ИИ, используя огромные объемы обучающих данных и приложений ИИ через свои собственные платформы. Хотя использование большой базы, представляющей собой смесь правильных и ошибочных данных, для обучения иногда может приводить к ошибкам в переводе и неправильному распознаванию, преимущество заключается в том, что развитие происходит динамично и быстро. С другой стороны, Япония также имеет историю исследований в области машинного перевода, причем производители конкурируют друг с другом с 1990-х годов. Высокоточный корпус будет необходим в настоящее время для обеспечения ИИ и продуктов, оснащенных ИИ, высококачественными функциями перевода, уникальными для Японии.
Franchir также сотрудничает с Национальным институтом информационно-коммуникационных технологий с 2020 года в области создания переводческой базы данных, содержащей двуязычные данные, работы по оценке результатов перевода и записи иностранных закадровых голосов для синтеза речи. Мы также участвовали в проектах по записи японских голосов для зарубежных компаний. Мы надеемся и дальше предоставлять высококачественные услуги по созданию языкового корпуса для ваших исследований и использования в области ИИ.
Позже, в 1980-х и 1990-х годах, статистический машинный перевод (Statistical machine translation) заменил машинный перевод, основанный на правилах. Статистический машинный перевод — это статистический метод перевода, который использует частоту слов и их распределение для расчета важности каждого слова. Переводческий аппарат состоит из двух моделей: модели перевода, которая обучается на основе двуязычных данных, и статистической модели, которая определяет последовательность слов в выходном языке, что делает возможным машинный перевод многих языков при условии наличия двуязычных данных (корпуса) для обучения. Тем не менее, все еще существуют проблемы с точностью, и даже если перевод между западными языковыми парами, такими как английский-французский, работает хорошо, высокая точность перевода не может быть обеспечена между языками с различным порядком слов, такими как японский-английский.
Однако в 2016 году Google перешел от прежнего статистического машинного перевода к новому методу перевода с использованием глубокого обучения. Полученный перевод удивил пользователей, став таким же беглым и читаемым, как если бы это был человеческий перевод. Благодаря изучению большого количества текстовых данных с помощью трехслойной нейронной сети была достигнута очень высокая точность перевода. С этого момента в широкое употребление вошел так называемый машинный перевод с искусственным интеллектом. (Типичные примеры: Google, DEEPL, Mirai Translation, Rosetta и др.)
Статистический машинный перевод также использует корпус в качестве обучающих данных, но глубокое обучение требует гораздо большего количества обучающих данных для изучения широкого спектра характеристик. В настоящее время ведутся исследования и разработки, позволяющие машинам самостоятельно обучаться даже на небольшом количестве обучающих данных, однако для повышения точности машинного перевода во всех областях в настоящее время требуется значительное количество обучающих данных.
В настоящее время гигантские зарубежные компании, такие как Google и Amazon, тратят большие деньги для разработок ИИ, используя огромные объемы обучающих данных и приложений ИИ через свои собственные платформы. Хотя использование большой базы, представляющей собой смесь правильных и ошибочных данных, для обучения иногда может приводить к ошибкам в переводе и неправильному распознаванию, преимущество заключается в том, что развитие происходит динамично и быстро. С другой стороны, Япония также имеет историю исследований в области машинного перевода, причем производители конкурируют друг с другом с 1990-х годов. Высокоточный корпус будет необходим в настоящее время для обеспечения ИИ и продуктов, оснащенных ИИ, высококачественными функциями перевода, уникальными для Японии.
Franchir также сотрудничает с Национальным институтом информационно-коммуникационных технологий с 2020 года в области создания переводческой базы данных, содержащей двуязычные данные, работы по оценке результатов перевода и записи иностранных закадровых голосов для синтеза речи. Мы также участвовали в проектах по записи японских голосов для зарубежных компаний. Мы надеемся и дальше предоставлять высококачественные услуги по созданию языкового корпуса для ваших исследований и использования в области ИИ.
Достижения в области создания языкового корпуса
- 2020 г. Развитие данных, связанных с переводческой базой данных (создание двуязычных данных для 263 книг Excel)
- 2020 г. Создание двуязычных данных для японского, английского, китайского и корейского языков (создание двуязычных данных для 34 книг Excel)
- 2020 г. Оценка результатов машинного перевода для азиатских языков (английский/хинди/бенгали)
- Работа по записи корпуса русской речи для синтеза речи (контракт с фиксированной ценой) (10,500 фраз/диктор, около 105 часов)
- 2020 г. (запрос от зарубежного клиента) Запись произношения фраз на японском языке (20 высказываний на человека, 61 женщина, 54 мужчины)
- Сравнение точности перевода автоматических систем перевода для медицинской разговорной речи (японский, английский, китайский, корейский, испанский, французский, тайский, португальский, тагальский и т.д.)
- 2021 г. Работа по созданию корпуса синхронного перевода (английский, китайский, корейский, вьетнамский)
- 2021 г. Сбор деловой терминологии и многоязычный перевод (контракт с фиксированной ценой) (английский, китайский, корейский, тайский, вьетнамский, индонезийский, мьянманский, испанский, французский, бразильский португальский, филиппинский, непальский, кхмерский, монгольский: 14 языков)
Создание языкового корпуса: Базовая плата
Двуязычный корпус
Японский — английский (без учета налогов) | Японский язык — иностранные языки, кроме английского (без учета налогов) | Английский язык — иностранные языки (без учета налогов) | |
Двуязычный корпус (Текстовые данные) |
500 JPY/страница | 500 JPY/страница | 500 JPY/страница |
Двуязычный корпус (PDF-файлы, данные изображений, данные на бумаге и т.д., которые требуют преобразования в текст) |
600 JPY/страница | 600 JPY/страница | 600 JPY/страница |
Ориентир для одной страницы — примерно 800 японских символов и 250 слов английского текста.
Оценка результатов машинного перевода.
Японский — английский (без учета налогов) | Японский язык — иностранные языки, кроме английского (без учета налогов) | Английский язык — иностранные языки (без учета налогов) | |
Двуязычный корпус (Текстовые данные) |
300 JPY/предложение | 300 JPY/предложение | 300 JPY/предложение |
Сбор данных голосовых записей для синтеза речи
Японский (без учета налогов) | Английский язык (без учета налогов) | Другие языки (без учета налогов) | |
Сбор голосовых записей для синтеза речи | 500 JPY/предложение | 500 JPY/предложение | 500 JPY/предложение |
Примечания
* | Пожалуйста, заранее сообщите нам о цели использования, формате доставки и других деталях. |
---|---|
* | Указанные выше цены являются ориентировочными. Предполагаемые цены могут меняться в зависимости от объема, технических характеристик и языка. |
Свяжитесь с нами для получения консультации.


Тел.: 03-6908-3671
Вакансии переводчиков (фрилансеров)

Будем рады ответить на Ваши вопросы.

Поиск по сайту