MateCat

Материал из Wikibrand
MateCat
Сайт matecat.com

MateCat (, Машинный перевод) — онлайн-средство машинного перевода. Сайт является бесплатным для переводческих компаний, переводчиков и корпоративных пользователей. MateCat является открытым кодом и свободным программным обеспечением.

История создания программы

Название MateCat является аббревиатурой Machine Translation Enhanced Computer Assisted Translation (Машинный Перевод, Усовершенствоанный Компьютерный Перевод), это 3-летний исследовательский проект (длящийся с 11.2011 по 10.2014) финансируемый 7-й Рамочной Программой Европейской Комиссии (Seventh Framework Programme (FP7)) для проведения исследований, технологических разработок и демонстраций в пределах финансируемого соглашения № 287688. Проект приобрёл грант в размере уже более 2.500.000 евро от Европейских фондов.

Консорциум проекта возглавляет FBK (Fondazione Bruno Kessler), международный исследовательский центр, базирующийся в Тренто, Италия.

CAT Средства

Целью MateCat является создание инструмента для редактирования машинного перевода. Система способна учиться на ошибках, автоматически улучшаться со временем, а также специализироваться на узко-специализированном языке (например, юридической терминологии), чтобы предоставить пользователю наиболее точные предложения по переводу в полностью автоматизированной и легко понятной манере

CAT Средства предоставляют доступ к архиву переводов, базам данных по терминологии, средствам языкового согласования и, с недавнего времени, к механизмам машинного перевода. В большинстве случаев архив переводов — это хранилище переведённых сегментов. Во время перевода CAT средства запрашивают в архиве переводов точные или примерные совпадения для текущего исходного сегмента. Эти совпадения предлагаются пользователю в качестве вариантов перевода. Как только сегмент переведен, его оригинал и текст перевода добавляются в архив переводов для будущих запросов. Интеграция предложений от механизмов машинного перевода в качестве дополнения к совпадениям в архиве переводов обоснована недавними исследованиями, которые показали, что редактирование вариантов, предлагаемых системой машинного перевода, существенно повышает качество переведённого текста.

Технологии

MateCat работает как веб-сервер, доступный через браузер. Веб-сервер CAT соединяется с другими сервисами через общедоступные приложения: архив переводов MyMemory, коммерческий сервер машинного перевода Google Translate, и серверы базы Moses, указанные в конфигурационном файле. В то время как серверы MyMemory и GT всегда работают и доступны, специализированные серверы Moses должны быть сначала установлены и настроены. Связь с серверами Moses расширяет возможности общедоступного сервиса Google Translate для поддержки самонастраивающихся, адаптированных под пользователя и информативных функций машинного перевода. XLIFF — формат файла, изначально поддерживаемый версией инструмента MateCat с открытым исходным кодом; однако внешние преобразователи файлов также могут быть добавлены в конфигурацию MateCat. Инструмент поддерживает кодировку Unicode (UTF-8), включая не-латинские алфавиты и языки с написанием справа налево, а также обрабатывает тексты с встроенной разметкой. Поддержка серверов Moses улучшает связь машинного перевода с CAT. В том числе, перевод, предлагаемый Google Translate, дополняется информацией об обратной связи, при каждом редактировании текущего сегмента, а также обогащается информацией системы машинного перевода, включая рейтинг достоверности, рекомендуемые сочетания слов и т. д. Разработанный сервер машинного перевода поддерживает многопоточность для одновременного обслуживания нескольких переводчиков, обрабатывает текстовые сегменты, включая встроенную разметку, и адаптируется к редакторским правкам, выполняемым каждым пользователем.

Во время редактирования MateCat собирает информацию о времени работы с каждым сегментом. Эта информация обновляется каждый раз, когда сегмент открывается и закрывается. Более того, для каждого сегмента сохраняется информация о всех вариантах перевода, предложенных системой, и о том варианте, который был выбран при окончательном редактировании. Эта информация доступна в любое время по ссылке «Редакция» на странице редактирования. К тому же для каждого сегмента, отсортированного от самого медленного до самого быстрого с точки зрения скорости перевода, сообщается подробная статистика о времени операций редактирования, что является источником информации для анализа производительности после завершения проекта.

Примечания

Ссылки