MateCat
| MateCat | |
|---|---|
| Сайт | matecat.com |
MateCat (, Машинный перевод) — онлайн-средство машинного перевода. Сайт является бесплатным для переводческих компаний, переводчиков и корпоративных пользователей. MateCat является открытым кодом и свободным программным обеспечением.
История создания программы
Название MateCat является аббревиатурой Machine Translation Enhanced Computer Assisted Translation (Машинный Перевод, Усовершенствоанный Компьютерный Перевод), это 3-летний исследовательский проект (длящийся с 11.2011 по 10.2014) финансируемый 7-й Рамочной Программой Европейской Комиссии (Seventh Framework Programme (FP7)) для проведения исследований, технологических разработок и демонстраций в пределах финансируемого соглашения № 287688. Проект приобрёл грант в размере уже более 2.500.000 евро от Европейских фондов.
Консорциум проекта возглавляет FBK (Fondazione Bruno Kessler), международный исследовательский центр, базирующийся в Тренто, Италия.
CAT Средства
Целью MateCat является создание инструмента для редактирования машинного перевода. Система способна учиться на ошибках, автоматически улучшаться со временем, а также специализироваться на узко-специализированном языке (например, юридической терминологии), чтобы предоставить пользователю наиболее точные предложения по переводу в полностью автоматизированной и легко понятной манере
CAT Средства предоставляют доступ к архиву переводов, базам данных по терминологии, средствам языкового согласования и, с недавнего времени, к механизмам машинного перевода. В большинстве случаев архив переводов — это хранилище переведённых сегментов. Во время перевода CAT средства запрашивают в архиве переводов точные или примерные совпадения для текущего исходного сегмента. Эти совпадения предлагаются пользователю в качестве вариантов перевода. Как только сегмент переведен, его оригинал и текст перевода добавляются в архив переводов для будущих запросов. Интеграция предложений от механизмов машинного перевода в качестве дополнения к совпадениям в архиве переводов обоснована недавними исследованиями, которые показали, что редактирование вариантов, предлагаемых системой машинного перевода, существенно повышает качество переведённого текста.
Технологии
MateCat работает как веб-сервер, доступный через браузер. Веб-сервер CAT соединяется с другими сервисами через общедоступные приложения: архив переводов MyMemory, коммерческий сервер машинного перевода Google Translate, и серверы базы Moses, указанные в конфигурационном файле. В то время как серверы MyMemory и GT всегда работают и доступны, специализированные серверы Moses должны быть сначала установлены и настроены. Связь с серверами Moses расширяет возможности общедоступного сервиса Google Translate для поддержки самонастраивающихся, адаптированных под пользователя и информативных функций машинного перевода. XLIFF — формат файла, изначально поддерживаемый версией инструмента MateCat с открытым исходным кодом; однако внешние преобразователи файлов также могут быть добавлены в конфигурацию MateCat. Инструмент поддерживает кодировку Unicode (UTF-8), включая не-латинские алфавиты и языки с написанием справа налево, а также обрабатывает тексты с встроенной разметкой. Поддержка серверов Moses улучшает связь машинного перевода с CAT. В том числе, перевод, предлагаемый Google Translate, дополняется информацией об обратной связи, при каждом редактировании текущего сегмента, а также обогащается информацией системы машинного перевода, включая рейтинг достоверности, рекомендуемые сочетания слов и т. д. Разработанный сервер машинного перевода поддерживает многопоточность для одновременного обслуживания нескольких переводчиков, обрабатывает текстовые сегменты, включая встроенную разметку, и адаптируется к редакторским правкам, выполняемым каждым пользователем.
Во время редактирования MateCat собирает информацию о времени работы с каждым сегментом. Эта информация обновляется каждый раз, когда сегмент открывается и закрывается. Более того, для каждого сегмента сохраняется информация о всех вариантах перевода, предложенных системой, и о том варианте, который был выбран при окончательном редактировании. Эта информация доступна в любое время по ссылке «Редакция» на странице редактирования. К тому же для каждого сегмента, отсортированного от самого медленного до самого быстрого с точки зрения скорости перевода, сообщается подробная статистика о времени операций редактирования, что является источником информации для анализа производительности после завершения проекта.
Примечания
- http://ec.europa.eu/translation/portuguese/magazine
- José, M., & Machado, B. (2014). Free and open-source software — a translator’s good friend, 3. Retrieved from http://ec.europa.eu/translation/portuguese/magazine
- http://ec.europa.eu/transparency/regdoc/rep/10102/2017/EN/SWD-2017-221-F1-EN-MAIN-PART-12.PDF
- EUROPEAN COMMISSION. (2017). EUROPEAN COMMISSION STAFF WORKING DOCUMENT INTERIM EVALUATION of HORIZON 2020 ANNEX 2. Brussels. Retrieved from http://ec.europa.eu/transparency/regdoc/rep/10102/2017/EN/SWD-2017-221-F1-EN-MAIN-PART-12.PDF
- MateCat — https://www.fbk.eu/en/result/matecat/
- https://www.fbk.eu/en/result/matecat/
- https://web.archive.org/web/20191215071039/https://www.fbk.eu/en/result/matecat/
- Marcello, Federico, Cattelan, Alessandro, Trombetti, Marco: Measuring user productivity in machine translation enhanced computer assisted translation — http://amta2012.amtaweb.org/AMTA2012Files/papers/123.pdf
- http://amta2012.amtaweb.org/AMTA2012Files/papers/123.pdf
- https://web.archive.org/web/20141030154913/http://amta2012.amtaweb.org/AMTA2012Files/papers/123.pdf
- Green, Spence, Heer, Jeffrey, Manning, Christopher: The efficacy of human post-editing for language translation — http://dl.acm.org/citation.cfm?id=2470718
- http://dl.acm.org/citation.cfm?id=2470718
- https://web.archive.org/web/20190301122337/https://dl.acm.org/citation.cfm?id=2470718
- Läubli, Samuel, Fishel, Mark, Massey, Gary, Ehrensberger-Dow, Maureen, Volk, Martin: Assessing Post-Editing Efficiency in a Realistic Translation Environment — http://www.mt-archive.info/10/MTS-2013-W4-Laubli.pdf
- http://www.mt-archive.info/10/MTS-2013-W4-Laubli.pdf
- https://web.archive.org/web/20180423051551/http://www.mt-archive.info/10/MTS-2013-W4-Laubli.pdf
- MyMemory is the world's largest Translation Memory (TM) built collaboratively via MT and human contributions — http://mymemory.translated.net/
- http://mymemory.translated.net/
- https://web.archive.org/web/20100209062541/http://mymemory.translated.net/
- Moses is the most popular open source statistical MT toolkit — http://www.statmt.org/moses/
- http://www.statmt.org/moses/
- https://web.archive.org/web/20100208143738/http://www.statmt.org/moses/
- Docs.oasis-open.org — http://docs.oasis-open.org/xliff/v1.2/os/xliff-core.html
- http://docs.oasis-open.org/xliff/v1.2/os/xliff-core.html
- https://web.archive.org/web/20141029181600/http://docs.oasis-open.org/xliff/v1.2/os/xliff-core.html
- Nicola Bertoldi, Mauro Cettolo, and Marcello Federico. 2013. Cache-based Online Adaptation for Machine Translation Enhanced Computer Assisted Translation. In Proceedings of the MT Summit XIV, pages 35-42, Nice, France, September.
Ссылки
- Official MateCat Site — http://www.matecat.com/
- Official MateCat Site