Татоэба

Материал из Wikibrand

Проект Татоэба (Tatoeba project, от японского слова — сайт для обмена примерами фраз на всех доступных языках мира. В отличие от онлайн-словарей, в которых хранятся переводы слов, проект ориентирован на цельные семантические конструкции — фразы, предложения, пословицы и т. д.; их накапливаемые аналоги на различных языках сопоставляются друг с другом вручную или автоматически. Особенностью проекта является его открытость и общедоступность: Татоэба заявлена как некоммерческий проект, а любой желающий вне зависимости от специализации и языковой принадлежности может вносить изменения в базы данных проекта (добавлять и, в отдельных случаях, редактировать существующие фразы, исправлять ошибки). Благодаря этим особенностям проект Татоэба постепенно получает признание как уникальное средство для самостоятельного обучения. На декабрь 2010 года проект поддерживал 81 язык и предоставлял 11 вариантов языкового интерфейса; в ноябре 2011 эти показатели составили 94 и 17 соответственно; в январе 2014 — 132 и 19; в ноябре 2025 — 429 и 56. Создателем и лидером проекта является Чанг Хо (Trang Ho), француженка вьетнамского происхождения. Первые примеры сайта датированы 30 сентября 2007. Предложение № 1 принадлежит пользователю sysko: это китайская фраза «Посмотрим-ка!».

Принцип работы

Принцип работы проекта заключается в сборе и увязывании переводов той или иной фразы данного языка. Система анализирует все поступившие данные. Если конструкция А переводится на другой язык как конструкция В, а та, в свою очередь — как конструкция С, то все три будут отображены как цепочка прямых или косвенных переводов, которая по умолчанию будет отображена при поиске любого из фрагментов соответствующих фраз А, В и С (количество отображаемых языков может быть ограничено индивидуальными пользователями). Просматривать накопленный материал могут все желающие, добавлять и редактировать — только зарегистрированные участники. Участники со стажем могут получить статус «доверенного» («trusted user»). Он дает доступ к тегам, а также позволяет связывать адекватные переводы между собой или «отрезать» неадекватные. Ограниченный круг участников проекта имеет статус «блюстителей» (corpus maintainers), которые имеют администраторские полномочия. В отличие от учебников, интернет-словарей и форумов, проект Татоэба не ориентирован на конкретную языковую аудиторию или профессиональный круг пользователей. Зарегистрироваться и дополнять примеры фраз на родном или изучаемом языке может любой желающий с базовыми навыками грамотности. Для работы пользователям предлагается весь спектр имеющихся языков или возможность выборочного чтения с указанием языка оригинала и/или перевода. Одновременно для собственных переводов на Татоэба рекомендуется ориентироваться только на оригинал, так как сопутствующие переводы могут быть неточными. Обсуждение нюансов перевода возможно тут же в комментариях к каждому из предложений. Накапливаемый таким образом материал может бесплатно распространяться для всех видов использования, включая коммерческое, при отсылке на источник по лицензии CC-BY. На сайте имеются ссылки для скачивания всего корпуса материалов или его частей. Единственным ограничением контента является запрет на фразы, защищенные авторским правом согласно французскому законодательству. Каждой фразе при внесении на платформу присваивается порядковый номер, однако некоторые вклады (машинный перевод, дубликаты, неоконченные фразы и проч.) позднее удаляются. Процент удаления может быть вычислен при сравнении последнего порядкового номера (открыть верхнюю фразу в списке последних вкладов на лицевой) со счётчиком фраз на лицевой странице. Например, 12 дек. 2011 они составили, соответственно, 1295340 и 1241274. Грамматически верные фразы, недостаточно соответствующие друг другу в качестве переводов, могут быть разъединены (перестают отображаться как цепочка), но не удаляются. Они сохраняются в базе проекта как отправные точки для новых переводов. История модификаций каждой из фраз, а также соединений/разъединений между ними прилагается при каждой фразе и видна всем пользователям.

Поддерживаемые языки

На июль 2019 года сайт технически поддерживал 342 языка; на ноябрь 2025 года сайт поддерживает 429 языков. Начальным ресурсом для сайта стал англо-японский корпус языковых примеров проф. Ясухиро Танаки15 ноября 2025 года количество предложений составило 13 115 204.. В декабре 2010 года Татоэба содержала более 648 000 предложений; в апреле 2012 эта цифра почти достигла 1,5 млн, 12 января составила 2 037 379; Наибольшее количество фраз (по убывающей, февраль 2013):

Английский Эсперанто Немецкий Французский Японский Испанский Турецкий Португальский Итальянский Иврит Русский Польский Берберский Севернокитайский Венгерский Нидерландский Украинский Нижненемецкий Персидский

Дополнительно, есть более тысячи предложений на следующих языках: арабский, Исландский, Хинди, Уйгурский, Вьетнамский, норвежский (Букмол), Белорусский, шанхайский и Кантонский диалекты китайского языка. Наряду с естественными языками в проекте фигурируют искусственные: Эсперанто, клингон, интерлингва, CycL, Токипона.

Первоначально для введения нового языка было достаточно лишь обратиться к администраторам и внести на нём пять примеров. Позднее необходимым требованием стало наличие сертификации вносимого языка согласно стандарту ISO 639-3. При заявке на добавление нового языкового раздела можно предложить флаг-символ, который его обозначит на сайте; этот графический знак не обязан представлять конкретное государство из современных либо существовавших ранее.

Аудио

Помимо письменной передачи предложений, платформа Татоэба коллекционирует их произношение (поэтому участникам запрещается вводить предложения с вариантами грамматических и лексических форм в скобках, которые потребовали бы более одного варианта прочтения). Для участия в пополнении аудиораздела необходимо пройти аккредитацию, доказывающую качество записываемых примеров.http://tatoeba.org/eng/faq#submit-audio По этой причине аудиоразделы Татоэба пополняются сравнительно медленно.

Активность и формы сотрудничества

Открытость и доступность, в сочетании с удобством сайта, привела к устойчивому росту его популярности (график активности сайта фиксирует количество новых языковых примеров начиная с 30 сентября 2007). В декабре 2010 года количество ежедневных посетителей составляло ок. 1800, которые добавляли до полутора-двух тысяч примеров в день. К 2013 году вторая цифра возросла до 2,5-3 тысяч. Татоэба выступает за открытость и свободу Интернета в проекте Mozilla Drumbeat — http://www.drumbeat.org/project/tatoeba-project/about в числе нескольких сотен других проектов-участников. Татоэба содействует многим электронным словарям и переводчикам — например, электронному словарю японского языка WWWJDIC. Татоэба сотрудничает с проектом — бесплатной коллекцией аудиозаписей слов, фраз, пословиц и т. п. на различных языках. Материал платформы используется в электронных словарях Glosbe.

На базе Татоэба разработано приложение для самостоятельного изучения языков при помощи компьютерных флэш-карточек ТаТоТэн.

См. также

Корпус текстов Корпусная лингвистика Reverso Linguee ABBYY Lingvo Live (веб-версия ABBYY Lingvo) Машинный перевод Forvo — интернет-платформа, коллекционирующая произношения слов.

Примечания

Ссылки