Письменный корпус татарского языка

Пи́сьменный ко́рпус тата́рского языка́ — электронный корпус татарского языка, доступный для онлайн пользования. Корпус предназначен интересующимся системой, состоянием и перспективой татарского языка. Он необходим лингвистам, изучающим татарский язык в рамках корпусной лингвистики. Сайт открыт 15 марта 2012 года. Текущий адрес http://corpus.tatar. Доступен на татарском, русском и английском языках.
Объём корпуса
Объём корпуса с конца 2014 года насчитывает более 116 млн слов, составляющих более 10 млн предложений, число различных словоформ приближается к 1,5 млн. Тексты в корпусе хранятся в виде отдельных предложений с целью предотвращения их копирования.
Доступ
Доступ к пользованию корпусом является бесплатным.
О создании корпуса
Создание корпуса началось в 2010 году группой энтузиастов. Оно было продиктовано необходимостью разработки системы машинного перевода текстов с татарского на иностранный язык и обратно, а также системы автоматического синтеза и распознавания татарской речи определенной тематики.
Практическая значимость и возможности использования
Корпус может использоваться лингвистами, изучающими татарский язык в рамках корпусной лингвистики, а также при обучении языку и в качестве справочника при составлении различных документов. Корпус позволяет просматривать контекст, определять частоту вхождений, находить слова с требуемыми свойствами.
Контекстно-статистический поиск
Данный тип поиска — http://search.corpus.tatar/search/index.html позволяет просматривать отсортированные по частотности правый, левый и семантический контексты искомого слова. Правый контекст — слова расположенные непосредственно за текущим словом. Левый контекст — слова расположенные непосредственно перед текущим словом. Семантический контекст — слова расположенные в одном предложении с текущим словом, то есть имеющие с ним в той или иной степени семантическую связь.
Сложный морфологический поиск
В 2014 году была произведена морфологическая разметка Корпуса. В основу метаязыка грамматических помет положена система «тегов» для тюркских языков, разработанная международным проектом Apertium — http://wiki.apertium.org/wiki/Publications. В пределах данного проекта создается система машинного перевода для большого количества языков. Основными аргументами в пользу выбора морфологического таггера Apertium’а для разметки Письменного корпуса являются: — высокое качество морфологической аннотации; — абсолютная открытость этого проекта: все исходные коды и наработки публично доступны всем желающим бесплатно. Разработанная нами в 2015—2016 годах Система сложного морфологического поиска — http://search.corpus.tatar/search/index.html позволяет производить поиск в Корпусе на основе различных комбинаций таких параметров, как словоформа, лемма, набор морфологических (грамматических) тегов, начало, середина, конец слова с указанием возможных расстояний между лексемами.
Система синтеза татарской речи
На сайте Письменного корпуса татарского языка имеется возможность прослушать как найденные предложения, так и произвольный текст — http://search.corpus.tatar/search/sintez.html.
Статистические данные
На сайте Корпуса размещаются различные статистические данные — http://corpus.tatar/stat.htm, которые авторы получают по мере обработки данных.
Недостатки и перспективы развития
Отсутствует оффлайн версия корпуса. Нет возможности поиска со снятой омонимией.
Составители
Создателями корпуса являются: Сайхунов М. Р. (кандидат филологических наук, научный сотрудник Института информатики АН РТ) Ибрагимов Т. И. (кандидат филологических наук, доцент кафедры прикладной лингвистики КФУ) Хусаинов Р. Р. (инженер, компания GDC) При содействии: Республиканского центра развития традиционной культуры Кафедры финно-угорских языков Университета Турку (Финляндия) Компании «RX5» Редакции научно-информационного журнала «Фән һәм Тел»
Литература
- Татар теленең язма корпусы // «Мәдәни җомга» (2012 № 20) — http://corpus.tatar/files/mj20.pdf
- http://corpus.tatar/files/mj20.pdf
- Татар теленең язма корпусы // «Фән һәм Тел» (2012 № 1-2) — http://corpus.tatar/files/ft1-2-12.pdf
- http://corpus.tatar/files/ft1-2-12.pdf
- Татар теленең язма корпусы һәм тел мәсьәләләре // «Мәдәни җомга» (2012 № 32) — http://corpus.tatar/files/mj32.pdf
- http://corpus.tatar/files/mj32.pdf
- К построению структурно-функциональной модели ценностной ориентации татарского этноса (по материалам письменного корпуса татарского языка) // Языки России и стран ближнего зарубежья как иностранные: преподавание и изучение: материалы Международной научно-практической конференции (28-29 ноября 2013 г.) — http://corpus.tatar/files/tugrylyk_2013.pdf
- http://corpus.tatar/files/tugrylyk_2013.pdf
- Письменный корпус татарского языка: идеи, проблемы, решения // Нематериальное культурное наследие тюркских народов как объект сохранения: сборник материалов Международной научно-практической конференции (16-19 июля 2014 г.) — http://corpus.tatar/files/folk_2014.pdf
- http://corpus.tatar/files/folk_2014.pdf
- Письменный корпус татарского языка с озвучением визуализированных предложений как инструмент лингвистических исследований // Сопоставительная филология и полилингвизм: Материалы Всероссийской научно-практической конференции (Казань, 19-21 ноября 2014 г.) — http://corpus.tatar/files/1_Ibragimov_TI_Saykhunov_MR_stat.pdf
- http://corpus.tatar/files/1_Ibragimov_TI_Saykhunov_MR_stat.pdf
- Письменный корпус татарского языка: структурные и функциональные характеристики // Актуальные проблемы диалектологии языков народов России: Материалы XIV Всероссийской научной конференции (Уфа, 20-22 ноября 2014 г.) — http://corpus.tatar/files/dialekt_ufa_2014.pdf
- http://corpus.tatar/files/dialekt_ufa_2014.pdf
- Татар теле, татарлар һәм ассимиляция күренеше // «Фәнни Татарстан» (2015 № 1) — http://corpus.tatar/files/fenni_tatarstan_2015_1.pdf
- http://corpus.tatar/files/fenni_tatarstan_2015_1.pdf
- The language situation of an ethnic community (on the material of the Corpus of written Tatar language) // «Tatarica» (2015 № 4) — http://corpus.tatar/files/TATARICA_2015_4_eng_rus.pdf#page=1
- http://corpus.tatar/files/TATARICA_2015_4_eng_rus.pdf#page=1
- Языковое состояние этнической общности на материале Письменного корпуса татарского языка // «Tatarica» (2015 № 4) — http://corpus.tatar/files/TATARICA_2015_4_eng_rus.pdf#page=5&zoom=auto,-29,540
- http://corpus.tatar/files/TATARICA_2015_4_eng_rus.pdf#page=5&zoom=auto,-29,540
- Фонология татарского языка в плане теории фонемы И. А. Бодуэна де Куртенэ // И. А. Бодуэн де Куртенэ и мировая лингвистика: международная конференция: V Бодуэновские чтения (Казанский федеральный университет, 12-15 октября 2015 г.) — http://corpus.tatar/files/Baudouin_2015_1_133_136.pdf
- http://corpus.tatar/files/Baudouin_2015_1_133_136.pdf
- Татар теленең язма корпусы // «Мәдәни җомга» (2012 № 20)
- Татар теленең язма корпусы // «Фән һәм Тел» (2012 № 1-2)
- Татар теленең язма корпусы һәм тел мәсьәләләре // «Мәдәни җомга» (2012 № 32)
- К построению структурно-функциональной модели ценностной ориентации татарского этноса (по материалам письменного корпуса татарского языка) // Языки России и стран ближнего зарубежья как иностранные: преподавание и изучение: материалы Международной научно-практической конференции (28-29 ноября 2013 г.)
- Письменный корпус татарского языка: идеи, проблемы, решения // Нематериальное культурное наследие тюркских народов как объект сохранения: сборник материалов Международной научно-практической конференции (16-19 июля 2014 г.)
- Письменный корпус татарского языка с озвучением визуализированных предложений как инструмент лингвистических исследований // Сопоставительная филология и полилингвизм: Материалы Всероссийской научно-практической конференции (Казань, 19-21 ноября 2014 г.)
- Письменный корпус татарского языка: структурные и функциональные характеристики // Актуальные проблемы диалектологии языков народов России: Материалы XIV Всероссийской научной конференции (Уфа, 20-22 ноября 2014 г.)
- Татар теле, татарлар һәм ассимиляция күренеше // «Фәнни Татарстан» (2015 № 1)
- The language situation of an ethnic community (on the material of the Corpus of written Tatar language) // «Tatarica» (2015 № 4)
- Языковое состояние этнической общности на материале Письменного корпуса татарского языка // «Tatarica» (2015 № 4)
- Фонология татарского языка в плане теории фонемы И. А. Бодуэна де Куртенэ // И. А. Бодуэн де Куртенэ и мировая лингвистика: международная конференция: V Бодуэновские чтения (Казанский федеральный университет, 12-15 октября 2015 г.)
Ссылки
- Письменный корпус татарского языка — Официальный сайт — http://corpus.tatar
- http://corpus.tatar/
- Письменный корпус татарского языка — Официальный сайт