Генеральный интернет-корпус русского языка

Материал из Wikibrand

Генера́льный интерне́т-ко́рпус ру́сского языка́ (ГИКРЯ) — доступный для поиска электронный онлайновый корпус русских Текстов из сети интернет. Открыт в 2013 году. Корпус охватывает в себя текстовые материалы из блогосферы, социальных сетей, с крупнейших новостных ресурсов и из литературных журналов.

Цели проекта

Проект имеет статус учебно-научного, и многие задачи компьютерной лингвистики решаются независимыми исследователями и научными группами на материале, полученном ГИКРЯ. В то время как другие корпусные проекты фокусируют свое внимание на художественной литературе и отредактированных текстах, Генеральный интернет-корпус предоставляет российским Лингвистам своевременную возможность изучать язык как он есть, со всеми региональными и Сленговыми особенностями. Корпус дает возможность производить: Лингвистические исследования широкого спектра: диалектологические исследования, изучение дистрибуции слов, изучение языка социальных сетей, изучение влияния Гендерных, Возрастных и других факторов на Язык, частотности слов, устойчивых выражений и различных конструкций, стилистических особенностей текстов разных сегментов интернета и так далее; Анализ соцсетей; Машинное обучение на базе корпуса, улучшение алгоритмов автоматической разметки. В разное время НИР и самостоятельные исследования на материале проекта вели студенты, аспиранты и сотрудники МГУ, МФТИ, РГГУ, НГУ, НИУ ВШЭ, ИЯ РАН, ЮФУ, ЧГУ, ВГПУ, ИСАА МГУ.

Научные руководители проекта: Беликов В. И.— МГУ, РГГУ, Москва, Россия; Селегей В. П. — РГГУ; МФТИ; ABBYY, Москва, Россия; Шаров С. А. — РГГУ, Москва, Россия; University of Leeds, Великобритания.

В создании и поддержке проекта участвовали: Российский государственный гуманитарный университет; ABBYY; Московский физико-технический институт (государственный университет); Университет «СколТех».

Объём и состав корпуса

Объём корпуса на лето 2016 года составляет 19,8 миллиарда словоупотреблений, из них 49 % приходится на «Вконтакте», 40 % — на Живой Журнал, еще по 4 % — на Блоги@Mail.ru и Новости, и 2 % — на Журнальный зал. В сегменте Новостей собраны материалы из источников: РИА Новости, Regnum, Lenta.ru, Росбалт. Тексты снабжены метаразметкой (по дате создания текста, полу, месту и году рождения автора, интернет-жанру и так далее); все тексты снабжены автоматической морфологической разметкой и лемматизированы. Большую часть текстов создают записи за 2013—2014 годы, хотя на некоторых сегментах, например, в Журнальном зале, собраны тексты начиная с 1994 года.

Подкорпус Слов, млн Текстов
Блоги@Mail.ru 707 9 882 120
ВКонтакте 9820 193 770 717
Живой Журнал 8110 73 229 158
Журнальный зал 313 56 547
Новостной подкорпус (РИА Новости, Regnum, Lenta.ru, Росбалт) 851 2 964 897
Весь корпус 19 801 279 903 439

ГИКРЯ является одним из немногих мегакорпусов, достигающих объемом нескольких миллиардов слов.

Корпус Языки Доступ Сайт Объем Возможности
COW: Free, Large Web Corpora in European Languages Английский, французский, немецкий, испанский, шведский, нидерландский бесплатно, после регистрации, возможен ознакомительный доступ без регистрации https://web.archive.org/web/20160221212019/https://webcorpora.org/ порядка 30 млрд слов формат KWIC, морфоразметка, поиск по CQP, разметка и поиск по дате, URL, стране, городу и т. д.
Sketch Engine английский, французский, немецкий, итальянский, арабский, русский, испанский, португальский, корейский, японский, китайский; больше языков доступны платно платно, после регистрации, возможен ознакомительный доступ https://www.sketchengine.co.uk/ 86 млрд слов конкордансы, скетч-грамматика, Тезаурусы, KWIC, морфоразметка, поиск по CQP
Aranea Corpora английский, русский, финский, французский, немецкий, венгерский, испанский, итальянский, голландский, польский, словацкий бесплатно, после регистрации, возможен ознакомительный доступ без регистрации http://sketch.juls.savba.sk/aranea_about/ около 14 млрд слов noSketch Engine, конкордансы, скетч-грамматика, KWIC, морфоразметка, поиск по CQP, сравнение результатов запросов на разных языках
ГИКРЯ Генеральный интернет-корпус русского языка русский бесплатно, регистрация по запросу http://www.webcorpora.ru/ 20 млрд слов формат KWIC, морфоразметка, конкордансы, поиск по CQP, разметка и поиск по дате, стране, городу, сегменту Рунета, полу, году и месту рождения автора, пересылка результатов пользователями друг другу
CORPUS OF GLOBAL WEB-BASED ENGLISH (GloWbE) английский, спецификация 20 стран мира без регистрации http://corpus.byu.edu/glowbe/ 1,9 млрд слов KWIC, конкордансы, коллокаты, сравнение результатов по Диалектам, CQP, можно скачать весь корпус целиком

Доступ

В настоящее время интерфейс корпуса находится в стадии бета-тестирования, поэтому доступ к поиску по корпусу предоставляется и является бесплатным, однако предоставляется по заявке.

См. также

Корпус текстов Автоматическое получение размеченного корпуса НКРЯ

Примечания

Литература

  • Российские учёные разметят интернет (на сайте «Наука и технологии России — STRF.ru») — http://www.strf.ru/material.aspx?d_no=50859&CatalogId=21731#.V0jLmPmLTIU
  • Беликов В., Копылов Н., Пиперски А., Селегей В., Шаров С. (2013), Корпус Как язык: от масштабируемости К дифференциальной полноте. По материалам ежегодной конференции Диалог, Бекасово. Компьютерная лингвистика и интеллектуальные технологии. — http://www.dialog-21.ru/digests/dialog2013/materials/pdf/BelikovVI.pdf
  • Пиперски А. Ч. (2013) Генеральный интернет-корпус русского языка и понятие репрезентативности в корпусной лингвистике. Институт лингвистики ФГБОУ ВПО «Российский государственный гуманитарный университет», Москва, Россия — http://www.science-education.ru/pdf/2013/5/14.pdf
  • Шаров С. А., Беликов В. И., Копылов Н. Ю., Сорокин А. А., Шаврина Т. О. (2015) Корпус с автоматически снятой морфологической неоднозначностью: К методике лингвистических исследований. По материалам ежегодной конференции Диалог, Бекасово. Компьютерная лингвистика и интеллектуальные технологии. — http://www.dialog-21.ru/digests/dialog2015/materials/pdf/SharoffSAetal.pdf
  • Российские учёные разметят интернет (на сайте «Наука и технологии России — STRF.ru»)
  • Беликов В., Копылов Н., Пиперски А., Селегей В., Шаров С. (2013), Корпус Как язык: от масштабируемости К дифференциальной полноте. По материалам ежегодной конференции Диалог, Бекасово. Компьютерная лингвистика и интеллектуальные технологии.
  • Пиперски А. Ч. (2013) Генеральный интернет-корпус русского языка и понятие репрезентативности в корпусной лингвистике. Институт лингвистики ФГБОУ ВПО «Российский государственный гуманитарный университет», Москва, Россия
  • Шаров С. А., Беликов В. И., Копылов Н. Ю., Сорокин А. А., Шаврина Т. О. (2015) Корпус с автоматически снятой морфологической неоднозначностью: К методике лингвистических исследований. По материалам ежегодной конференции Диалог, Бекасово. Компьютерная лингвистика и интеллектуальные технологии.

Ссылки