Коранический корпус арабского языка

Материал из Wikibrand
Коранический корпус арабского языка
Коранический корпус арабского языка
Расположение Великобритания
Владелец Лидский университет
Языки арабский/английский
Текущий статус работает и развивается
Коммерческий GNU General Public License
Сайт http://corpus.quran.com

Коранический корпус арабского языка — доступный для поиска электронный онлайн-Корпус текстов Корана, включающий 77 430 арабских слов. Целью проекта является предоставление морфологических и синтаксических данных для исследователей, желающих изучить классический арабский язык.

Функции

Грамматический анализ текста содействует пользователям раскрывать предполагаемые значения каждого Аята и предложения. Каждое слово текста Корана атрибутировано указанием его части речи и несколькими морфологическими характеристиками. В отличие от других корпусов арабского языка, грамматика, используемая Кораническим корпусом, является традиционной арабской грамматикой Ираб (إعراب). Коранический корпус арабского языка — это исследовательский проект, возглавляемый специалистом по компьютерным наукам из Лидского университета, который является частью проекта по изучению арабского языка в Школе вычислительной техники под руководством Эрика Атуэлла.

Аннотированный корпус охватывает в себя: верифицированную вручную частеречную разметку текста на арабском языке; аннотированную древовидную структуру корпуса классического арабского языка; новую визуализацию традиционной арабской грамматики через графы зависимостей; морфологический поиск по тексту Корана; машиночитаемый морфологический арабо-английский словарь; частеречный Конкорданс арабского языка Корана, с лемматизацией; онлайновую доску объявлений для волонтёров сообщества. Частеречная разметка присваивает каждому слову корпуса тег части речи и морфологические признаки — например, указание, является данное слово существительным или Глаголом, стоит в мужском или женском роде. На первом этапе проекта была задействована автоматическая частеречная разметка. Затем характеристики для каждого из 77 430 слов Корана поэтапно уточнены двумя аннотаторами, и уточнения продолжаются до настоящего времени. Лингвистические исследования, в которых применяется Коранический корпус, содержат в себя обучение скрытой марковской модели частеречной разметки арабского языка, автоматическую категоризацию глав Корана и просодический анализ текста.

Вдобавок, проект предусматривает дословный перевод Корана на основе принятых английских источников вместо осуществления нового перевода Корана.

См. также

Корпусная лингвистика Коран Классический арабский язык

Примечания

Ссылки