Коранический корпус арабского языка
| Коранический корпус арабского языка | |
|---|---|
| Расположение | Великобритания |
| Владелец | Лидский университет |
| Языки | арабский/английский |
| Текущий статус | работает и развивается |
| Коммерческий | GNU General Public License |
| Сайт | http://corpus.quran.com |
Коранический корпус арабского языка — доступный для поиска электронный онлайн-Корпус текстов Корана, включающий 77 430 арабских слов. Целью проекта является предоставление морфологических и синтаксических данных для исследователей, желающих изучить классический арабский язык.
Функции
Грамматический анализ текста содействует пользователям раскрывать предполагаемые значения каждого Аята и предложения. Каждое слово текста Корана атрибутировано указанием его части речи и несколькими морфологическими характеристиками. В отличие от других корпусов арабского языка, грамматика, используемая Кораническим корпусом, является традиционной арабской грамматикой Ираб (إعراب). Коранический корпус арабского языка — это исследовательский проект, возглавляемый специалистом по компьютерным наукам из Лидского университета, который является частью проекта по изучению арабского языка в Школе вычислительной техники под руководством Эрика Атуэлла.
Аннотированный корпус охватывает в себя: верифицированную вручную частеречную разметку текста на арабском языке; аннотированную древовидную структуру корпуса классического арабского языка; новую визуализацию традиционной арабской грамматики через графы зависимостей; морфологический поиск по тексту Корана; машиночитаемый морфологический арабо-английский словарь; частеречный Конкорданс арабского языка Корана, с лемматизацией; онлайновую доску объявлений для волонтёров сообщества. Частеречная разметка присваивает каждому слову корпуса тег части речи и морфологические признаки — например, указание, является данное слово существительным или Глаголом, стоит в мужском или женском роде. На первом этапе проекта была задействована автоматическая частеречная разметка. Затем характеристики для каждого из 77 430 слов Корана поэтапно уточнены двумя аннотаторами, и уточнения продолжаются до настоящего времени. Лингвистические исследования, в которых применяется Коранический корпус, содержат в себя обучение скрытой марковской модели частеречной разметки арабского языка, автоматическую категоризацию глав Корана и просодический анализ текста.
Вдобавок, проект предусматривает дословный перевод Корана на основе принятых английских источников вместо осуществления нового перевода Корана.
См. также
Корпусная лингвистика Коран Классический арабский язык
Примечания
- http://www.kaisdukes.com/papers/qcorpus-lrej2011.pdf
- K. Dukes, E. Atwell and N. Habash (2011). Supervised Collaboration for Syntactic Annotation of Quranic Arabic. — http://www.kaisdukes.com/papers/qcorpus-lrej2011.pdf Language Resources and Evaluation Journal (LREJ). Special Issue on Collaboratively Constructed Language Resources.
- https://www.researchgate.net/publication/225362075_Supervised_collaboration_for_syntactic_annotation_of_Quranic_Arabic
- Supervised collaboration for syntactic annotation of Quranic Arabic — https://www.researchgate.net/publication/225362075_Supervised_collaboration_for_syntactic_annotation_of_Quranic_Arabic at ResearchGate. Uploaded by Nizar Habash, Columbia University.
- http://www.kaisdukes.com/papers/qadt-infos2010.pdf
- K. Dukes and T. Buckwalter (2010). A Dependency Treebank of the Quran using Traditional Arabic Grammar. — http://www.kaisdukes.com/papers/qadt-infos2010.pdf In Proceedings of the 7th International Conference on Informatics and Systems (INFOS). Cairo, Egypt.
- http://www.muslimtribune.org/reviews/online-sources/quranic-arabic-corpus
- The Quranic Arabic Corpus — http://www.muslimtribune.org/reviews/online-sources/quranic-arabic-corpus at The Muslim Tribune. June 20, 2011.
- http://nits2011.ksu.edu.sa/en/cap/CD/Keynote%20Speakers/Eric%20Atwell.pdf{{Недоступная
- Eric Atwell, Claire Brierley, Kais Dukes, Majdi Sawalha and Abdul-Baquee Sharaf. An Artificial Intelligence approach to Arabic and Islamic content on the internet — http://nits2011.ksu.edu.sa/en/cap/CD/Keynote%20Speakers/Eric%20Atwell.pdf, pg. 2. Riyadh: King Saud University, 2011.
- Engineering: Profile for Dr Eric Atwell - School of Computing - University of Leeds — http://www.comp.leeds.ac.uk/eric
- http://www.comp.leeds.ac.uk/eric
- https://web.archive.org/web/20170809172223/http://www.comp.leeds.ac.uk/eric/
- http://www.kaisdukes.com/papers/qparse-iwpt2011.pdf
- K. Dukes and N. Habash (2011). One-step Statistical Parsing of Hybrid Dependency-Constituency Syntactic Representations. — http://www.kaisdukes.com/papers/qparse-iwpt2011.pdf International Conference on Parsing Technologies (IWPT). Dublin, Ireland.
- http://www.springerlink.com/content/028kv16361qj1436{{Недоступная
- M. Albared, N. Omar and M. Ab Aziz (2011). Developing a Competitive HMM Arabic POS Tagger using Small Training Corpora. — http://www.springerlink.com/content/028kv16361qj1436 Intelligent Information and Database Systems. Springer Berlin, Heidelberg.
- http://www.comp.leeds.ac.uk/scsams/papers/ICCA2011_proceedings_paper26.pdf
- A. M. Sharaf and E. Atwell (2011). Automatic Categorization of the Quranic Chapters. — http://www.comp.leeds.ac.uk/scsams/papers/ICCA2011_proceedings_paper26.pdf 7th International Computing Conference in Arabic (ICCA11). Riyadh, Saudi Arabia.
- http://ivacs.info/download/i/mark_dl/u/4009575456/4560843681/IVACSprogramme2012.pdf
- C. Brierley, M. Sawalha and E. Atwell (2012). Boundary Annotated Qur’an Corpus for Arabic Phrase Break Prediction. — http://ivacs.info/download/i/mark_dl/u/4009575456/4560843681/IVACSprogramme2012.pdf IVACS Annual Symposium. Cambridge.
Ссылки
- Quranic Arabic Corpus — http://corpus.quran.com
- Quranic Arabic Corpus