DraCor

DraCor (Drama Corpora) — это электронный онлайн-корпус европейской драмы от греко-римской античности до середины XX века. По состоянию на 2025 год коллекция включала более 4330 текстов пьес на 18 языках. Тексты снабжены машиночитаемой разметкой в формате TEI/XML (диалект XML, используемый в цифровой текстологии, эпиграфике и др.). Разметка кодирует структуру пьесы и принадлежность реплик отдельным персонажам, что также позволяет моделировать пьесы в виде социальных сетей взаимодействия героев. Данные из DraCor (как разметка отдельных текстов, так и обобщенные Метаданные на уровне целых корпусов) используются в исследованиях в области цифровых гуманитарных наук. Библиография проекта насчитывает больше 100 научных статей.
Обзор проекта
Цель DraCor — создание совместимых друг с другом стандартизированных корпусов драматургии. Проект основан на концепции программируемых корпусов, где данные не только доступны пользователю в браузере, но и легко запрашиваются через открытый API. Платформа стремится придерживаться принципов FAIR (находимость, доступность, совместимость, повторное использование). Все тексты и разметка доступны под лицензией СС0, сам проект некоммерческий.
Ключевые особенности
Многоязычность: содержит корпуса драматических произведений на 18 языках, преимущственно европейских. Использование стандарта TEI/XML: тексты размечены в соответствии с рекомендациями консорциума TEI. В частности, в пьесах размечена общая сегментация на действия и явления, а также разделение текста на реплики (с идентификацией говорящего) и сценические ремарки. Доступ через открытый свободный API: документированный интерфейс для программного доступа к текстам и метаданным. Визуализация графов взаимодействия персонажей: пользователю доступны сетевые визуализации, отображающие совместную встречаемость персонажей в пьесах. Графы в машиночитаемом виде доступны для скачивания (на сайте и через API). Загрузка данных: предлагает возможность загрузки отдельных фрагментов текстов, например, только реплик определенных персонажей или только сценических ремарок. Данные находятся в открытом доступе, большинство корпусов и разметка доступны под лицензией СС0, также у проекта открытый исходный код на GitHub. Программируемый корпус: поддерживает интеграцию с внешними аналитическими инструментами и языками программирования, с API-оболочками, доступными для Python ( pydracor ) и R ( rdracor ).
Корпуса драмы в DraCor
В DraCor доступны пьесы на французском, немецком, английском, русском, испанском, голландском, итальянском, венгерском, шведском, польском, украинском, древнегреческом, латыни, идише, татарском и других языках. Каждый корпус курирует отдельный исследователь или команда исследователей. Вместе с текстами в разметке TEI/XML хранятся метаданные, что позволяет анализировать структуру пьес, взаимодействие персонажей, исследовать отдельно речь женских или мужских персонажей, анализировать сценические ремарки в отрыве от основного текста пьесы и др.
Инструменты и использование
В DraCor есть базовые инструменты визуализации, например, для сетевого анализа. Он также поддерживает доступ к корпусам через API. Это упрощает различные виды анализа, включая:
Количественный анализ текста Анализ социальных сетей персонажей Стилометрические исследования Сравнительное исследование драмы на разных языках
Сообщество вокруг DraCor
DraCor разрабатывается командами Свободного университета Берлина и Потсдамского университета. Поскольку у проекта открытый исходный код, он активно поощряет вклад и обратную связь от сообщества.
Внешние ссылки
Сайт DraCor — https://dracor.org/ Библиография исследований, в которых использовались данные или инструменты DraCor — https://staging.dracor.org/doc/research Документация API Dracor — https://dracor.org/doc/api DraCor на GitHub — https://github.com/dracor-org
Примечания
- What is DraCor — https://www.uni-potsdam.de/en/digital-humanities/events/dracor-summit/what-is-dracor
- https://www.uni-potsdam.de/en/digital-humanities/events/dracor-summit/what-is-dracor
- Кошелева: DraCor и Programmable Corpora: корпуса для цифровых гуманитариев — https://sysblok.ru/philology/dracor-i-programmable-corpora-korpusa-dlja-cifrovyh-gumanitariev/
- https://sysblok.ru/philology/dracor-i-programmable-corpora-korpusa-dlja-cifrovyh-gumanitariev/
- Erik Ketzan: Computational Drama Analysis: Reflecting on Methods and Interpretations ed. by Melanie Andresen and Nils Reiter (review) — https://muse.jhu.edu/pub/1/article/951988
- https://muse.jhu.edu/pub/1/article/951988
Ссылки
- Fischer: Programmable Corpora: Introducing DraCor, an Infrastructure for the Research on European Drama
- DraCor Research — https://dracor.org/doc/research
- DraCor Corpus Registry — https://dracor.org/doc/corpora
- pydracor — https://pypi.org/project/pydracor/
- rdracor — https://cran.r-project.org/web/packages/rdracor/index.html
- DraCor Credits — https://dracor.org/doc/credits
- https://dracor.org/doc/research
- https://dracor.org/doc/corpora
- https://pypi.org/project/pydracor/
- https://cran.r-project.org/web/packages/rdracor/index.html
- https://dracor.org/doc/credits