DraCor

Материал из Wikibrand
DraCor

DraCor (Drama Corpora) — это электронный онлайн-корпус европейской драмы от греко-римской античности до середины XX века. По состоянию на 2025 год коллекция включала более 4330 текстов пьес на 18 языках. Тексты снабжены машиночитаемой разметкой в формате TEI/XML (диалект XML, используемый в цифровой текстологии, эпиграфике и др.). Разметка кодирует структуру пьесы и принадлежность реплик отдельным персонажам, что также позволяет моделировать пьесы в виде социальных сетей взаимодействия героев. Данные из DraCor (как разметка отдельных текстов, так и обобщенные Метаданные на уровне целых корпусов) используются в исследованиях в области цифровых гуманитарных наук. Библиография проекта насчитывает больше 100 научных статей.

Обзор проекта

Цель DraCor — создание совместимых друг с другом стандартизированных корпусов драматургии. Проект основан на концепции программируемых корпусов, где данные не только доступны пользователю в браузере, но и легко запрашиваются через открытый API. Платформа стремится придерживаться принципов FAIR (находимость, доступность, совместимость, повторное использование). Все тексты и разметка доступны под лицензией СС0, сам проект некоммерческий.

Ключевые особенности

Многоязычность: содержит корпуса драматических произведений на 18 языках, преимущственно европейских. Использование стандарта TEI/XML: тексты размечены в соответствии с рекомендациями консорциума TEI. В частности, в пьесах размечена общая сегментация на действия и явления, а также разделение текста на реплики (с идентификацией говорящего) и сценические ремарки. Доступ через открытый свободный API: документированный интерфейс для программного доступа к текстам и метаданным. Визуализация графов взаимодействия персонажей: пользователю доступны сетевые визуализации, отображающие совместную встречаемость персонажей в пьесах. Графы в машиночитаемом виде доступны для скачивания (на сайте и через API). Загрузка данных: предлагает возможность загрузки отдельных фрагментов текстов, например, только реплик определенных персонажей или только сценических ремарок. Данные находятся в открытом доступе, большинство корпусов и разметка доступны под лицензией СС0, также у проекта открытый исходный код на GitHub. Программируемый корпус: поддерживает интеграцию с внешними аналитическими инструментами и языками программирования, с API-оболочками, доступными для Python ( pydracor ) и R ( rdracor ).

Корпуса драмы в DraCor

В DraCor доступны пьесы на французском, немецком, английском, русском, испанском, голландском, итальянском, венгерском, шведском, польском, украинском, древнегреческом, латыни, идише, татарском и других языках. Каждый корпус курирует отдельный исследователь или команда исследователей. Вместе с текстами в разметке TEI/XML хранятся метаданные, что позволяет анализировать структуру пьес, взаимодействие персонажей, исследовать отдельно речь женских или мужских персонажей, анализировать сценические ремарки в отрыве от основного текста пьесы и др.

Инструменты и использование

В DraCor есть базовые инструменты визуализации, например, для сетевого анализа. Он также поддерживает доступ к корпусам через API. Это упрощает различные виды анализа, включая:

Количественный анализ текста Анализ социальных сетей персонажей Стилометрические исследования Сравнительное исследование драмы на разных языках

Сообщество вокруг DraCor

DraCor разрабатывается командами Свободного университета Берлина и Потсдамского университета. Поскольку у проекта открытый исходный код, он активно поощряет вклад и обратную связь от сообщества.

Внешние ссылки

Сайт DraCor — https://dracor.org/ Библиография исследований, в которых использовались данные или инструменты DraCor — https://staging.dracor.org/doc/research Документация API Dracor — https://dracor.org/doc/api DraCor на GitHub — https://github.com/dracor-org

Примечания

Ссылки