Викиданные: различия между версиями

Материал из Wikibrand
imported>ImportBot
(Initial rewritten import)
 
(Initial rewritten import)
Строка 1: Строка 1:
{{карточка сайта
[[Файл:4139299_Викиданные.jpg|мини|Викиданные]]
|commercial = нет
|текущий статус = работает, постепенно наращивая функциональность
}}
«'''Викида́нные'''» ({{lang-en|Wikidata}}) — [[Вики|совместно редактируемая]] База знаний, созданная Фондом Викимедиа.


Викиданные используются для обеспечения централизованного хранения данных, которые могут использоваться в других проектах, в том числе в статьях [[Википедия|Википедии]] — например, интервики-ссылок, значков статусных статей и списков или статистической информации: дат рождения, численности населения и тому подобное<ref>{{cite web|url=http://www.wikimedia.de/wiki/Pressemitteilungen/PM_3_12_Wikidata_EN|title=Data Revolution for Wikipedia|date=2012-03-30|publisher=Wikimedia Deutschland|access-date=2012-09-11|archive-url=https://www.webcitation.org/6AbXpDAbW?url=http://www.wikimedia.de/wiki/Pressemitteilungen/PM_3_12_Wikidata_EN|archive-date=2012-09-11|url-status=dead}}</ref>. Содержимое Викиданных распространяется по лицензии Creative Commons CC0<ref>{{Cite web |url=https://www.wikidata.org/wiki/Wikidata:Introduction/ru |title=Викиданные: Введение |access-date=2015-12-08 |archive-date=2016-03-05 |archive-url=https://web.archive.org/web/20160305165806/https://www.wikidata.org/wiki/Wikidata:Introduction/ru |url-status=live }}</ref>.
«Викида́нные» () — совместно редактируемая База знаний, созданная Фондом Викимедиа.


== История ==
Викиданные используются для обеспечения централизованного хранения данных, которые могут использоваться в других проектах, в том числе в статьях Википедии — например, интервики-ссылок, значков статусных статей и списков или статистической информации: дат рождения, численности населения и тому подобное. Содержимое Викиданных распространяется по лицензии Creative Commons CC0.
Создатель всемирной паутины Тим Бернерс-Ли описывал её как совокупность связанных между собой человекочитаемых документов, расположенных на серверах по всему миру. Логическим развитием этой идеи стала Семантическая паутина, предложенная им же в 2001 году. Она предполагала построение столь же масштабной и распределённой сети взаимосвязанных машиночитаемых данных. Одной из важных вех в реализации этой идеи стало анонсирование компанией [[Google (компания)|Google]] в мае 2012 года концепции Knowledge Graph{{source-ref|Q56659655}}.
На тот момент уже существовали аналогичные (хоть и значительно менее масштабные) инструменты этого типа, такие как [[DBpedia]] и {{iw|YAGO|||YAGO  (database)}} (автоматически импортировавшие данные преимущественно из википедии), а также Freebase, {{iw|NELL|||Never-Ending Language Learning}} и OpenCyc (преимущественно наполняемые людьми){{source-ref|Q41078402}}.


В октябре 2012 года была официально запущена разработка «Викиданных» под руководством Wikimedia Deutschland{{source-ref|Q24074986}}, следовательно став первым новым проектом Фонда Викимедиа с 2006 года{{source-ref|Q56449922|pages=551|url=https://books.google.nl/books?id=vcmoBQAAQBAJ&pg=PA550}}.
История
Создатель всемирной паутины Тим Бернерс-Ли описывал её как совокупность связанных между собой человекочитаемых документов, расположенных на серверах по всему миру. Логическим развитием этой идеи стала Семантическая паутина, предложенная им же в 2001 году. Она предполагала построение столь же масштабной и распределённой сети взаимосвязанных машиночитаемых данных. Одной из важных вех в реализации этой идеи стало анонсирование компанией Google в мае 2012 года концепции Knowledge Graph.
На тот момент уже существовали аналогичные (хоть и значительно менее масштабные) инструменты этого типа, такие как DBpedia и (автоматически импортировавшие данные преимущественно из википедии), а также Freebase, и OpenCyc (преимущественно наполняемые людьми).


Стартовое финансирование было получено от {{iw|Институт искусственного интеллекта Пола Аллена|Института искусственного интеллекта Пола Аллена||Allen Institute for AI}}, {{iw|Фонд Гордона и Бетти Мур|Фонда Гордона и Бетти Мур||Gordon and Betty Moore Foundation}} и [[Google (компания)|Google]] в размере 1,3 миллиона Евро{{source-ref|Q116262718}}.
В октябре 2012 года была официально запущена разработка «Викиданных» под руководством Wikimedia Deutschland, следовательно став первым новым проектом Фонда Викимедиа с 2006 года.


Первоочередной задачей было создание централизованного хранилища «интервики»-ссылок, то есть ссылок на страницы проектов Фонда, описывающих одни и те же темы. Одна запись (элемент) Викиданных может быть связана с множеством страниц в любом вики-проекте, включая (но не ограничиваясь) всеми языковыми разделами Википедии. Это позволяет «потребителям» Викиданных (например, русской Википедии), для каждой статьи отображать список аналогичных статей на других языках.{{source-ref|Q23712646}}
Стартовое финансирование было получено от, и Google в размере 1,3 миллиона Евро.


Вместе с интервики-ссылками, у элементов Викиданных сразу появились и другие атрибуты (например, названия на поддерживаемых MediaWiki языках{{source-ref|Q37859976}}).
Первоочередной задачей было создание централизованного хранилища «интервики»-ссылок, то есть ссылок на страницы проектов Фонда, описывающих одни и те же темы. Одна запись (элемент) Викиданных может быть связана с множеством страниц в любом вики-проекте, включая (но не ограничиваясь) всеми языковыми разделами Википедии. Это позволяет «потребителям» Викиданных (например, русской Википедии), для каждой статьи отображать список аналогичных статей на других языках.
Традиционно в вики-проектах базовая информация по теме статьи размещалась в {{iw|инфобокс|инфобоксах||Infobox}}, поэтому целью следующего этапа было дать пользователям возможность сохранять в элементах структурированную информацию (например, «[[:d:Q405|Луна]] → [[:d:Property:P397|родительское тело]] → [[:d:Q2|Земля]]» или «[[:d:Q513|Эверест]] → [[:d:Property:P2044|высота над уровнем моря]] → 8848,86 [[:d:Q630649|метр]]») и отображать её в форме привычных читателю инфобоксов в связанных статьях{{source-ref|Q50378256}}.


В сентябре 2015 года появилась возможность делать запросы к викиданным на языке SPARQL. Wikidata Query Service был реализован на основе open-source версии Blazegraph.{{source-ref|Q57933185}}
Вместе с интервики-ссылками, у элементов Викиданных сразу появились и другие атрибуты (например, названия на поддерживаемых MediaWiki языках).
Традиционно в вики-проектах базовая информация по теме статьи размещалась в, поэтому целью следующего этапа было дать пользователям возможность сохранять в элементах структурированную информацию (например, «Луна → родительское тело → Земля» или «Эверест → высота над уровнем моря → 8848,86 метр») и отображать её в форме привычных читателю инфобоксов в связанных статьях.


В 2016 году разработчики анонсировали поддержку орфографических структур данных, в 2018 появилась возможность создания лексем и словоформ, а затем и указания их значений с помощью привязки соответствующего по смыслу элемента викиданных.{{source-ref|Q63862226}}
В сентябре 2015 года появилась возможность делать запросы к викиданным на языке SPARQL. Wikidata Query Service был реализован на основе open-source версии Blazegraph.


Для упрощения моделирования и последующей валидации данных в мае 2019 года была введена поддержка для сохранения и совместного редактирования {{iw|ShEx}}-схем{{source-ref|Q64862991}}.
В 2016 году разработчики анонсировали поддержку орфографических структур данных, в 2018 появилась возможность создания лексем и словоформ, а затем и указания их значений с помощью привязки соответствующего по смыслу элемента викиданных.


Также в 2019 году разработчики выпустили {{iw|Wikibase|||Wikibase}} (движок Викиданных) в виде самостоятельного продукта.{{source-ref|Q109364981}}
Для упрощения моделирования и последующей валидации данных в мае 2019 года была введена поддержка для сохранения и совместного редактирования -схем.
В 2021 году были анонсированы планы по запуску Wikibase.Cloud — SaaS в формате которого пользователю предоставляются предварительно настроенные компоненты {{Abbr|WBStack|Wikibase stack|0}}: собственно Wikibase, сервис SPARQL запросов, и т. п.


== Проект ==
Также в 2019 году разработчики выпустили (движок Викиданных) в виде самостоятельного продукта.
В 2021 году были анонсированы планы по запуску Wikibase.Cloud — SaaS в формате которого пользователю предоставляются предварительно настроенные компоненты: собственно Wikibase, сервис SPARQL запросов, и т. п.
 
Проект
В основу проекта были положены следующие принципы:
В основу проекта были положены следующие принципы:
# Свободное редактирование
Свободное редактирование
# Множественность точек зрения (в том числе, конфликтующих)
Множественность точек зрения (в том числе, конфликтующих)
# Многоязычность
Многоязычность
Эти принципы отличали викиданные от аналогичных проектов. Например, разработка МКБ-11 велась силами ограниченного набора специалистов, Freebase не поддерживал многоязычность своих сущностей, а Semantic MediaWiki затрудняло простановку ссылок на внешние источники.{{source-ref|Q18507561}}
Эти принципы отличали викиданные от аналогичных проектов. Например, разработка МКБ-11 велась силами ограниченного набора специалистов, Freebase не поддерживал многоязычность своих сущностей, а Semantic MediaWiki затрудняло простановку ссылок на внешние источники.
 
Сервис запросов
Технически контент викиданных хранится в виде JSON-blobов в MySQL, поэтому готового инструмента для выполнения хоть сколь-нибудь сложных запросов в системе не было. Рассмотрев различные варианты включающие разработку специализированного софта, применения готовых NoSQL-продуктов и графовых баз данных, было решено остановиться на последнем и внедрить Blazegraph. Данные из внутреннего json-представления элементов преобразуются в RDF и синхронизируются с внутренним хранилищем Blazegraph, доступным только для чтения. В качестве языка запросов применяется SPARQL версии 1.1, с помощью синтаксической конструкции SERVICE можно обратиться как к специфичным для викиданных расширениям, так и запросить дополнительную информацию у некоторых сторонних источников. Таймаут на выполнение запросов составляет 60 секунд, если выполнение запрос не успевает завершиться, он прерывается с ошибкой.


=== Сервис запросов ===
Ключевым элементом сервиса является API, в который можно передать запрос и получить в требуемом формате таблицу с результатом. Для интерактивной работы существует веб-редактор запросов c подсветкой синтаксиса и Автодополнением. Результаты выполнения запросов могут визуализироваться как в табличной форме, так и в виде карты, столбцовой диаграммы, галереи изображений и т. д.
Технически контент викиданных хранится в виде JSON-blobов в MySQL, поэтому готового инструмента для выполнения хоть сколь-нибудь сложных запросов в системе не было. Рассмотрев различные варианты включающие разработку специализированного софта, применения готовых NoSQL-продуктов и графовых баз данных, было решено остановиться на последнем и внедрить Blazegraph. Данные из внутреннего json-представления элементов преобразуются в RDF и синхронизируются с внутренним хранилищем Blazegraph, доступным только для чтения. В качестве языка запросов применяется SPARQL версии 1.1, с помощью синтаксической конструкции SERVICE можно обратиться как к специфичным для викиданных расширениям, так и запросить дополнительную информацию у некоторых сторонних источников. Таймаут на выполнение запросов составляет 60 секунд, если выполнение запрос не успевает завершиться, он прерывается с ошибкой.{{source-ref|Q56010228}}


Ключевым элементом сервиса является API, в который можно передать запрос и получить в требуемом формате таблицу с результатом. Для интерактивной работы существует веб-редактор запросов c подсветкой синтаксиса и Автодополнением. Результаты выполнения запросов могут визуализироваться как в табличной форме, так и в виде карты, столбцовой диаграммы, галереи изображений и т. д.{{source-ref|Q56010228}}
Контент-модель
мини|слева|400px|Терминология утверждений в Викиданных
Утверждения — это способ хранения любой информации об широко известный элементе. Формально, они состоят из пар Ключ-значение, которые хранят соответствие свойства (например, «автор», или «дата публикации») с одним или несколькими значениями (например, «Артур Конан-Дойл» или «1902»). Например, неформальное утверждение «молоко — белое» () было бы закодировано с помощью утверждения, которое хранит пару. Это пара, состоящая из свойства P462 (цвет) со значением Q23444 (белый) в элементе Q8495 (молоко). Например, свойство «occupation» (род занятий) для Утверждения могут устанавливать отношение между свойством и более чем одним значением. Марии Кюри могло бы быть ассоциировалось со значениями «физик» и «химик», чтобы отразить факт того, что она занималась и тем, и другимСвойства предписывают, с какими типами значений их можно связывать..


== Контент-модель ==
Значения могут быть разных типов, включая другие записи Викиданных, строки, числа или файлы с фото/видео. Например, свойство «официальный сайт» может быть поставлено в соответствие только со значениями типа «URL».
[[Файл:Wikidata statement.svg|мини|слева|400px|Терминология утверждений в Викиданных]]
Также, свойства могут определять более сложные правила относительно их предполагаемого использования. Эти правила называются «ограничения» (). Например, свойство «столица» содержит в себя «ограничение на единственное значение») (), отражающее тот факт, что у любой территории (как правило) есть только одна столица. Ограничения трактуются скорее как подсказки, чем как нерушимые правила.
Утверждения — это способ хранения любой информации об широко известный элементе. Формально, они состоят из пар Ключ-значение, которые хранят соответствие свойства (например, «автор», или «дата публикации») с одним или несколькими значениями (например, «Артур Конан-Дойл» или «1902»). Например, неформальное утверждение «молоко — белое» ({{lang-en|milk is white}}) было бы закодировано с помощью утверждения, которое хранит пару. Это пара, состоящая из свойства P462 (цвет) со значением Q23444 (белый) в элементе Q8495 (молоко). Например, свойство «occupation» (род занятий) для Утверждения могут устанавливать отношение между свойством и более чем одним значением. Марии Кюри могло бы быть ассоциировалось со значениями «физик» и «химик», чтобы отразить факт того, что она занималась и тем, и другим<ref>{{cite web|url=https://www.wikidata.org/wiki/Help:Statements|title=Help:Statements|access-date=2019-05-26|archive-date=2019-03-25|archive-url=https://web.archive.org/web/20190325054926/https://www.wikidata.org/wiki/Help:Statements|url-status=live}}</ref>Свойства предписывают, с какими типами значений их можно связывать..


Значения могут быть разных типов, включая другие записи Викиданных, строки, числа или файлы с фото/видео. Например, свойство «официальный сайт» может быть поставлено в соответствие только со значениями типа «URL»<ref>{{cite web|url=https://www.wikidata.org/wiki/Help:Data_type|title=Help:Data type|access-date=2019-05-26|archive-date=2019-03-23|archive-url=https://web.archive.org/web/20190323184623/https://www.wikidata.org/wiki/Help:Data_type|url-status=live}}</ref>.
При желании, для уточнения значения утверждения могут использоваться квалификаторы (). Они предоставляют дополнительную информацию в контексте данного утверждения. Например, свойство «население» может быть расширено квалификатором «по состоянию на 2011 год». Также утверждения могут снабжаться ссылками, указывающими на подтверждающий утверждение контент.
Также, свойства могут определять более сложные правила относительно их предполагаемого использования. Эти правила называются «ограничения» ({{lang-en|constraints}}). Например, свойство «столица» содержит в себя «ограничение на единственное значение») ({{lang-en|single value constraint}}), отражающее тот факт, что у любой территории (как правило) есть только одна столица. Ограничения трактуются скорее как подсказки, чем как нерушимые правила<ref>{{cite web|url=https://www.wikidata.org/wiki/Help:Property_constraints_portal|title=Help:Property constraints portal|access-date=2019-05-26|archive-date=2019-06-01|archive-url=https://web.archive.org/web/20190601180538/https://www.wikidata.org/wiki/Help:Property_constraints_portal|url-status=live}}</ref>.


При желании, для уточнения значения утверждения могут использоваться квалификаторы ({{lang-en|qualifiers}}). Они предоставляют дополнительную информацию в контексте данного утверждения. Например, свойство «население» может быть расширено квалификатором «по состоянию на 2011 год». Также утверждения могут снабжаться ссылками, указывающими на подтверждающий утверждение контент<ref>{{cite web|url=https://www.wikidata.org/wiki/Help:Sources|title=Help:Sources|access-date=2019-05-26|archive-date=2019-04-17|archive-url=https://web.archive.org/web/20190417231251/https://www.wikidata.org/wiki/Help:Sources|url-status=live}}</ref>.
Сообщество
В августе 2019 года сообщество викиданных насчитывало порядка 20 тысяч зарегистрированных активных учетных записей.. Исследователи как правило делят их на три группы: незарегистрированные пользователи, зарегистрированные люди и боты. При этом граница между людьми и ботами достаточно условна в связи с массовым использованием инструментов типа QuickStatements, автоматизирующих выполнение рутинных правок без программирования.


== Сообщество ==
Статистически, уравновешенный вклад и зарегистрированных участников-людей и ботов повышает качество данных в проекте, а вклад незарегистрированных участников (составляющий 0,5 % от всех правок) — снижает. Порядка 2 % вклада анонимных участников имеют признаки автоматизированных правок, выполненных с использованием средств автоматизации. Это может быть проблемой для проектов, использующих викиданные, поскольку даже если небольшая доля подобных правок является вандализмом, репутация викиданных как относительно надежного источника структурированной информации может быть надолго подорвана.
В августе 2019 года сообщество викиданных насчитывало порядка 20 тысяч зарегистрированных активных учетных записей.{{source-ref|Q87813157}}. Исследователи как правило делят их на три группы: незарегистрированные пользователи, зарегистрированные люди и боты{{source-ref|Q43197687}}. При этом граница между людьми и ботами достаточно условна в связи с массовым использованием инструментов типа QuickStatements, автоматизирующих выполнение рутинных правок без программирования{{source-ref|Q68471881}}.


Статистически, уравновешенный вклад и зарегистрированных участников-людей и ботов повышает качество данных в проекте, а вклад незарегистрированных участников (составляющий 0,5 % от всех правок{{source-ref|Q41094645}}) — снижает.{{source-ref|Q38918394}} Порядка 2 % вклада анонимных участников имеют признаки автоматизированных правок, выполненных с использованием средств автоматизации. Это может быть проблемой для проектов, использующих викиданные, поскольку даже если небольшая доля подобных правок является вандализмом, репутация викиданных как относительно надежного источника структурированной информации может быть надолго подорвана.{{source-ref|Q87813182}}
Как правило, большую часть пользователи времени занимаются одним видом деятельности, относительно редко переключаясь на другие (например те, кто добавляет в элементы интервики-ссылки, редко заполняют метки/описания, и наоборот). С течением «вики-жизни» пользователей, предпочитаемый вид деятельности может меняться, как правило в сторону задач, требующих навыков инженерии знаний (например, не просто добавления тривиальных фактов, а выделение супер/суб-классов элементов). Для выполнения некоторых подобных онтологических задач (например, для создание свойств) требуются специальные Права доступа и процесс их получения может рассматриваться в качестве «вики-карьеры».


Как правило, большую часть пользователи времени занимаются одним видом деятельности, относительно редко переключаясь на другие (например те, кто добавляет в элементы интервики-ссылки, редко заполняют метки/описания, и наоборот){{source-ref|Q43197687}}. С течением «вики-жизни» пользователей, предпочитаемый вид деятельности может меняться, как правило в сторону задач, требующих навыков инженерии знаний (например, не просто добавления тривиальных фактов, а выделение супер/суб-классов элементов){{source-ref|Q58336167}}. Для выполнения некоторых подобных онтологических задач (например, для создание свойств) требуются специальные Права доступа и процесс их получения может рассматриваться в качестве «вики-карьеры»{{source-ref|Q43197687}}.
Боты
Ботами называются программы, которые автоматизируют повторяющиеся или рутинные задачи, которые люди считают трудоемкими и утомительными. Они управляются и контролируются волонтерами («ботовладельцами»).
После нескольких случаев крайне неудачных действий ботов в OpenStreetMap и англоязычной википедии, в последней появился процесс предварительного обсуждения заявок на получение статуса бота и последующего её утверждения. В викиданных существует аналогичный процесс, тем не менее, порядка 3 % правок, совершенных от имени «живых» участников, выполняется с применением автоматизации.


=== Боты ===
Сообщество викиданных положительно относится к ботам, выстроив продуктивный процесс взаимодействия в весьма короткий срок.
Ботами называются программы, которые автоматизируют повторяющиеся или рутинные задачи, которые люди считают трудоемкими и утомительными. Они управляются и контролируются волонтерами («ботовладельцами»){{source-ref|Q87813157}}.
В 2014 году более 80 % правок в викиданных совершались ботами, что позволило ряду исследователей назвать этот проект «социотехнической системой».
После нескольких случаев крайне неудачных действий ботов в [[OpenStreetMap]] и англоязычной википедии, в последней появился процесс предварительного обсуждения заявок на получение статуса бота и последующего её утверждения. В викиданных существует аналогичный процесс, тем не менее, порядка % правок, совершенных от имени «живых» участников, выполняется с применением автоматизации{{source-ref|Q87813182}}.
Одновременно, если в языковых разделах википедии боты преимущественно выполняют примитивные технические задачи, то в викиданных — в основном обновление содержательной информации.
Около 50 % правок приходится на модификацию утверждений и ещё порядка 30 % — на изменение меток, описаний и альтернативных названия.


Сообщество викиданных положительно относится к ботам, выстроив продуктивный процесс взаимодействия в весьма короткий срок.{{source-ref|Q87813157}}
Исследователи идентифицируют три базовые проблемы, связанные со значительным объемом бото-правок в викиданных:
В 2014 году более 80 % правок в викиданных совершались ботами,{{source-ref|Q43197687}}{{source-ref|Q41094645}} что позволило ряду исследователей назвать этот проект «социотехнической системой»{{source-ref|Q66710386}}.
Соотношение объема информации в викиданных (импортированных ботами) и числа участников-людей приводит к тому что Закон Линуса в этом проекте не работает.
Одновременно, если в языковых разделах википедии боты преимущественно выполняют примитивные технические задачи, то в викиданных — в основном обновление содержательной информации.{{source-ref|Q87813157}}
Набор источников, используемых ботами, значительно уже нежели набор источников, используемых людьми. Комбинация этого фактора и ещё более ограниченного числа ботовладельцев может быть серьезной угрозой для представления широкого спектра точек зрения в викиданных.
Около 50 % правок приходится на модификацию утверждений и ещё порядка 30 % — на изменение меток, описаний и альтернативных названия.{{source-ref|Q43197687}}
Огромный процент бото-правок в совокупности с многоязычностью членов сообщества может ограничивать участие существующих и приток новых пользователей в проект. Косвенным подтверждением этого тезиса является то, что на октябрь 2018 года лишь 10787 (из 45 миллионов) элементов викиданных имели страницы обсуждения.


Исследователи{{source-ref|Q56875052}} идентифицируют три базовые проблемы, связанные со значительным объемом бото-правок в викиданных:
Сообщества других вики-проектов
# Соотношение объема информации в викиданных (импортированных ботами) и числа участников-людей приводит к тому что Закон Линуса в этом проекте не работает.
Почти сразу после того, как появилась техническая возможность отображать утверждения, сообщество крупнейшего раздела википедии обсуждало возможность показа служебного идентификатора IMDb. Решили что информация по прежнему будет показываться только из самой статьи, но в случае несовпадения идентификатора с тем, что есть в викиданных, она будет внесена в специальную служебную категорию для последующей выверки. С тех пор пропоненты и оппоненты использования викиданных продолжают дискуссию. В том числе для удовлетворения требований последних по максимальной независимости их проектов от «внешних проектов», выработан принцип, который требует возможность переопределить значение любого элемента инфобокса внутри текста вики-статьи, подавив таким способом его отображение из викиданных.
# Набор источников, используемых ботами, значительно уже нежели набор источников, используемых людьми.{{source-ref|Q37135780}} Комбинация этого фактора и ещё более ограниченного числа ботовладельцев может быть серьезной угрозой для представления широкого спектра точек зрения в викиданных.
# Огромный процент бото-правок в совокупности с многоязычностью членов сообщества может ограничивать участие существующих и приток новых пользователей в проект. Косвенным подтверждением этого тезиса является то, что на октябрь 2018 года лишь 10787 (из 45 миллионов) элементов викиданных имели страницы обсуждения.


=== Сообщества других вики-проектов ===
См. также
Почти сразу после того, как появилась техническая возможность отображать утверждения, сообщество крупнейшего раздела википедии обсуждало возможность показа служебного идентификатора IMDb. Решили что информация по прежнему будет показываться только из самой статьи, но в случае несовпадения идентификатора с тем, что есть в викиданных, она будет внесена в специальную служебную категорию для последующей выверки{{source-ref|Q37108228}}. С тех пор пропоненты и оппоненты использования викиданных продолжают дискуссию{{source-ref|Q116507998}}. В том числе для удовлетворения требований последних по максимальной независимости их проектов от «внешних проектов», выработан принцип, который требует возможность переопределить значение любого элемента инфобокса внутри текста вики-статьи, подавив таким способом его отображение из викиданных{{source-ref|Q50378256}}.
Википедия:Викиданные


== См. также ==
Примечания
* [[Википедия:Викиданные]]


== Примечания ==
Ссылки
{{примечания}}


== Ссылки ==
Введение в викиданные для начинающих
{{Викиновости-кат|Викиданные}}
Список свойств
* [http://skillville.ru/webdev/vvedenie-v-vikidannye-dlya-nachinayuschih.html Введение в викиданные для начинающих]
* [https://www.wikidata.org/wiki/Wikidata:List_of_properties/Summary_table/ru Список свойств]
{{Внешние ссылки}}
{{Фонд Викимедиа}}


[[Категория:Проекты Викимедиа]]
Категория:Проекты Викимедиа
[[Категория:Базы данных в Интернете]]
Категория:Базы данных в Интернете
[[Категория:Сайты, появившиеся в 2012 году]]
Категория:Сайты, появившиеся в 2012 году
[[Категория:Сайты, лицензированные по Creative Commons]]
Категория:Сайты, лицензированные по Creative Commons

Версия от 00:32, 4 марта 2026

Викиданные

«Викида́нные» () — совместно редактируемая База знаний, созданная Фондом Викимедиа.

Викиданные используются для обеспечения централизованного хранения данных, которые могут использоваться в других проектах, в том числе в статьях Википедии — например, интервики-ссылок, значков статусных статей и списков или статистической информации: дат рождения, численности населения и тому подобное. Содержимое Викиданных распространяется по лицензии Creative Commons CC0.

История Создатель всемирной паутины Тим Бернерс-Ли описывал её как совокупность связанных между собой человекочитаемых документов, расположенных на серверах по всему миру. Логическим развитием этой идеи стала Семантическая паутина, предложенная им же в 2001 году. Она предполагала построение столь же масштабной и распределённой сети взаимосвязанных машиночитаемых данных. Одной из важных вех в реализации этой идеи стало анонсирование компанией Google в мае 2012 года концепции Knowledge Graph. На тот момент уже существовали аналогичные (хоть и значительно менее масштабные) инструменты этого типа, такие как DBpedia и (автоматически импортировавшие данные преимущественно из википедии), а также Freebase, и OpenCyc (преимущественно наполняемые людьми).

В октябре 2012 года была официально запущена разработка «Викиданных» под руководством Wikimedia Deutschland, следовательно став первым новым проектом Фонда Викимедиа с 2006 года.

Стартовое финансирование было получено от, и Google в размере 1,3 миллиона Евро.

Первоочередной задачей было создание централизованного хранилища «интервики»-ссылок, то есть ссылок на страницы проектов Фонда, описывающих одни и те же темы. Одна запись (элемент) Викиданных может быть связана с множеством страниц в любом вики-проекте, включая (но не ограничиваясь) всеми языковыми разделами Википедии. Это позволяет «потребителям» Викиданных (например, русской Википедии), для каждой статьи отображать список аналогичных статей на других языках.

Вместе с интервики-ссылками, у элементов Викиданных сразу появились и другие атрибуты (например, названия на поддерживаемых MediaWiki языках). Традиционно в вики-проектах базовая информация по теме статьи размещалась в, поэтому целью следующего этапа было дать пользователям возможность сохранять в элементах структурированную информацию (например, «Луна → родительское тело → Земля» или «Эверест → высота над уровнем моря → 8848,86 метр») и отображать её в форме привычных читателю инфобоксов в связанных статьях.

В сентябре 2015 года появилась возможность делать запросы к викиданным на языке SPARQL. Wikidata Query Service был реализован на основе open-source версии Blazegraph.

В 2016 году разработчики анонсировали поддержку орфографических структур данных, в 2018 появилась возможность создания лексем и словоформ, а затем и указания их значений с помощью привязки соответствующего по смыслу элемента викиданных.

Для упрощения моделирования и последующей валидации данных в мае 2019 года была введена поддержка для сохранения и совместного редактирования -схем.

Также в 2019 году разработчики выпустили (движок Викиданных) в виде самостоятельного продукта. В 2021 году были анонсированы планы по запуску Wikibase.Cloud — SaaS в формате которого пользователю предоставляются предварительно настроенные компоненты: собственно Wikibase, сервис SPARQL запросов, и т. п.

Проект В основу проекта были положены следующие принципы: Свободное редактирование Множественность точек зрения (в том числе, конфликтующих) Многоязычность Эти принципы отличали викиданные от аналогичных проектов. Например, разработка МКБ-11 велась силами ограниченного набора специалистов, Freebase не поддерживал многоязычность своих сущностей, а Semantic MediaWiki затрудняло простановку ссылок на внешние источники.

Сервис запросов Технически контент викиданных хранится в виде JSON-blobов в MySQL, поэтому готового инструмента для выполнения хоть сколь-нибудь сложных запросов в системе не было. Рассмотрев различные варианты включающие разработку специализированного софта, применения готовых NoSQL-продуктов и графовых баз данных, было решено остановиться на последнем и внедрить Blazegraph. Данные из внутреннего json-представления элементов преобразуются в RDF и синхронизируются с внутренним хранилищем Blazegraph, доступным только для чтения. В качестве языка запросов применяется SPARQL версии 1.1, с помощью синтаксической конструкции SERVICE можно обратиться как к специфичным для викиданных расширениям, так и запросить дополнительную информацию у некоторых сторонних источников. Таймаут на выполнение запросов составляет 60 секунд, если выполнение запрос не успевает завершиться, он прерывается с ошибкой.

Ключевым элементом сервиса является API, в который можно передать запрос и получить в требуемом формате таблицу с результатом. Для интерактивной работы существует веб-редактор запросов c подсветкой синтаксиса и Автодополнением. Результаты выполнения запросов могут визуализироваться как в табличной форме, так и в виде карты, столбцовой диаграммы, галереи изображений и т. д.

Контент-модель мини|слева|400px|Терминология утверждений в Викиданных Утверждения — это способ хранения любой информации об широко известный элементе. Формально, они состоят из пар Ключ-значение, которые хранят соответствие свойства (например, «автор», или «дата публикации») с одним или несколькими значениями (например, «Артур Конан-Дойл» или «1902»). Например, неформальное утверждение «молоко — белое» () было бы закодировано с помощью утверждения, которое хранит пару. Это пара, состоящая из свойства P462 (цвет) со значением Q23444 (белый) в элементе Q8495 (молоко). Например, свойство «occupation» (род занятий) для Утверждения могут устанавливать отношение между свойством и более чем одним значением. Марии Кюри могло бы быть ассоциировалось со значениями «физик» и «химик», чтобы отразить факт того, что она занималась и тем, и другимСвойства предписывают, с какими типами значений их можно связывать..

Значения могут быть разных типов, включая другие записи Викиданных, строки, числа или файлы с фото/видео. Например, свойство «официальный сайт» может быть поставлено в соответствие только со значениями типа «URL». Также, свойства могут определять более сложные правила относительно их предполагаемого использования. Эти правила называются «ограничения» (). Например, свойство «столица» содержит в себя «ограничение на единственное значение») (), отражающее тот факт, что у любой территории (как правило) есть только одна столица. Ограничения трактуются скорее как подсказки, чем как нерушимые правила.

При желании, для уточнения значения утверждения могут использоваться квалификаторы (). Они предоставляют дополнительную информацию в контексте данного утверждения. Например, свойство «население» может быть расширено квалификатором «по состоянию на 2011 год». Также утверждения могут снабжаться ссылками, указывающими на подтверждающий утверждение контент.

Сообщество В августе 2019 года сообщество викиданных насчитывало порядка 20 тысяч зарегистрированных активных учетных записей.. Исследователи как правило делят их на три группы: незарегистрированные пользователи, зарегистрированные люди и боты. При этом граница между людьми и ботами достаточно условна в связи с массовым использованием инструментов типа QuickStatements, автоматизирующих выполнение рутинных правок без программирования.

Статистически, уравновешенный вклад и зарегистрированных участников-людей и ботов повышает качество данных в проекте, а вклад незарегистрированных участников (составляющий 0,5 % от всех правок) — снижает. Порядка 2 % вклада анонимных участников имеют признаки автоматизированных правок, выполненных с использованием средств автоматизации. Это может быть проблемой для проектов, использующих викиданные, поскольку даже если небольшая доля подобных правок является вандализмом, репутация викиданных как относительно надежного источника структурированной информации может быть надолго подорвана.

Как правило, большую часть пользователи времени занимаются одним видом деятельности, относительно редко переключаясь на другие (например те, кто добавляет в элементы интервики-ссылки, редко заполняют метки/описания, и наоборот). С течением «вики-жизни» пользователей, предпочитаемый вид деятельности может меняться, как правило в сторону задач, требующих навыков инженерии знаний (например, не просто добавления тривиальных фактов, а выделение супер/суб-классов элементов). Для выполнения некоторых подобных онтологических задач (например, для создание свойств) требуются специальные Права доступа и процесс их получения может рассматриваться в качестве «вики-карьеры».

Боты Ботами называются программы, которые автоматизируют повторяющиеся или рутинные задачи, которые люди считают трудоемкими и утомительными. Они управляются и контролируются волонтерами («ботовладельцами»). После нескольких случаев крайне неудачных действий ботов в OpenStreetMap и англоязычной википедии, в последней появился процесс предварительного обсуждения заявок на получение статуса бота и последующего её утверждения. В викиданных существует аналогичный процесс, тем не менее, порядка 3 % правок, совершенных от имени «живых» участников, выполняется с применением автоматизации.

Сообщество викиданных положительно относится к ботам, выстроив продуктивный процесс взаимодействия в весьма короткий срок. В 2014 году более 80 % правок в викиданных совершались ботами, что позволило ряду исследователей назвать этот проект «социотехнической системой». Одновременно, если в языковых разделах википедии боты преимущественно выполняют примитивные технические задачи, то в викиданных — в основном обновление содержательной информации. Около 50 % правок приходится на модификацию утверждений и ещё порядка 30 % — на изменение меток, описаний и альтернативных названия.

Исследователи идентифицируют три базовые проблемы, связанные со значительным объемом бото-правок в викиданных: Соотношение объема информации в викиданных (импортированных ботами) и числа участников-людей приводит к тому что Закон Линуса в этом проекте не работает. Набор источников, используемых ботами, значительно уже нежели набор источников, используемых людьми. Комбинация этого фактора и ещё более ограниченного числа ботовладельцев может быть серьезной угрозой для представления широкого спектра точек зрения в викиданных. Огромный процент бото-правок в совокупности с многоязычностью членов сообщества может ограничивать участие существующих и приток новых пользователей в проект. Косвенным подтверждением этого тезиса является то, что на октябрь 2018 года лишь 10787 (из 45 миллионов) элементов викиданных имели страницы обсуждения.

Сообщества других вики-проектов Почти сразу после того, как появилась техническая возможность отображать утверждения, сообщество крупнейшего раздела википедии обсуждало возможность показа служебного идентификатора IMDb. Решили что информация по прежнему будет показываться только из самой статьи, но в случае несовпадения идентификатора с тем, что есть в викиданных, она будет внесена в специальную служебную категорию для последующей выверки. С тех пор пропоненты и оппоненты использования викиданных продолжают дискуссию. В том числе для удовлетворения требований последних по максимальной независимости их проектов от «внешних проектов», выработан принцип, который требует возможность переопределить значение любого элемента инфобокса внутри текста вики-статьи, подавив таким способом его отображение из викиданных.

См. также Википедия:Викиданные

Примечания

Ссылки

Введение в викиданные для начинающих Список свойств

Категория:Проекты Викимедиа Категория:Базы данных в Интернете Категория:Сайты, появившиеся в 2012 году Категория:Сайты, лицензированные по Creative Commons