WebCite

Материал из Wikibrand
WebCite

WebCite — сервис веб-архивирования, запущенный в 2003 году по инициативе из Торонтского университета. WebCite обеспечивает долгосрочную доступность URL-адресов. Сервис не использовал поисковых роботов для архивирования ресурсов целиком и обрабатывал запросы пользователей на сохранение отдельных страниц. WebCite «захватывал» HTML, PDF, CSS, JavaScriptС июля 2019 года WebCite из-за многолетних финансовых проблем был фактически свёрнут: сервис больше не принимает запросы на архивацию, однако продолжает обслуживать уже созданные архивы., изображения и другие составляющие веб-страницы. До этого сервис был одним из самых популярных инструментов в своей нише, активно использовался в Википедии для архивации источников.

История

Идея создания WebCite принадлежит, сотруднику Centre for Global eHealth Innovation () при Торонтском университете. Изначально Эйзенбах задумывал WebCite как платформу, которая будет не только сохранять интернет-ресурсы, но и определять их «индекс цитирования» (аналог Импакт-фактора), измеряя количество гиперссылок, ведущих на тот или иной веб-сайт. В 1998 году Эйзенбах обосновал необходимость такого сервиса в своей статье о контроле качества интернета, опубликованной в PubMed Central. В этом же году был запущен одноимённый пилотный проект, который, однако, не был продлён — с расширением сферы деятельности «Архива Интернета» и Google Cache отпала острая потребность в таком сервисе.

Эйзенбах перезапустил WebCite в 2003 году. К этому его подтолкнула вышедшая в Science статья о вымирании ссылок в научных работах, обозначившая недостаток стандартизации в сфере электронного архивирования. К тому же все существующие на тот момент сервисы веб-архивирования сохраняли ресурсы с помощью поисковых роботов (или веб-краулеров), архивация веб-страниц по запросу была невозможна. Партнёрами проекта стали факультет информационных исследований и WebCite заполнил эту нишу и стал первой платформой такого рода, архивирующей страницы по запросам пользователей., а также «Архив Интернета». Помимо этого, был основан одноимённый некоммерческий Консорциум, членами которого могли стать редакции научных журналов и издательства. К 2008 году в него вошли около 200 участников.

Первое время после создания WebCite финансировался средствами Centre for Global eHealth Innovation. Частично работу сервиса оплачивали члены консорциума, которым требовалось архивировать использованные в авторских публикациях ссылки. С 2011 года WebCite испытывал проблемы с финансированием, поэтому Эйзенбах рассматривал возможность коммерциализации сервиса. В 2012 году WebCite был вынужден покинуть, так как, согласно твиту Эйзенбаха, не имел возможности оплачивать ежегодный членский взнос в €4000.

В 2013 году Эйзенбах начал кампанию по сбору пожертвований на модернизацию WebCite. Заявленная сумма составляла $25–50 тысяч, подразумевалось, что в том числе она покроет перенос базы данных на Amazon EC2 (на 2012 год размер архива составлял 2 Терабайта) и правовую поддержку. Сбор проходил на платформе.

Сервис активно применялся в работе Википедии. Ещё июне 2009 года из-за увеличенной нагрузки на серверы, вызванной работой бота WebCiteBOT в англоязычном разделе, WebCite был временно недоступен. Полное восстановление заняло несколько недель. На фоне постоянных финансовых трудностей WebCite редакторы Википедии в феврале 2013 года предлагали Фонду Викимедиа взять под контроль проект, так как с его помощью на тот момент было архивировано более ссылок из вики-статей, однако всё ограничилось обсуждением идеи внутри сообщества. Также сайт был временно недоступен в 2013 и 2014 годах.

Финансовые трудности привели к фактическому закрытию проекта. С июля 2019 года WebCite не принимает новые запросы на архивацию, но продолжает поддерживать доступ к уже созданным веб-архивам.

Принцип работы

WebCite обеспечивает долгосрочную доступность URL-адресов, архивированных по прямому запросу пользователей. В основе сервиса лежит исключительно Открытое программное обеспечение. Слово WebCite является зарегистрированной торговой маркой.

WebCite чаще применялся для сохранения статических сайтов. Как и многие другие сервисы веб-архивирования, он не мог в полной мере сохранять сложные веб-страницы с динамическим контентом.

WebCite предоставлял пользователям три основных инструмента для архивации. Первый — специальная форма на сайте с полями для указания URL и электронной почты, на которую приходили ссылки на копию запрашиваемой веб-страницы. Второй инструмент — Букмарклет или небольшая JavaScript-программа, устанавливаемая в браузер и позволяющая сохранять выбранные веб-страницы прямо в момент их просмотра в интернете. Третий способ под названием Comb заключался в «оптовом» архивировании — сервис формировал список всех гиперссылок на указанной странице, и пользователь мог указать те ресурсы, которые необходимо сохранить. Инструмент Comb больше всего подходил для обработки разбитых на несколько страниц крупных статей.

После ввода URL WebCite делал «снимок» страницы, сохраняя копию HTML и загружая изображения (или любые другие файлы, например, в формате PDF) на серверПервая, более длинная, содержала в себе URL оригинальной страницы и дату архивации, и могла быть использована вместо исходного адреса.. После этого пользователи получали на указанную электронную почту письмо с двумя новыми ссылками. Вторая, более короткая, не содержала этой информации и чаще всего указывалась в дополнение к исходному URL. Следовательно, WebCite работал и как сокращатель ссылок. Также каждой сохранённой веб-странице присваивали уникальный числовой идентификатор.

Длинная и короткая версия ссылки https://webcitation.org/query?url=http://en.wikipedia.org/wiki/Main_Page&date=2008-03-04 http://webcitation.org/5W56XTY5h

Посетители сайта могут искать документы в коллекции WebCite, используя URL, дату создания копии страницы или присвоенный ей идентификатор.

Использование

Авторы, редакторы и издатели, заинтересованные в создании рабочих ссылок на сетевые источники, которые можно использовать для цитирования в академических публикациях, широко применяли WebCite. Услуги по архивированию предоставлялись бесплатно, однако издатели могли войти в одноимённый консорциум и за членский взнос получить доступ к услуге ретроспективного архивирования — в таком случае WebCite настраивал поисковых роботов для «прочёсывания» статей организации на предмет несохранённых URL-адресов. Также входящие в консорциум издания прописывали использование сервиса в своих положениях и предписывали авторам архивировать все используемые ссылки через WebCite перед подачей рукописей.

Работа WebCite была основана на доктрине добросовестного использования. Сервис рассматривает архивные копии страниц как Трансформативные произведения — общественно-полезные для научных исследований и не наносящие вреда рыночной стоимости любой охраняемой авторским правом работы. Поэтому WebCite не запрашивал разрешение для архивации того или иного ресурса, однако удалял страницы из публичного доступа по требованиям правообладателей. Такие работы помещались в «тёмный архив» (), доступ к которому можно было получить на платной основе — $200 за 5 страниц плюс $100 за каждые последующие 10 страниц. Сервис соблюдал Стандарт исключений для роботов, теги no-cache и no-archive.

В России домен webcitation.org внесён в Единый реестр запрещённых сайтов. Сервис был добавлен в реестр по решению МВД 20 ноября 2020 года, в качестве причины указана «пропаганда или сбыт наркотиков».

Примечания

Литература

  • Eysenbach G., Trudel M.: Going, Going, Still There: Using the WebCite Service to Permanently Archive Cited Web Pages
  • Eysenbach G.: Preserving The Scholarly Record With WebCite (www.webcitation.org): An Archiving System For Long-Term Digital Preservation Of Cited Webpages
  • Eysenbach G., Diepgen T.: Towards quality management of medical information on the internet: evaluation, labelling, and filtering of information

Ссылки