Open Content Alliance

Open Content Alliance
Тип	онлайн-библиотека
Владелец	Архив Интернета, Yahoo!
Языки	многоязычный
Коммерческий	да
Сайт	archive.org/details/open…

Open Content Alliance (OCA) — консорциум коммерческих и некоммерческих организаций, занимающийся оцифровкой печатных изданий для свободного распространения в интернете. Сформирован в октябре 2005 года в качестве альтернативы проекту Google Books. Главными партнёрами-сооснователями стали Архива Интернета, Yahoo, библиотеки Университета Торонто и Калифорнийского университета, а также. Спустя несколько недель к проекту присоединился Microsoft,, Biodiversity Heritage Library,. К 2008 году в OCA входило около 80 организаций. К 2010 году работа OCA окончательно остановилась из-за выхода из консорциума Microsoft и Yahoo. На 2023 год OCA больше не занимается оцифровкой материалов. В формате проекта библиотеки предоставляли OCA свои коллекции для оцифровки, в то время как корпоративные спонсоры и Архив Интернета занимались техническими и финансовыми вопросами. В отличие от Google Books, OCA сканировал только те работы, на которые было получено разрешение владельцев авторских прав, или которые уже находились в общественном достоянии. В пределах OCA было оцифровано более 3 млн печатных изданий из коллекций партнёрских библиотек, из которых около 300 тысяч были опубликованы на сайте Open Library.

История

Open Content Alliance (OCA) был сформирован в 2005 году в качестве альтернативы Google Print (сейчас — Google Books) — крупнейшему проекту по массовой оцифровке печатных изданий. Инициатором создания консорциума был основатель Архива Интернета Брюстер Кейл. Интернет-активист открыто высказывал опасения, что проект от Google противоречит принципам открытой науки. Более того, решение компании публиковать все материалы исключительно на портале Google Books может привести к монополизации научного знания. Поэтому Кейл решил создать альтернативный консорциум коммерческих и некоммерческих организаций, выступающих за открытое распространение оцифрованных работ. В отличие от Google, OCA занимался оцифровкой только тех материалов, на которые было получено разрешение владельцев авторских прав. При этом все книги были бы доступны для просмотра и скачивания для всех пользователей через портал Архива Интернета.

Со-основателями OCA также были Yahoo!, библиотеки Университета Торонто и Калифорнийского университета, а также. Спустя несколько недель к проекту присоединились Microsoft,, Biodiversity Heritage Library,, Колумбийский университет, Университет Эмори, Университет Джонса Хопкинса, Макмастерский университет, Университет Райса, Йоркский университет, Университет Британской Колумбии, Оттавский университет, Питтсбургский университет. В 2007 году в консорциум вступили библиотеки Иллинойского университета. К 2008 году более 80 организаций, включая крупнейшие библиотеки, научно-исследовательские учреждения и коммерческие организации, стали частью OCA.

За три года работы OCA отсканировал более 3 млн книг из коллекций партнёрских организаций. Однако в 2008 году один из крупнейших спонсоров проекта Microsoft принял решение покинуть консорциум. Компания заявила, что намеревается изменить стратегию интеграции печатных материалов в свои алгоритмы поиска и запустит поисковых роботов, чтобы «захватывать» уже собранную информацию из других репозиториев. Одновременно Microsoft сняла все контрактные ограничения на уже оцифрованный контент и передала оборудование партнёрским организациям консорциума. Спустя несколько лет проект покинула Yahoo!, заявив о нежизнеспособности подобной бизнес-модели. Точная дата прекращения работы OCA неизвестна, однако на 2023 год партнёрские организации больше не занимаются оцифровкой.

Принцип работы

OCA оцифровывал только работы, которые относились к общественному достоянию или для которых было получено разрешение на копирование от правообладателей. В 2005 году Кейл объявил о планах OCA оцифровать 80 % книг, изданных между 1923 и 1964 годами, а также расширить эту коллекцию, включив произведения с недоступным правообладателем. В течение нескольких лет консорциум планировал выложить в открытый доступ сотни тысяч книг. Все оцифрованные работы планировалось хранить на серверах Архива Интернета.

Участники консорциума были ответственны за различные аспекты проекта. Так, Hewlett Packard Enterprise и Adobe предоставили оборудование для оцифровки, Архив Интернета отвечал за организационный процесс. Yahoo! индексировала содержание и финансировала оцифровку первоначального корпуса американской литературы из коллекции Калифорнийского университета. Общий вклад Yahoo! оценивался в сумму от $ до $ за первый год. Хотя проект не приносил компании прямой выгоды, индексация полученного контента существенно улучшила поисковую систему Yahoo!. Библиотеки Калифорнийского университета вложили $ за оцифровку 5000 томов художественной литературы. Национальные архивы Великобритании предоставляли коллекцию фильмов и других медиаматериалов. Research Libraries Group планировала предоставить Библиографическое описание для всех оцифрованных работ. Microsoft сделала наибольший вклад в развитие проекта, вложив около $5 млн для оцифровки более книг. Однако компания имела свои коммерческие интересы в проекте — оцифрованные работы планировалось выкладывать на специализированный книжный портал MSN. Microsoft планировала открыть бесплатный доступ к работам, не защищённым авторским правом, и взимать плату за доступ к защищенным материалам..

Оплачивали оцифровку коллекций сами библиотеки, однако на практике многие из них завоевали гранты от таких организаций, как Фонд Альфреда Слоуна. Также в начале проекта большую часть затрат по оцифровке оплатила Microsoft, компанию особенно интересовала американская литература и она самостоятельно выбирала тематический охват для оцифровки из доступных коллекций партнёрских библиотек. Библиотеки, которые самостоятельно платили за собственное сканирование с помощью OCA, выбирали материалы для оцифровки по своему усмотрению. Например, библиотеки Бостонского университета выделили $ долларов на оцифровку своей коллекции.

Оцифровка

Оцифрованные материалы доступны через портал Open Library Архива Интернета. Поисковые системы, включая Google, могут свободно направлять пользователей к материалам. Процесс оцифровки работал аналогично системе Google Books: каждая библиотека согласовывала список произведений с OCA, после чего консорциум предоставлял оборудование и персонал для сканирования. Персоналу, не относящемуся к OCA, не разрешалось пользоваться оборудованием, но, в отличие от Google, консорциум пускал людей на объекты сканирования После этого сотрудники библиотеки доставляли материалы в местное отделение OCA, где происходил процесс оцифровки..

Оцифровка каждой книги обходилась консорциуму примерно в $30. OCA разработал специальную систему оптического распознавания символов под названием Scribe. Устройство имело схожую конструкцию с линейкой Kirtas Technology APT BookScan и использовала цифровые камеры Canon EOS-1Ds Mark II. Как и в проекте Google Books, для переворачивания страниц были наняты операторы. Они также нажимали на специальную педаль, автоматически опускающую V-образную стеклянную пластину на книгу для сглаживания страниц. В среднем оператор Scribe оцифровывал 350 страниц в час или одну страницу в 10 секунд Качество каждой отсканированной работы проверялось отдельно и при необходимости оцифровка проводилась повторно.. Полученные изображения в формате JPEG загружали на локальный компьютер и передавали на основные сервера OCA для дальнейшей обработки.

Доступ к материалам OCA осуществлялся через портал OCA и сайт Архива Интернета. Однако политика использования материалов и доступ к тем или иным работам зависят от параметров и устанавливаются содействующими учреждениями. Например, коллекция американской литературы Калифорнийского университета не имеет ограничений и может быть загружена и повторно использована для любых целей.

Критика

Проект консорциума по масштабной оцифровке печатных изданий уступает по известности лишь Google Books. Благодаря заявленным принципам прозрачности и публичной приверженности идеалам открытой науки многие активисты и библиотекари рассматривали работу OCA как «окончательную ступень в демократизации мирового знания». Основатели проекта рассчитывали собрать крупную сеть университетских библиотек, многие из которых не заключали контракт с Google Books из-за опасений работы с коммерческим гигантом. Однако многие библиотечные системы и некоммерческие организации начали критиковать консорциум, говоря о том, что по своей сути организация не отличается от Google Books, а вовлечённый в процесс Microsoft имеет такие же коммерческие интересы, как и Google. Отдельные исследования показали, что несмотря на заявленную прозрачность, OCA являлся достаточно закрытой организацией в плане подхода к оцифровке данных. Так, консорциум опубликовал даже меньше технической информации о своей работе, чем Google Print. Техническая документация Scribe была недоступна для широкого круга, хотя сама программа была издана с открытым исходным кодом. В итоге проект не достиг масштабов и популярности Google Books. Рассматривается как, что одной из главных причин неудачи проекта — общее нежелание библиотек доверять коллекции частным корпорациям.

Примечания

Katie Hafner: In Challenge to Google, Yahoo Will Scan Books — https://www.nytimes.com/2005/10/03/business/in-challenge-to-google-yahoo-will-scan-books.html
https://www.nytimes.com/2005/10/03/business/in-challenge-to-google-yahoo-will-scan-books.html
https://web.archive.org/web/20210901125800/https://www.nytimes.com/2005/10/03/business/in-challenge-to-google-yahoo-will-scan-books.html
U. of I. joins group creating digital book archive accessible to public — https://news.illinois.edu/view/6367/206726
https://news.illinois.edu/view/6367/206726
https://web.archive.org/web/20220125140620/https://news.illinois.edu/view/6367/206726
Microsoft to shut down book scanning operations — https://www.ctvnews.ca/microsoft-to-shut-down-book-scanning-operations-1.297773?cache=walqrkeg%3FautoPlay%3Dtrue
https://www.ctvnews.ca/microsoft-to-shut-down-book-scanning-operations-1.297773?cache=walqrkeg%3FautoPlay%3Dtrue
Mass Digitization of Books: Exit Microsoft, What Next? — https://dancohen.org/2008/05/29/mass-digitization-of-books-exit-microsoft-what-next/
https://dancohen.org/2008/05/29/mass-digitization-of-books-exit-microsoft-what-next/
https://web.archive.org/web/20220630142936/http://dancohen.org/2008/05/29/mass-digitization-of-books-exit-microsoft-what-next/
Klara Maidenberg: The Race to Create a Digital Library: Google Books vs. the Open Content Alliance — https://tspace.library.utoronto.ca/bitstream/1807/43826/1/The%20Race%20to%20Create%20a%20Digital%20Library.pdf
https://tspace.library.utoronto.ca/bitstream/1807/43826/1/The%20Race%20to%20Create%20a%20Digital%20Library.pdf
Katie Hafner: Microsoft to Offer Online Book-Content Searches — https://www.nytimes.com/2005/10/26/technology/microsoft-to-offer-online-bookcontent-searches.html
https://www.nytimes.com/2005/10/26/technology/microsoft-to-offer-online-bookcontent-searches.html
https://web.archive.org/web/20210901125800/https://www.nytimes.com/2005/10/26/technology/microsoft-to-offer-online-bookcontent-searches.html
Gary Price: Microsoft Announces MSN Book Search; Joins Open Content Alliance — https://www.searchenginewatch.com/2005/10/25/microsoft-announces-msn-book-search-joins-open-content-alliance/
https://www.searchenginewatch.com/2005/10/25/microsoft-announces-msn-book-search-joins-open-content-alliance/
Open Content Alliance — https://archive.org/details/opencontentalliance?tab=about
https://archive.org/details/opencontentalliance?tab=about
Katie Hafner: Libraries Shun Deals to Place Books on Web — https://www.nytimes.com/2007/10/22/technology/22library.html
https://www.nytimes.com/2007/10/22/technology/22library.html
https://web.archive.org/web/20230408101902/https://www.nytimes.com/2007/10/22/technology/22library.html
The Open Content Alliance — https://dash.harvard.edu/bitstream/handle/1/4552008/suber_oca.htm?sequence=1&isAllowed=y
https://dash.harvard.edu/bitstream/handle/1/4552008/suber_oca.htm?sequence=1&isAllowed=y
Global Consortium Forms Open Content Alliance to Bring Additional Content Online and Make it Searchable — https://www.altaba.com/news-releases/news-release-details/global-consortium-forms-open-content-alliance-bring-additional
https://www.altaba.com/news-releases/news-release-details/global-consortium-forms-open-content-alliance-bring-additional

Литература

Kirstin Dougan: Music to our Eyes: Google Books, Google Scholar, and the Open Content Alliance
Shinjoung Yeo: Access now, but for whom and at what cost?
Deanna Marcum, Roger!C. Schonfeld: Along Came Google. A History of Library Digitization