Цифровой репозитарий в информационных научно-образовательных системах


Федотова Ольга Анатольевна

научный сотрудник
Институт вычислительных технологий СО РАН

Федотов Анатолий Михайлович

главный научный сотрудник
Институт вычислительных технологий СО РАН

Жижимов Олег Львович

в.н.с.
Институт вычислительных технологий СО РАН

Самбетбаева Мадина Аралбаевна

аспирант
Новосибирский государственный университет

Работа посвящена обзору наиболее популярных систем поддержки цифровых репозиториев и их информационной модели. Обосновывается выбор системы DSpace для хранилища данных научно-образовательной информационной системы. Институциональные репозитории (IR – Institutional Repositories) связаны с вопросами цифровой интероперабельности и инициативой открытых архивов (OAI), а также с понятием электронной библиотеки, т.е. c функциями сбора, хранения, классификации, каталогизации ресурсов (данных) и обеспечения доступа к цифровому контенту. Процесс интеграции цифрового репозитория (хранилища данных) в информационную систему основан на модели агрегирования и распространения метаданных. Применение этой модели закреплено в протоколе OAI-PMH, который поддерживается большинством систем, предназначенных для хранения информационных ресурсов. Действительно, в узком смысле цифровой репозиторий - это просто хранилище цифровых объектов, главная цель которого - хранить эти объекты со всеми возможными их вариантами и версиями. В более широком смысле цифровой репозиторий понимается как некоторая информационная система, функционирующая совместно с упомянутым хранилищем цифровых объектов и предоставляющая сервис как по управлению этими объектами, так и по организации доступа к ним. В последнем случае роль цифрового репозитория может выполнять практически любая система управления контентом (CMS – Content Management System), наделенная функциями работы с цифровыми объектами. Функциональность цифровых репозиториев зависит большей частью от функциональности используемого программного обеспечения (CMS). В этом классе программного обеспечения существует достаточно большое разнообразие, причем не только среди проприетарного программного обеспечения, но и среди свободно распространяемого. Нас интересует только свободно распространяемое программное обеспечение, предназначенное для организации цифровых репозиториев. В качестве репозитория для информационной системы была выбрана система DSpace. Этот выбор обусловлен тем, что DSpace является самой популярной в мире и эксплуатируется в Сибирском отделении РАН более 10 лет. Система DSpace снабжает цифровые объекты метаданными в соответствии с различными схемами данных и правилами каталогизации. Для базовой организации метаданных зафиксирована определенная модель, основанная на схеме Dublin Core. Дополнительно могут быть активизированы и другие схемы представления метаданных, например, схема для Google Scholar, схемы для семейства MARC (MARCXML) и др. Для более полного соответствия локальным требованиям в базовую систему DSpace внесены многочисленные расширения (расширение схем данных, расширение номенклатуры обменных форматов, возможность работы с географической информацией, авторитетный контроль и т.п.). Возможность доступа к репозиторию (поиск и извлечение данных) в обход графических WEB интерфейсов, являющихся неотъемлемой частью любой CMS, существенно расширяет его функциональные качества, поскольку позволяет использовать содержимое репозитория другими приложениями и интегрировать его в информационное пространство. В используемой модернизированной системе доступ к данным репозитория возможен не только через WEB-интерфейсы DSpace, но и по протоколам OAI-PMH, SOLR, SRW/SRU, Z39.50. При этом поддержка SRW/SRU и Z39.50 обеспечивается связью DSpace с системой ZooSPACE. Поддержка перечисленных протоколов позволяет разрабатывать собственные информационные системы, взаимодействующие с хранилищем данных, построенном на основе DSpace.