УДК 004.652

Базы данных и управление научными данными

Котиков Павел Евгеньевич — доцент кафедры Прикладной информатики Российского государственного гидрометеорологического университета.

Аннотация: В данной статье рассматриваются особенности и перспективы применения баз данных для управления научными данными.

Ключевые слова: Базы данных, научные данные.

Известно, что традиционные системы баз данных отстают в поддержке основных научных типов данных. Вместе с тем, они обладают рядом свойств, очень востребованных для выполнения анализа научных данных. В первую очередь это: анализ на основе непроцедурных запросов, автоматический параллелизм и развитые средства ассоциативного, темпорального и пространственного поиска. Только некоторые исследователи используют базы данных для работ. Большинство, как правило, базами данных не пользуется. Почему? Почему табличные базы данных настолько успешно используются в коммерческих приложениях и терпят такой провал в большинстве научных приложений? В работе [4] приведены характерные ответы исследователей на прямой вопрос о причинах отказа от применения для анализа технологий баз данных. Приведем их почти дословно: Мы не видим в них никаких преимуществ, издержки на изучение инструментальных средств (определение данных, загрузка данных, запросы) того не стоят. В них не предлагаются хорошие средства визуализации/построения диаграмм. Я могу справиться со своими объемами данных с использованием языка программирования. В них не поддерживаются наши типы данных (массивы, пространственные, текстовые типы и т.д.). В них не поддерживаются наши паттерны доступа (пространственные, темпоральные и т.д.). Мы пробовали с ними работать, но они слишком медленные. Мы пробовали с ними работать, но как только мы загрузили свои данные, мы больше не смогли манипулировать данными с использованием наших стандартных прикладных программ. Для их использования требуется администраторы баз данных.

По ответам становится достаточно очевидно, что базы данных должны быть существенно усовершенствованы, прежде чем они заслужат внимания исследователей, как повседневный инструмент. Требуется некоторый новый способ управления информацией и доступа к ней. Видимо, ключом к этому являются метаданные и непроцедурный язык манипулирования данными в комбинации с индексированием данных. Они играет основную роль в обеспечении поиска и анализа данных. В настоящее время уже состоялась конвергенция файловых систем, систем баз данных и языков программирования [4]. В расширяемых системах баз данных используются объектно-ориентированные приемы из языков программирования, позволяющие определять сложные объекты как естественные типы базы данных. Файлы становятся тогда частью базы данных и получают преимущества от параллельного поиска и управления метаданными. По всей видимости, в указанных обстоятельствах и читаются главные предпосылки к грядущему активному применению исследователями технологий баз данных для управления научными данными. Что сейчас происходит? Научные центры, управляющие научными данными и обслуживающие их, возникают и формируются, не редко, вокруг научных инструментов следующего поколения. При этом, одна группа ученых собирает данные и управляет этими архивами. Более крупная группа ученых исследует эти архивы таким же образом, как предыдущие поколения исследовали свои частные данные. Результаты анализа часто возвращаются в архив и добавляются в общий фонд данных. Возникает коллекция данных. Указанные тенденции характерно проявляются при работе с метеоданными, с данными ГИС систем [1,3]. Очевидно, что это связано и с повышенным вниманием к безопасности [2]. Как показано [4], для научного анализа ключевое значение будут иметь три технических достижения: обширные метаданные и стандарты метаданных, которые облегчат обнаружение существования данных, понимание данных людьми и программами и отслеживание происхождения данных; средства анализа, которые позволят позволят легко задавать вопросы и понимать и визуализировать ответы; ориентированный на множества параллельный доступ к данным, который поддерживается новыми индексными схемами и новыми алгоритмами, позволяющими в интерактивном режиме исследовать петабайтные наборы данных. Аналитики считают, что конечной целью может стать некая «интеллектуальная рабочая тетрадь» исследователя, которая поможет использовать определенные «мировые данные» (коллекции данных).

Список литературы

1. Котиков, П.Е. Проблемы взаимосвязи структурированных и неструктурированных данных при управлении пространствами данных / П.Е. Котиков // В сборнике: Современные тенденции в образовании и науке сборник научных трудов по материалам Международной научно-практической конференции: в 14 частях. Тамбов, 2014. С. 64-66.

2. Нечай А.А., Котиков П.Е. Cпецифика проявления уязвимостей в автоматизированных системах управления критически важными объектами / А.А. Нечай, П.Е. Котиков // В сборнике: Современные тенденции в образовании и науке сборник научных трудов по материалам Международной научно-практической конференции: в 14 частях. Тамбов, 2014. С. 96-97.

3. Котиков, П.Е. Варианты построения темпоральных баз данных в геоинформационных системах / П.Е. Котиков // Научный аспект. 2014. № 4. С. 118-120.

4. Jim Gray, David T. Liu, Maria Nieto-Santisteban, Alex Szalay, David J. DeWitt, Gerd Heber. Scientific Data Management in the Coming Decade, SIGMOD Record, Vol. 34, No. 4, Dec. 2005