УДК 004

Электронные формы представления и обмена информацией (Semantic eScience)

Карабач Максим Тарасович – магистр Московского авиационного института (национального исследовательского университета).

Харитоненков Антон Игоревич – старший преподаватель Московского авиационного института (национального исследовательского университета).

Аннотация: В статье рассмотрено понятие eScience, его основные компоненты, состав, темы, а также проблемы данной сферы и значение онтологий в ней.

Ключевые слова: электронная наука, семантика, биоинформатика, семантическая сеть, семантическая сетка.

Основные темы eScience

Взаимосвязанные, масштабируемые, реальные и повторно используемые исследования – это всеобъемлющая цель eScience. Джим Грей (которого часто считают основоположником eScience) сказал: «Все в науке меняется из-за воздействия информационных технологий». eScience началась с задачи расширения научных приложений с использованием грид-вычислений, но со временем эволюционировала и стала синонимом любых без исключения усилий по применению новой информации и информационных технологий для улучшения научного процесса и результатов.[1]

Некоторые основные темы eScience:

  • Открытая наука: наука, доступная для всех, без каких-либо препятствий для восприятия.
  • Расширение масштабов науки: доступ к вычислительной инфраструктуре соответствующего размера для всех исследователей.
  • Обеспечение постоянства исследовательских артефактов: идентификаторы и управление версиями, которые помогают нам отслеживать то, что мы создаем и используем.
  • Упаковка и обмен результатами исследований: контейнеризация и библиотеки готовых образов программного обеспечения для конкретных задач,
  • Рабочие процессы и виртуальные лаборатории для записи и обмена полными экспериментами
  • Лучшее описание исследования: семантика данных и методов
  • «Живая» исследовательская инфраструктура, которая включает данные, код и рабочий процесс непосредственно в исследовательскую статью.

 Краткое введение в каждую из этих тем по очереди представлено ниже.

Открытая наука

Открытая наука направлена на снижение стоимости участия в исследованиях, делая результаты общедоступными, и в то же время на повышение прозрачности исследований за счет обмена кодом и данными.

Технологии теперь позволяют нам создавать гораздо более эффективные контейнеры для всех этих ценных исследований, чем бумага, поэтому давайте сначала исследуем, какие аспекты науки (или исследования - те же идеи могут применяться вне науки) можно эффективно «открыть». Движение за открытую науку определило многие компоненты исследовательского предприятия, которые требуют определенной стратегии, чтобы сделать их по-настоящему открытыми, см. Портал FOSTER (внешняя ссылка) для полезного обсуждения, а отрывок показан ниже в таблице 1.[2]

Таблица 1. Краткое изложение аспектов исследования, которые можно раскрыть.

Открытый исходный код

Использование таких платформ, как GitHub и Bitbucket в качестве репозитория открытого кода, а также для контроля версий.

Открытые данные

Использование ориентированной на сообщества инфраструктуры данных, такой как Neon Data Portal

Открытый обзор

Открытые журналы делятся подробностями как рецензентов, так и рецензентов и приглашают к открытому обсуждению, например Semantic Web Journal

Открытые политики

Ясность решений и приоритетов финансирования, таких как OpenAire

Открытые инструменты, рабочие процессы и виртуальные лаборатории

Программные среды, которые выходят за рамки совместного использования цифровых артефактов, а также делятся тем, как все они соединяются в повторяемую последовательность

В рамках сообщества GIScience Open Source Geospatial Foundation, в просторечии известная как OSGeo, возникла в последние несколько лет как сообщество, посвященное созданию, ГИС-систем с открытым исходным кодом, таких как QGIS и OSGeo4W. Верные типу, эти кодовые базы полностью открыты, как и сообщество, которое их поддерживает. Таким образом, можно использовать, исследовать и расширять код по своему усмотрению и делиться им с кем угодно. Некоторые журналы GIScience теперь также будут публиковать код для журнальных статей, что является небольшим, но полезным шагом в правильном направлении.

Расширение масштабов науки

Большая часть ранних исследований в области eScience была сосредоточена на новых способах сделать вычислительную мощность доступной для всех исследователей [3], не только для тех, кто мог получить доступ к национальным средствам высокопроизводительных вычислений (HPC). Первоначально это привело к созданию вычислительных сетей, а позднее - к исследованию облаков (как общедоступных, так и частных). Обычно эти платформы строятся из обычных серверов или даже настольных компьютеров, собранных в один большой виртуальный компьютер. Хотя они не подходят для решения тесно связанных задач, которые мы наблюдаем при моделировании климата или гидродинамике, они очень полезны во многих приложениях для геномики и пространственного анализа и гораздо более производительны, чем рабочий стол в офисе. Что наиболее важно, они предоставляют согласованную вычислительную платформу для исследовательских сообществ для развертывания согласованного, совместно используемого программного обеспечения и данных. Задача переноса алгоритмов GIScience на более крупные платформы высокопроизводительных вычислений остается постоянной проблемой.[4]

Постоянные идентификаторы и управление версиями

Одна из ключевых задач в проведении «связанных» исследований – это создание постоянных цифровых идентификаторов, которые позволяют однозначно идентифицировать артефакты исследования и определять их версии. Установление идентификаторов, которые сохраняются и имеют значение за пределами одного учреждения или области, является организационной проблемой. Текущее решение включает в себя создание доверенных центров, которые могут при необходимости «создавать» новые идентификаторы как услугу, а также проверять, к какому ресурсу относится идентификатор. Например, ORCiD – это постоянный идентификатор для исследователей, который включает в себя любую местную идентичность, которую может иметь человек (например, от прошлой и нынешней институциональной принадлежности). Таким образом, это более удобный способ обращения к человеку. Идентификаторы ORCiD запоминают, кто вы, даже если вы измените свое имя, принадлежность или даже страну.

Постоянные идентификаторы также необходимы для всего диапазона цифровых исследовательских артефактов, включая наборы данных, методы (код), инструменты и даже исследовательскую деятельность. Например, рассмотрите идентификаторы исследовательской деятельности или RAID. Подобные идентификаторы важны, потому что URL-адреса (унифицированные указатели ресурсов), используемые во Всемирной паутине, оказались ненадежными в качестве средства постоянной идентификации местоположения ресурса: поскольку ресурсы перемещаются, и топология сети изменяется. Чтобы сделать вещи доступными для обнаружения и многократного использования, нам сначала нужно, чтобы они сохранялись и оставались неизменными.[5]

Контейнеризация

Еще один шаг к повторяемости предлагает «контейнерная» инфраструктура, такая как Docker. Программный контейнер – это место для хранения образа среды выполнения - программного пакета, который включает прикладные программы и часто также данные. Этот образ создается путем сериализации рабочего приложения, то есть записи памяти, содержащей рабочее программное обеспечение, в хранилище. Тогда им можно будет легко поделиться. После получения его можно открыть, «воссоздать» и сразу же запустить. Оно будет вести себя точно так же, как и исходное программное обеспечение, поэтому предоставляет очень удобный способ «подытожить» и поделиться экспериментом или частью исследования с новыми пользователями. Контейнеры помогают поддерживать как повторяемость, так и воспроизводимость, и теперь они достаточно развиты, чтобы надежно использоваться в рамках процесса экспертной оценки в науке.

Научные записные книжки, такие как Jupyter Notebooks, являются популярными вариантами контейнерной инфраструктуры, используемой в классе и в лабораторных условиях во всем мире. У них есть несколько преимуществ: они маленькие и их легко развернуть; им обычно не требуется много вычислительных ресурсов для работы; они объединяют код, данные и описание / документацию в единую среду; они помогают пользователю избежать проблем с установкой и интеграцией программного обеспечения; и их можно легко развернуть в облаке, скажем, в учебных целях. Кроме того, они, как правило, небольшие и автономные, что упрощает и ускоряет их развертывание.

Большие и разнообразные библиотеки контейнерных приложений становятся доступными в нескольких областях, включая ГИС-науку, что позволяет исследователям загружать и повторно использовать исследовательские инструменты других. Например, этот список DockerImages представляет собой быстрорастущую библиотеку функций ГИС с открытым исходным кодом от сообщества OSGeo, которую можно легко использовать повторно. [6,7]

Рабочие процессы и виртуальные лаборатории

Рабочий процесс можно рассматривать как расширение контейнеризации; помимо возможности совместного использования всех экспериментов, они идут дальше и формально описывают, как различные программные компоненты связаны друг с другом. Среды рабочего процесса поддерживают объединение аналитических методов в цепочку таким образом, чтобы полностью описать все этапы эксперимента. По сути, это язык для определения ориентированного графа, где узлы – это вычислительные методы, а ребра – это связи, по которым данные (или управляющая информация) передаются и отправляются. [8]

Среда рабочего процесса Galaxy – это, пожалуй, самый известный механизм рабочего процесса, который активно используется в исследованиях в области биоинформатики. GeoVISTA Studio [9] – ранний пример рабочего процесса и среды визуального программирования для географического анализа и визуализации.

Естественным продолжением идей облачных вычислений, контейнеризации и рабочих процессов является Виртуальная лаборатория, которая обеспечивает полностью автономную среду, объединяющую хостинг приложений, программные модули и рабочие процессы, а также подключения к соответствующим коллекциям данных. Отличным примером является Виртуальная лаборатория биоразнообразия и изменения климата, которая поддерживает очень сложное геопространственное моделирование и визуализацию, но в контролируемой среде, которая по сути объединяет все инструменты, данные, методы и сценарии, используемые для анализа, обслуживания как общие ресурсы и общая инфраструктура для исследовательского сообщества.

Богатое описание данных и методов

В традиционных журналах, конечно же, общаются люди. По мере того, как журналы переходят в онлайн, семантика все чаще используется для описания «контейнера» для исследовательской статьи все более богатыми способами с помощью метаданных.

Исследовательские артефакты, которые можно «опубликовать» или каким-либо образом распространить, нуждаются в надежных метаданных, чтобы их можно было найти с помощью поисковой системы. Конкретные метаданные, связанные с публикацией, часто используются, например, для описания исследовательских статей, и, конечно же, мы ожидаем, что такие метаданные также используются для поддержки сложных поисковых интерфейсов, которые помогают нам находить полезный контент. Многие платформы публикации академических журналов теперь также регулярно используют библиотечные метаданные для обогащения описания каждой опубликованной статьи.

Многие журналы и службы индексирования журналов теперь, конечно, также используют ключевые слова для описания исследовательской статьи, и некоторые из них могут быть взяты из контролируемого словаря или онтологии. Например, GeoRef разрабатывает и поддерживает структурированные словари для публикаций по геонаукам с 1966 года. Этот вид метаданных выходит за рамки описания статьи в общих чертах и начинает описывать само содержание. То же самое касается данных и кода, каждый из которых может быть подробно описан с точки зрения того, кто их создал, на каких условиях они могут быть повторно использованы и даже в том, какие исследовательские вопросы они могут помочь прояснить. [10]

Значение онтологий в области Semantic eScience

Онтологии широко используются в интерактивной научной деятельности или электронной науке (eScience), особенно в ролях, связанных с управлением и интеграцией ресурсов данных и рабочих процессов. Предполагается, что это использование было сосредоточено на обеспечении более эффективной работы инфраструктур eScience, но меньше внимания уделялось инновациям в области научных знаний. Большее внимание к онлайн-инновациям может быть достигнуто за счет более четкого представления научных артефактов, таких как теории и модели, и большего количества онлайн-инструментов, позволяющих ученым напрямую создавать и проверять такие представления. Это должно привести к рутинному использованию онтологий учеными и способствовать новым и потенциально отличным научным результатам, которые помогут открыть eScience следующего поколения.

Онтологии уже играют ключевую роль в этих областях. Например, в виртуальных обсерваториях онтологии: (1) используются для аннотирования структуры и содержания научных баз данных и рабочих процессов, чтобы сделать их совместимыми, (2) помогают направлять структуру и содержание научного рабочего процесса, чтобы прояснить научные рассуждения и в более общем плане они (3) способствуют научному дискурсу, предоставляя контент и контекст для онлайн-диалога в виртуальных сообществах.

Однако, эти улучшения в основном влияют на использование научных данных и методов в Интернете, в то время как окружающие знания, теория, предположения, рассуждения и другой контекст в значительной степени остались позади. Это подчеркивается положением онтологий в инфраструктурах, где они часто отодвигаются на второй план. Действительно, онтологии редко используются учеными напрямую несмотря на то, что они могут помочь в представлении знаний. В противном случае могло бы казаться, что они отсутствуют. Вместо этого они чаще напрямую используются компьютерами для обеспечения правильной работы автоматизированных компонентов инфраструктуры. Это поднимает нерешенные вопросы о том, насколько эффективно онтологии используются для инноваций знаний, исходя из их исходной позиции в инфраструктуре.

Предполагается, что онтологии недостаточно используются в развитии новых научных знаний. Это в значительной степени связано с тем, что - по большей части - онтологии рассматриваются как инженерные артефакты, необходимые для более эффективного выполнения задач, а не как артефакты знаний, которые, например, помогают описать некоторый пробел в научной теории или недостаток в рассуждениях. Более того, использование онтологии eScience в настоящее время в значительной степени мотивируется операционной эффективностью, при этом последующее влияние на развитие научных знаний в настоящее время минимизировано и значительно ниже их потенциала. В противоположном видении приоритет отдается инновациям в знаниях, в которых ученые используют онтологии как для выражения гипотез, теорий и моделей, так и для их генерации и проверки. В этом вдохновляющем видении ученые используют онтологии напрямую как часть рутинных научных исследований, потому что среда e-Science предназначена для облегчения этого. Такое прямое взаимодействие ученого со знанием, основанным на онтологии, то есть семантической наукой in-silico, должно затем помочь оживить научную онлайн-методологию, помогая генерировать более богатые идеи и улучшая нашу способность повторять, сообщать и подтверждать научные результаты.

Выводы

Если мы серьезно отнесемся к проблемам eScience, мы будем работать над улучшением способа представления, передачи, архивирования, обнаружения, повторного использования и оценки наших академических результатов путем изменения нашего собственного поведения. Это включает в себя удвоение наших усилий, чтобы наши собственные исследования были открыты для всех и были настолько прозрачными и повторяемыми, насколько это возможно. Это также может включать в себя изменение статус-кво в академических кругах, которое не всегда стимулирует наиболее полезное и продуктивное поведение. По крайней мере, нам нужно работать над системой, которая поощряет «хорошее» поведение. Одним из небольших шагов может быть предоставление опубликованному коду и данным того же статуса, что и у исследовательской статьи, с использованием экспертных оценок и количества цитирований в качестве меры качества.

Если мы решим эти проблемы, мы сделаем науку - да и все исследования - более открытыми, более воспроизводимыми, более честными и, в конечном итоге, более полезными. Если мы этого не сделаем, мы передадим следующему поколению исследователей еще больший беспорядок, чем тот, который унаследовали мы сами.

Список литературы

  1. Beard, D.A., Britten, R., Cooling, M.T., Garny, A., Halstead, M.D., Hunter, P.J., Lawson, J., Lloyd, C.M., Marsh, J., Miller, A. and Nickerson, D.P. (2009). CellML metadata standards, associated tools and repositories. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 367:1895, pp.1845-1867.
  2. Chumbe, S., Kelly, B., & MacLeod, R. (2015). Hybrid journals: Ensuring systematic and standard discoverability of the latest open access articles. The Serials Librarian: From the Printed Page to the Digital Age, 68(1-4), 143-155.
  3. Davenhall, C. (2011). The DCC Digital Curation Reference Manual, Instalment on Scientific Metadata. Online publication available from: http://www.dcc.ac.uk/sites/default/files/documents/Scientific%20Metadata_2011_Final.pdf(link is external)
  4. Foster, I., and Kesselman, C. (1999). The Grid: Blueprint for a New Computing Infrastructure. Morgan Kaufmann Publishers. ISBN 978-1-55860-475-9.
  5. Fouilloux, A., Goué, N., Barnett, C., Maroni, M., Nahorna, O., Clements, D., Hiltemann, S. 2020. Galaxy 101 for everyone (Galaxy Training Materials). /training-material/topics/introduction/tutorials/galaxy-intro-101-everyone/tutorial.html(link is external).
  6. Hey, T., Tansley, S. and Tolle, K. Eds. (2009). The Fourth Paradigm: Data-Intensive Scientific Discovery, Redmond, VA: Microsoft Research, 2009, ISBN 978-0-9825442-0-4, http://fourthparadigm.org(link is external)
  7. Klump, J., and Huber, R. (2017). 20 Years of Persistent Identifiers – Which Systems are Here to Stay?. Data Science Journal, 16, 9.
  8. Knoth, P. and Pontika, N. (2015) The Open Science taxonomy. www.fosteropenscience.eu/resources(link is external).
  9. Perkel, J. M. (2019). Workflow systems turn raw data into scientific knowledge. Nature, 573, 149-150. 
  10. Shook, E., Hodgson, M. E., Wang, S., Behzad, B., Soltani, K., Hiscox, A. and Ajayakumar, J. (2016). Parallel cartographic modeling: a methodology for parallelizing spatial data processing. International Journal of Geographical Information Science 30 (12):2355–2376.

Интересная статья? Поделись ей с другими:

Внимание, откроется в новом окне. PDFПечатьE-mail