УДК 004

Параллельное пакетное геокодирование индексов, частично содержащих ретроспективные геоназвания, с сохранением геообъектов в ООБД НИКА

Тищенко Владимир Александрович – кандидат технических наук, научный сотрудник отдела Организации банков данных Федерального исследовательского центра «Информатика и управление» Российской академии наук; сотрудник кафедры Информатики факультета Информатики и прикладной математики Православного Свято-Тихоновского гуманитарного университета.

Аннотация: Для пакетного геокодирования индекса по географическим названиям в исторической базе данных предлагается метод, использующий сервисы с возможностью массового геокодирования на основе свободно распространяемых геоданных. Метод использует параллельное геокодирование нескольких списков адресов, на которые разбивается исходный индекс геоназваний. Полученные данные сохраняются в виде геообъектов в БД НИКА. Особенностью метода является преобразования исходных исторических геоназваний к адресам, которые дают наиболее релевантный ответ от геокодера.

Ключевые слова: параллельное пакетное геокодирование, картографические сервисы, ретроспективный геоконтекст, нечеткое соответствие, геокоординаты, картографический слой, ООСУБД НИКА.

Необходимость системы оптимального геокодирования геоиндексов

Актуальность задачи прямого геокодирования [1] следует из необходимости наглядного обозначения на карте картографического сервиса географических названий, существующих в виде индексов в базе данных. В частности, в БД “За Христа пострадавшие” имеется множество индексированных полей [2], содержащих названия населенных пунктов, как современных, так и исторических или устаревших. С другой стороны, можно привести пример системы [3], в составе которой эффективно используется параллельное пакетное геокодирование. Таким образом, оптимизация процесса геокодирования геоназваний, содержащихся в исторических базах данных является насущной проблемой. На основе технологии, применяемой в [3] Заславский формулирует понятие геоконтекста [4], и унифицированной формы геоназаваний [4] с указанием временного аспекта. Кроме того, Заславский исследовал зависимость числа геокодируемых названий в секунду от числа запущенных параллельных задач на геокодирование, а также рассмотрел данную зависимость при превышении числом запущенных параллельных задач числа ядер процессора. Несмотря на универсальность упомянутой технологии, она недостаточно детализирует процесс ретроспективного геокодирования [5]. В статье [5] “предлагается каждый географический объект связывать с нормативными документами, определяющими даты начала и окончания действия географического названия этого объекта и его геометрического представления” [6]. Исходя из сказанного можно заключить, что для исторических баз данных, каковой является фактографическая БД “За Христа пострадавшие” [7], наряду с параллельным пакетным геокодированием современных геоназваний применяется процесс ретроспективного геокодирования, который осуществляется вручную на основе картографического материала исторических источников [8].

Ретроспективный геоконтекст

Множество геоназваний в БД “За Христа пострадавшие”, относится к историческим. Административно-территориальное деление до 1928г. состояло из губерний и уездов. Однако в ряде случаев название самого населенного пункта могло остаться прежним, поэтому в первом приближении в качестве входной строки для геокодера используется одноименная область (если такая существует) и населенный пункт. Границы губерний не совпадают с областями и данный метод геокодирования требует верификации и коррекции результатов геокодирования исторических названий. Кроме исторических названий имеются устаревшие названия, например, в поле МестоРождения указано название “Азово-Черноморский край, Константиновский р., ст.Богоявленская”. Азово-Черноморский край — это административная единица СССР, которая существовала с 1934 по 1937 г. В 1937 г. он был разделен на Краснодарский край и Ростовскую область. В данном случае в качестве области указываются приведенные выше 2 варианта и анализируется ответ геокодера. В результате можно выяснить, что Богоявленское сельское поселение находится в Ростовской области в Константиновском районе. Пример иллюстрирует концепцию ретроспективного геоконтекста. Из сказанного вытекает вывод о том, что исходный слабоструктурированный вид геоназваний в БД необходимо привести к структурированному виду для сервиса геокодирования с целью получения от него релевантных геоданных.

Геокодирование списков геоключей

Процесс параллельного пакетного геокодирования (ПГ) показан на рис.1. Система содержит клиента ПГ и сторонний сервис ПГ. Клиент ПГ формирует списки геоключей по исходному индексу географических названий и в параллельных потоках посылает запросы, содержащие списки геоключей, на сервис ПГ через сеть интернет, используя https-протокол. Сервис ПГ в ответ на каждый запрос запускает параллельно задание пакетного геокодирования. Результатом выполнения задания являются геобъекты, определенные по геоключам в общей БД геообъектов, которые возвращаются клиенту ПГ в ответ на запрос. Клиент ПГ помещает геообъекты в отдельную БД.

1

Рисунок 1. Схема процесса параллельного пакетного геокодирования (ПГ).

Описанный процесс параллельного ПГ необходимо детализировать запросами состояния выполняемых параллельных заданий на сервисе ПГ. На рис.2 приведен процесс получения клиентом ПГ от сервиса ПГ ответа, содержащего запрашиваемые геообъекты, на любой запрос ПГ.

2

Рисунок 2. Схема запроса пакетного геокодирования.

В ответ на i-ый запрос ПГ со списком геоключей сервис ПГ присылает клиенту ПГ идентификатор id запущенного задания и статус ожидания. Клиент ПГ переходит в режим ожидания ответа в i-ом потоке, периодически посылая запросы на статус выполнения задания с данным идентификатором id. В случае завершения задания id в ответ на запрос статуса сервис ПГ присылает клиенту ПГ статус выполнено с набором запрашиваемых геообъектов. Полученные в результате геокодирования отдельные для каждого списка геоназваний БД с геообъектами сливаются в одну БД геообъектов (на рис.1 ГеоБД), представляющую собой ООБД НИКА.

Преобразование индекса в списки геоключей

Насколько процесс пакетного геокодирования хорошо формализуется и автоматизируется, настолько предваряющий процесс создания входных списков геоключей осложняется тем, что индекс составлен из неструктурированных в некоторых случаях ретроспективных названий. Исходные ключи индекса по геоназваниям в исходной БД представляют собой адреса в “слабоструктурированном” виде, например (места рождения):

  • АССР немцев Поволжья, Старо-Полтавский кантон, с.Новая Квасниковка
  • Абакумская о., с.Березовка
  • Австро-Венгрия, Львовская губ., Равва-Русский у., с.Монастырь (Монастырек? ныне Украина, Львовская о., Жовкивский р.)
  • Адыгейская АССР, Майкопский р., ст-ца Дондуковская
  • Азербайджан, с.Ивановка
  • Азово-Черноморский край, Белоглинский р., с.Россыпное
  • Азово-Черноморский край, Константиновский р., ст.Богоявленская
  • Амурская губ., ст.Кумара
  • Архангельская губ, Мезенский у., д.Большонисогорская

Как видно из примеров мест рождений в БД “За Христа пострадавшие” [7], геоназвания представляют текст в свободной форме, в котором могут быть указаны исторические названия (губернии, уезды), устаревшие названия (например, Азово-Черноморский край), а в скобках иногда современные названия. Некоторые компоненты геоназваний могут отсутствовать и т.д. На первом этапе необходимо структурировать названия и выделить для сервиса геокодирования те компоненты, которые значимы для процесса геокодирования. Такими компонентами в большинстве случаев являются название населенного пункта и область. На рис. 3 показан пример фрагмента списка (слева) и результат геокодирования (справа).

3

Рисунок 3. Пример списка на входе сервиса геокодирования и результата.

Заключение

Использование параллельного пакетного геокодирования является эффективным методом создание локальной базы данных геообъектов для динамической генерации геоинформациолнных слоев для нанесения их на карты картографических сервисов. Например, геокодирование 8 списков по 100 названий в виде 8 параллельных заданий занимает время от 40 до 70 секунд. Следующий этап развития концепции ретроспективного геоконтекста включает в себя подсчет статистических данных, включая подсчет ретроспективных названий, для построения тематических карт на основе геоинформационных слоев, например, тематической карты мест служения прославленных новомучеников и исповедников [9].

Список литературы

  1. Hutchinson, M.J., Veenendaal, B. An agent-based framework for intelligent geocoding. Appl Geomat 5, 33–44 (2013). https://doi.org/10.1007/s12518-011-0063-z.
  2. Тищенко В.А. Реализация функции географического позиционирования с использованием БД НИКА (на примере индекса по местам служений новомучеников и исповедников) // материалы XXII Ежегодной богословской конференции ПСТГУ, т.2, М.: Издат. ПСТГУ, 2012г. С.218-223.
  3. Balandina E., Balandin S., Koucheryavy Y., Mouromtsev D. Innovative e-Tourism Services on top of Geo2Tag LBS Platform”, the 11th International Conference on Signal Image Technology & Internet Systems (SITIS 2015), Bangkok, Thailand. – С. 752-759.
  4. Заславский М.М., Блеес Э.И., Баландин С.И. Метод обработки в реальном времени открытых данных, содержащих геоконтекстную разметку // Научно-технический вестник информационных технологий, механики и оптики – 2017. – Т. 17. – No 5(111). – С. 850–858.
  5. Жижимов О.Л. и др. О профиле доступа к данным тезауруса для ретроспективного геокодирования и географического поиска в электронных библиотеках // материалы XVIII Международной конференции «Крым 2011». М., 2011. Электронный ресурс ГПНТБ России.
  6. Богачева А. Н., Зилов А. А., Соловьев А. В., Тищенко В. А., Щелкачева И.В. Опыт применения картографических сервисов для отображения географических данных из БД НИКА // Сб. трудов ИСА РАН. Т.66. Вып.3. Под ред. чл.-корр. РАН Арлазарова В.Л. - М. 2016. С. 45-54.
  7. Интернет-ресурс база данных “За Христа пострадавшие”. http://martyrs.pstbi.ru.
  8. Колдаков Д.В. Геоинформационные технологии в изучении поселенческой сети Алтая в 1920-е гг. // Вестник Томского государственного Университета, 2011. N4(16). С. 11–14.
  9. Тищенко В.А. Средства исторической геоинформатики в преподавании пространственно распределенного фактографического материала // Материалы XXIV Ежегодной богословской конференции ПСТГУ. М.: Издат. ПСТГУ, 2014. С.395-397.

Интересная статья? Поделись ей с другими: