Требования к геоинформационным системам и содержанию баз данных
Министерство образования и науки Российской Федерации
Волгоградский Государственный Университет
Факультет Управления и Региональной Экономики
Кафедра экономики природопользования
Реферат
По дисциплине: "Географические информационные системы"
на тему: "Требования к ГИС и содержанию баз данных"
Волгоград 2008
Оглавление
Введение 3
1. Требования к ГИС 5
1.1 Принципы организации ГИС 5
1.2 Структура ГИС и ее основные функции 8
2. Базы данных 13
2.1 Понятие о базе данных 13
2.2 Файловые базы данных 19
2.3 Взаимодействие баз геолого-геофизических данных 24
Литература 28
Введение
Геоэкологический прогноз, а также создание системы мониторинга в районах интенсивного техногенного воздействия требуют привлечения и комплексного анализа разнообразной информации как природного, так и социально-экономического характера. Для этого необходима организация системы автоматизированного сбора, обработки и анализа природной информации, построенной на базе современных ЭВМ и автоматических устройствах ввода–вывода информации. Возможность оперативной обработки больших объемов геоэкологической информации, включая картографическую, наиболее существенна при оценке состояния геосистем регионального уровня, а также для территориального планирования и управления ресурсами окружающей среды. В современных условиях планирования народного хозяйства с обязательным проведением геоэкологических экспертиз природоохранная информация приобретает качество особого вида ресурса (информационного) со всеми специфическими требованиями к методам ее получения и обработки. Такая оценка информации требует принципиально нового подхода к организационным структурам производства и переработки данных об окружающей среде на базе современной промышленной технологии.
Этой цели служат геоинформационные системы (ГИС).
ГИС – это компьютерные системы сбора, хранения, выборки, анализа и отображения пространственных данных. Создание автоматизированных систем природной информации входит в круг задач геоэкоинформатики – научного направления, разрабатывающего теорию, методы и технологию информационного обеспечения и автоматизации биосферных и геоэкологических исследований в целях рационализации природопользования и охраны природы.
ГИС является эффективным средством для изучения интегральных эффектов антропогенного воздействия на окружающую среду, поскольку она аккумулирует и обрабатывает данные за длительный период времени для крупных географических регионов.
Одна из важнейших проблем создания ГИС – это информационное обеспечение региональных геоэкологических моделей, включающее как выбор источников для формирования базы данных, определение точности поступающей информации, так и определения набора параметров, необходимых и достаточных для изучения динамики геосистем различного иерархического уровня.
1. Требования к ГИС
1.1 Принципы организации ГИС
Геоинформационная технология зародилась в начале 60-х годов для автоматизации ряда операций по обработке географических данных. Первые системы создавались при отсутствии программного обеспечения, наличии примитивной вычислительной техники и устройств ввода–вывода графических данных.
Развитие информационных систем шло как по пути увеличения обрабатываемых объемов данных, так и усложнения структуры хранящейся информации. Поэтому информационные массивы, предназначенные для обработки на ЭВМ, организуются в базы данных (БД). Для обеспечения достаточно сложных операций по поиску и выборке данных в БД, их объединению в информационные массивы требуемой структуры разрабатываются системы управления базами данных.
В настоящий момент ГИС представляют собой сложную информационную систему, включающую мощную операционную систему, интерфейс пользователя, системы ведения без данных, отображения графической информации.
Наряду с ГИС широкое распространение получила организация проблемно-ориентированных БД, предназначенных для картографирования природных и социально-экономических явлений. Такие БД называются картографическими банками данных (КБД).
Важнейшая функция КБД заключается в автоматизированном картопостроении, выполняемой автоматизированной картографической системой (АКС), которая является неотъемлемой частью также ГИС.
В последние годы при создании информационных систем (ИС) в географии повышенное внимание уделяется построению экспертных систем (ЭС). Под ЭС понимается система логического вывода, основывающаяся на фактах (знаниях) и эвристических приемах (эмпирических правилах) обработки данных. Основные составляющие части ЭС: 1) база знаний (БЗ) – организованные наборы фактов и 2) механизм логического решения поставленной задачи.
Появление в последние годы массового интереса к построению ГИС требует выработки принципов оценки создаваемых информационных систем, их классификации, определения потенциальных возможностей. В определенной мере это возможно при выработке требований к идеальной ГИС:
Возможность обработки массивов покомпонентной гетерогенной пространственно-координированной информации.
Способность поддерживать базы данных для широкого класса географических объектов.
Возможность диалогового режима работы пользователя.
Гибкая конфигурация системы, возможность быстрой настройки системы на решение разнообразных задач.
Способность «воспринимать» и обрабатывать пространственные особенности геоэкологических ситуаций.
Разработка ГИС включает этап проектирования структуры, определения целей и задач, потенциальных пользователей. Проектирование ГИС, как сложной информационной системы, требует использования методов системного анализа, с помощью которых решаются следующие задачи:
– построение концептуальной модели ГИС, определение ее подсистем, характера взаимосвязи между ними;
– структуризация географической информации с учетом специфики обработки, хранения и представления на ЭВМ и автоматических устройствах;
– определение этапов преобразования и обработки поступающей природной и социально-экономической информации;
– создание человеко-машинных систем для математического моделирования природных и социально-экономических процессов в структуре ГИС.
Использование информационной технологии в геоэкологии предполагает автоматизацию процессов сбора и анализа параметров геосистем. Получение и обработка информации рассматриваются как единый процесс, включающий ряд последовательных этапов (табл. 1).
Этапы информационной технологии в создании и эксплуатации ГИС включают следующие стадии: сбор первичных данных, ввод и хранение данных, анализ данных, анализ сценариев и принятие решений. Необходимо отметить, что выделенные этапы являются наиболее общими и повторяются при создании конкретных ГИС, различаясь в деталях, связанных с целями и задачами ГИС, а также техническими возможностями системы.
Очевидно, что источники информации, процедура ее получения, методы анализа должны рассматриваться как этапы единого технологического процесса, объединяемого общностью целей и задач построения и эксплуатации ГИС. Это означает, что в основу проектирования и создания ГИС должна быть положена единая методология. Поскольку ГИС можно рассматривать как средство машинного представления данных и знаний комплекса наук о Земле, то в качестве методологической основы ГИС должно быть выбрано направление их построения как инструментария познания закономерностей структуры и организации геосистем при помощи средств информатики, включающего математическое моделирование и машинную графику.
1.2 Структура ГИС и ее основные функции
В самом общем виде структура ГИС может быть представлена следующим образом (рис. 1): диалоговая система пользователя программно-технический комплекс, базы данных, блок моделей,
блок оценки и принятия решений. Построение ГИС выполняется по блочному (модельному) принципу. Это дает возможность расширять систему за счет добавления новых блоков (программ) или работать только с определенной частью (модулем) ГИС.
Рис. 1. Структура ГИС
Многоцелевые ГИС могут быть использованы для решения различных задач. Выполнение решаемых задач связано с осуществлением определенных функций. Так, наряду с другими, ГИС выполняет следующие основные функции: подготовку и ведение банков данных; информационно-справочные; имитационного моделирования; экспертного моделирования; автоматизированного картографирования.
ГИС может рассматриваться как информационная основа (база данных) для изучения природных особенностей региона и как инструмент исследования динамики или прогноза явлений и процессов (система моделей).
Кроме этого, ГИС может использоваться как информационно-справочная система, по определенному запросу выполняющая поиск и выборку данных. Следующий момент работы ГИС связан с разработкой математических моделей или системы экспертных оценок с целью анализа динамики геосистем.
Для решения каждой из перечисленных задач необходима разработка алгоритмического и программного обеспечения, а также создание диалоговых человеко-машинных систем, поддерживающих работу пользователя и представление результатов моделирования в традиционном картографическом виде.
Программно-технический комплекс. В настоящий момент ГИС комплектуются как графические станции, использующие разнообразные средства ввода–вывода графической информации. Для организации региональных ГИС требуется ЭВМ с достаточно большим объемом оперативной памяти и значительным быстродействием, работающая как в интерактивном, так и в пакетном режиме. С этой целью могут быть использованы как большие ЭВМ (для обработки космической информации), так и персональные компьютеры.
Устройства ввода графической информации подразделяются на автоматические (сканеры) и полуавтоматические (цифрователи). Для построения картографических изображений используются: графопостроители, матричные принтеры, цветные струйные печатающие устройства. В состав графической системы входит также цветной графический дисплей, который обеспечивает диалоговый режим пользователя.
Информационный блок (базы данных). Информационные массивы в ГИС объединяются в базы данных, доступ к которым обеспечивается СУБД. Основное назначение баз данных заключается в обслуживании информационных потребностей пользователя, а также поддержке системы моделей ГИС. В БД хранится не только фактологическая информация на определенный момент времени, но также начальные условия и коэффициенты уравнений модели, используемых в режиме имитационного моделирования.
Для поиска и выборки данных используются различные команды запросов пользователя. Использование или комбинирование различных команд дает возможность представлять результаты запроса в различном виде: табличном, графическом, картографическом. В зависимости от запроса, фактическая информация может быть дополнена статистически параметрами: средним значением, дисперсией и т.д.
Блок моделей. Данный блок включает программное обеспечение, предназначенное для различных операций по обработке данных. Поскольку ГИС строится как многоцелевая и многофункциональная информационно-моделирующая система, то в ее состав включаются пакеты прикладных программ, а также банк стандартизованных моделей.
Центральное место в ГИС занимает система автоматизированного картографирования. При организации ГИС могут быть использованы уже готовые модели или программные блоки, отвечающие требованиям решаемых задач. Стандартизация частных моделей, моделирующих отдельные свойства ландшафта или его компонентов (почва, растительность, миграция веществ в ландшафте) упрощает процедуру информационного обеспечения моделей, а главное, дает возможность использовать имеющийся опыт в области моделирования конкретных процессов в ландшафте при решении новых задач.
Важное место в ГИС отводится блоку экспертного моделирования и экспертных оценок. В данной части ГИС ведущая роль отводится эксперту, специалисту в конкретной предметной области. Работа данного подблока ГИС состоит в автоматизации традиционных методов анализа и синтеза геокологической информации, выполняемых экспертом на основе набора эмпирических правил.
Система управления диалогом пользователя. Функционирование ГИС как целостной системы обеспечивается системой управления диалогом пользователя. Данный блок осуществляет взаимосвязь между отдельными подсистемами ГИС, организуя диалоговое взаимодействие пользователя с системой. В зависимости от решаемой задачи выполняется автоматическая настройка ГИС на ее решение. Для этого из банка моделей выбирается необходимая модель, из информационного блока все необходимые данные.
Диалоговый режим ГИС рассчитан на пользователей различной степени подготовленности: прикладных программистов, аналитиков и исследователей и случайных пользователей. Для каждого типа пользователя выбирается свой уровень ведения диалога.
Блок оценки и принятия решений. Результаты работы ГИС анализируются в блоке оценки и принятия решений. Следует отметить, что система управления диалогом пользователя неразрывно связана с блоком оценки и принятия решений посредством формирования набора сценариев, выборов методов отображения (табличного, картографического) получаемых результатов.
Блок оценки, как и диалоговая система, рассчитан на различные режимы работы ГИС. Наиболее простой – это использование ГИС как информационно-справочной системы, более сложный, касается разработки автоматизированной методики анализа результатов имитационного моделирования.
Выбор сценариев напрямую связан с оценкой геоэкологических ситуаций и во многом опирается на знание эксперта о наиболее типичных или вероятных условиях поведения изучаемого природного объекта под воздействием возмущающих факторов.
В современных системах контроля и управления качеством окружающей среды важное место занимает оперативность получения результатов машинного прогнозирования. ЛПР требуется в сжатые сроки просмотреть различные сценарии моделирования, проанализировать полученные результаты и предложить наиболее оптимальные управленческие решения, опирающиеся на результаты работы моделей ГИС.
2. Базы данных
Большие объемы первичной геоинформации, регистрируемой как четырех уровнях наблюдения, требуют организации их хранения в памяти микро-, мини- и супер-ЭВМ по специальным правилам и принципам, позволяющим осуществлять многократное к ним обращение с целью использования данных для обработки и интерпретации, выбора стратегии дальнейших прогнозно-поисковых или разведочно-эксплуатационных работ, принятия по результатам обработки и интерпретации оптимальных управленческих решений.
При этом важно, чтобы организация данных и их хранение в различных технических средствах [микро-ЭВМ («Искра», «Электроника», IBM и др.) в режиме персонального компьютера, мини-ЭВМ (СМ ЭВМ, БВК (СМ-1), управляющие вычислительные комплексы УВК (СМ-2, СМ-4, СМ-1420, СМ-1810 и др.), а также супер-ЭВМ (экспедиционные вычислительные комплексы ЭГВК ПС-2000 и СМ-2, ЕС-10/55 и др.)] отличались единой технологией, обеспечивая возможность их использования для решения различных геологических задач с учетом различия технических средств. Рассмотрим понятия базы данных, различных типов баз данных и их взаимодействия между собой.
2.1 Понятие о базе данных
Описания данных и отношений между ними определяют двумя типами: логическое и физическое. Физическое описание данных обеспечивается физической записью данных на внешних носителях (магнитных лентах, дисках, дискетах и т.д.) и представляет способ хранения информации на этих носителях.
Логическое описание данных указывает на то, в каком виде данные представляет себе пользователь, программист, и задача геоинформатики состоит именно в анализе логического описания геоданных и их взаимоотношений между собой для дальнейших операций хранения, передачи и обработки.
Согласно определениям Ассоциации по языкам систем обработки данных (CODASYL) выделяют следующие описания данных.
Байт – наименьшая адресуемая группа битов (8 битов).
Элемент данных – наименьшая единица поименованных данных, которая может состоять из любого количества битов или байтов. Элемент данных – это любая (одна) характеристика изучаемого объекта, в том числе и его координаты; элемент имеет имя (идентификатор).
Агрегат данных – поименованная совокупность элементов данных. Выделяются два типа агрегатов: вектор ~ одномерная упорядоченная совокупность элементов (например, название района работ, номер профиля, номер точки наблюдения образуют агрегат данных) и повторяющаяся группа – совокупность векторов, встречающихся несколько раз подряд, например, когда данные описываются таким образом, что сначала указываются номера профилей, а затем номера точек, т.е. повторяется пара: профиль – точка, профиль – точка и т.д.
Запись данных ~ поименованная совокупность элементов или агрегатов данных. Совокупность элементов описывается так, как это представляется программисту, причем логическая запись может не совпадать с физической, поскольку логическая запись состоит из элементов, расположенных в других физических записях.
Элементы записи – это характеристики (признаки, координаты) одного объекта, в частности, одной точки наблюдения. Каждая запись описывается именем (идентификатором) и форматом хранения, определяющим способ упаковки элемента записи на ленту, диск, дискету. При чтении из базы данных программист может полностью прочитать логическую запись.
Файл – поименованная совокупность всех экземпляров логических записей заданного типа. Если запись представляет описание различных характеристик объекта или точки наблюдения, то файл – это совокупность тех же характеристик по нескольким объектам или по профилю наблюдений, т.е. файл – это матрица – таблица исходных данных.
База данных (БД) – совокупность записей различного типа, содержащая перекрестные ссылки, или иначе – это совокупность экземпляров различных типов записей и отношений между записями, элементами, агрегатами. БД – это также совокупность матриц – таблиц (файлов) и программ, определяющих отношения между типами данных.
База данных, по другому распространенному в геофизике определению – это совокупность массивов данных на внешних носителях и программных средств доступа к ним, где под массивами подразумеваются и запись, и файлы. Действительно, геофизические, геохимические и геологические пакеты программ включают данные разных типов: полевые наблюдения, информацию об изучаемом объекте и системе наблюдений; промежуточные результаты обработки; параметры обработки; программно-сформированные изображения выводимых результатов и т.д.
Физическая организация БД, в отличие от логической, – это физическое представление данных и их расположение на запоминающих устройствах.
База данных организуется таким образом, что данные собираются однажды и централизованно хранятся так, чтобы они были доступны всем специалистам-программистам, желающим их использовать. Одно из важных свойств БД – независимость данных от особенностей прикладных программ, которые их используют. Это означает, что изменение значений данных или особенностей их хранения на физических носителях не требует изменения прикладных программ.
В понятие БД включается система управления базой данных (СУБД), предназначенная для выполнения операций по обработке данных в прикладных программах. СУБД просматривает описание физической организации БД и определяет, какую физическую запись (записи) требуется считать, при этом СУБД выдает операционной системе ЭВМ команду чтения требуемой записи.
Нередко понятия БД и СУБД объединяют в одно понятие банк данных.
Понятие базы данных неразрывно связано со структурой ее построения (выделяют иерархические, сетевые и реляционные БД), языком манипулирования данными и языком описания данных.
Язык описания данных (ЯОД) – средство объявления СУБД тех структур, которые будут использоваться при обработке. ЯОД включается в программное описание ЭВМ. ЯОД для логического описания должен идентифицировать типы данных (элемент, запись, файл), т.е. присваивать имя каждому типу данных.
Язык манипулирования данными (ЯМД) – это интерфейс (стыковка) между прикладной программой и СУБД. ЯМД включает ряд программ, осуществляющих открытие или закрытие файла, замену или удаление отдельных записей из файла (или самого файла), передачу в рабочую область программы содержимого указанного элемента данных и т.д.
Среди структур построения БД наиболее распространены в геологоразведке реляционные БД. Реляционные БД – это табличное представление данных, обычно в виде двумерных таблиц. Каждый элемент таблицы – это один элемент данных, повторения здесь отсутствуют. Все столбцы таблиц – однородные, т.е. элементы столбца имеют одинаковую природу (значения одного и того же поля, свойства, параметра и т.д.). Каждому столбцу присвоены имена. В таблице нет двух одинаковых строк, поскольку координаты точек наблюдения разные. В операциях с таблицей ее строки и столбцы могут рассматриваться в любом порядке, в любой последовательности. Все наиболее применяемые таблицы при, геолого-геофизических исследованиях, например, таблица петрофизических свойств горных пород, таблица описания физико-геологической модели объекта (месторождения) и т.д., удовлетворяют указанным свойствам. Подобные таблицы называются отношением, а база данных, построенная с помощью отношений называется реляционной. Таким образом, реляционная БД строится из плоских наборов элементов данных (рис. 2, а). В реляционных БД встречаются термины: домен (один столбец таблицы) и кортеж – таблица, определяющая взаимосвязь между элементами. данных. Иначе, кортеж – набор взаимосвязанных величин, а файл образуется из набора кортежей.
Основные преимущества реляционных БД: простота, гибкость, точность, связность, простота внедрения, независимость данных от прикладных программ, ясность.
Распространенными структурами БД в геологоразведке являются также иерархические или древовидные структуры (см. рис. 2, б). Дерево – это иерархия элементов, называемых узлами. На верхнем (первом) уровне иерархии находится один узел – корень. Каждый узел, кроме корня, связан с одним узлом на более верхнем уровне, называемом исходным узлом для данного узла. Ни один элемент не имеет более одного исходного. Каждый элемент может быть связан с одним или несколькими элементами на более низком уровне. Такие элементы называются порожденными, а элементы, не имеющие в конце ветви порожденных, называются листьями.
Используется термин иерархический файл, т.е. такой файл, в котором записи связаны в виде древовидной структуры. Иерархические структуры БД использованы в автоматизированной системе АСПО-8 и в концепции создания банка «Разведочная геофизика».
Редко используется так называемые сетевые структуры БД, приведенные на рис. 2, в.
В трех приведенных на рис. 2, в сетевых структурах первая (слева) имеет три уровня и для каждого узла – два исходных элемента, вторая (в середине) – четыре уровня, третья (справа) – пять уровней.
Сетевые структуры БД характерны для организации управлением геологоразведочным производством на уровне экспедиции и выше.
Организация данных в БД прежде всего должна правильно передавать их основное смысловое значение, или семантику, и позволять эффективно к ним обращаться. В обычной прикладной программе структура данных организуется таким образом, чтобы обеспечить удобный доступ к ним из данной программы.
Рисунок 2. Структуры данных:
а-реляционная, б-иерархическая, в-сетевая
БД содержит данные, которые используются множеством разнообразных программу, следовательно, при определении структуры БД нельзя ориентироваться на критерии, используемые при программировании конкретных функций. При обработке геолого-геофизических данных БД характеризуется большими и очень большими размерами выборок. Большим называется такое значение, которое превосходит количество данных, обрабатываемых одним человеком, даже если он имеет доступ к вычислительной системе. Фактическое количество изменяется от сложности данных и решаемых задач. Примером большой БД является система, содержащая сведения уже о 5000 образцах, рудных телах, месторождениях и т.д. Такая БД может, например, содержать 300 000 записей десятка или более типов. Три тысячи сейсмических лент со стоканальной записью каждая уже образуют большую БД.
Очень большая БД образуется, например, при сведении всех геолого-геофизических данных для одного миллионного листа.
Большие массивы геолого-геофизической информации требуют использования специальных систем для организации хранения и поиска данных. Такие системы называются информационно-поисковыми (ИПС). ИПС, по существу, представляют БД совместно с СУБД, осуществляющих быстрый поиск данных. Поиск данных обычно производится по определенному символу. В отличие от БД и СУБД, которые можно рассматривать раздельно, для ИПС характерна неразрывная связь функций БД и СУБД.
В сейсморазведке при создании автоматизированной системы обработки данных СЦС-3 широкое применение получила ИПС «ИНЕС». При обработке и интерпретации данных ГИС используется ИПС ГЕОКОМПАС, базирующаяся на СУБД КОМПАС.
2.2 Файловые базы данных
Вышеприведенные определения БД, основанные на концепциях CODASYL, а также иерархические и сетевые структуры БД сложно использовать при хранении, поиске и обработке массовых геолого-геофизических данных, что объясняется следующими обстоятельствами:
при многоэтапной и многоцелевой обработке данных трудно заранее определить связи между всеми типами геообъектов и соответствующими им типами записей. При решении разных геологических задач взаимосвязи между объектами обработки (точками наблюдений, геологически однородными площадками, геохимическими и геофизическими аномалиями, известными проявлениями полезных ископаемых и т.п.) изменяются. Изменяется также и принцип группирования записей, соответствующих этим объектам;
отдельная запись при обработке геолого-геофизических материалов не имеет, как правило, самостоятельного значения.
Поэтому средства большинства систем управления базами данных, ориентированными на поиск и предоставление программисту единичных записей, не могут удовлетворить ни программиста, занимающегося созданием геолого-геофизического программного обеспечения, ни геолога-геофизика как специалиста в. области обработки и интерпретации данных;
3) реляционные БД в большей степени, чем сетевые и иерархические, приспособлены к обработке геолого-геофизических данных, поскольку реляционную БД можно рассматривать как совокупность разнообразных таблиц объекты – свойства, связи между таблицами неявно определяются через общие элементы данных, например, координаты точек. Однако и реляционная БД практически не учитывает особенности технологии хранения, поиска и обработки массовых данных: а) геолого-геофизические данные хранятся в виде географически, покоординатно заданной информации, относящейся к определенному методу, способу исследований при определенной детальности работ (масштабе работ); б) при долговременном хранении геолого-геофизические данные не модифицируются, так как они обычно прошли стандартную первичную обработку; в) каждый новый фрагмент данных должен рассматриваться как автономный (иначе ведение баз при их реальных огромных объемах станет непосильно трудоемким), но система поиска должна обеспечивать оперативный поиск и выбор требуемого фрагмента базы данных; г) технология обработки диктует необходимость доставки геолого-геофизических данных не по отдельным записям, а достаточно большими порциями (сейсмическая трасса, профиль, площадь съемки и т.п.).
С учетом отмеченных обстоятельств и особенностей технологии хранения и обработки геоинформации В.В. Ломтадзе предложил синтезировать достоинства файловых структур описания данных, информационно-поисковых систем и реляционных БД, К достоинствам файловой структуры относится автономия фрагментов информации, оформляемых в виде отдельных файлов. Достоинства ИПС заключаются в возможности смыслового поиска фрагментов информации (файлов), требуемых для решения конкретных задач. Наконец, достоинства реляционных баз данных состоят в логической ясности представления данных, гибкости их преобразования и т.д., поскольку можно «вырезать» из таблиц объекты – свойства требуемые столбцы (свойства) или, наоборот, «склеивать» их, формируя для прикладных программ файлы с заданным составом записей.
Под файловой базой данных (ФБД) понимается совокупность организованных по общим принципам файлов, между которыми неявно определены связи. Если в сетевых и иерархических базах данных объектом поиска и обработки является запись, то в ФБД основной объект поиска и обработки представляет файл или же совокупность взаимосвязанных однотипных записей, называемая массивом и являющаяся частью файла. В частных случаях можно выполнять работу и с отдельными записями.
Выбор стандартных структур организаций данных, в которые, как в контейнеры (или как книги на полке библиотеки), вкладывается разнообразная информация, является ключевым моментом при проектировании технологии обработки массовых геолого-геофизических данных. К достоинствам концепции банка данных относится введение понятия структуры данных и выделение набора стандартных структур, управляемых набором стандартных программ и подпрограмм, входящих в конкретную СУБД. Такой набор программ и подпрограмм В.В. Ломтадзе для файловых баз данных называет системой оперирования данными (СОД), которая играет роль общесистемного программного аппарата.
В ФБД выделяют четыре структуры данных: файл, массив, запись, элемент, которые по существу отражают все разнообразие площадной геолого-геофизической информации.
Файл обычно соответствует площади работ, т.е. содержит конкретные данные по этой площади.
Массив файла соответствует профилю или маршруту, скважине или интервалу скважины, сейсмической трассе, кривой ВЭЗ, МТЗ или любой другой совокупности точек наблюдения, т.е. массив содержит данные по профилю, маршруту, скважине и т.д. Массив состоит из заглавия и записей.
Заглавие – особая запись для характеристики массива в целом. Записи массива в совокупности образуют таблицу объекты – свойства. Одна запись соответствует одному объекту и совпадает с понятием «запись» в терминах CODASYL.
Элементы записи – это характеристики, например, значения конкретного физического поля, координаты, признаки одного объекта, т.е. одной точки профиля, одной точки скважины, одной точки сейсмотрассы и т.п.
Любой файл в СОД состоит из краткого паспорта и массивов. Имеется близкая аналогия между паспортом файла и аннотацией книги, между массивами файла и главами той же книги. В паспорте файла содержится имя (или название) файла, имя (обозначение) владельца партии, экспедиции, объединения, параметр PACK, обычно равный 1 (это означает, то данные, содержащиеся в файле, должны храниться на ленте или диске в упакованном виде; в случае РАСК=0 упаковка запрещается), параметры V (число элементов данных в заглавии каждого массива), W (число элементов данных в заглавиях каждого файла), Р>о>> символически обозначающий принцип кодирования массивов файла (принцип группирования записей в массивы); Pj, Uj, Cj, (/ = 1,…, У+ W), описывающие элементы заглавия и записей массивов.
Если для геофизического метода определены типы файлов, то многочисленные программы обработки и интерпретации данных могут разрабатываться независимо друг от друга. Любой переход, например, от файла А к файлу типа В может быть осуществлен с применением разных алгоритмов и разных программ.
На каждом шаге последовательного преобразования файлов с помощью той или иной программы выполняется переход от одного или нескольких исходных файлов к одному или более, которые могут отличаться от исходных структурой и составом. Поскольку каждый шаг графа обработки определяется именем программы, выполняющей требуемые функции, именами исходных и создаваемых файлов и значениями параметров управления работой Данной программы (например, граничные координаты обрабатываемой площади, имена используемых признаков и т.п.), то после любого шага процесс обработки может быть прерван для визуализации и анализа промежуточных результатов, принятия решения о выборе приемов и параметров дальнейшей обработки или интерпретации.
Описанный выше подход к построению реляционно-файловых (или просто файловых) баз данных нашел в настоящее время самое широкое применение при создании автоматизированных систем обработки и интерпретации геолого-геофизической информации, а также при обеспечении программными продуктами полевых вычислительных комплексов и автоматизированных рабочих мест. При этом большинство программистов предпочитают ограничиваться тремя структурами данных: элемент, запись и файл, полагая использование структуры массива лишним.
2.3 Взаимодействие баз геолого-геофизических данных
Общий подход формализованного представления массовых геолого-геофизических данных в среде ФБД является также ключом к решению проблемы создания различных типов баз и их взаимодействия между собой. Решение этой проблемы основано на рассмотренной формализации представления разнотипных по содержанию и характеру» геологических, геохимических данных, на вводимых понятиях региональных и локальных баз данных и на реализации организационно-технических мероприятий, осуществляемых в настоящее время в рамках создания ГЕОСИСТЕМЫ.
Локальная методная ФБД образуется и существует в период обработки материалов полевой партии, экспедиции, например, гравиметрической, геохимической, геологоразведочной и т.д. Связи между файлами локальной методной ФБД неявно определяются таблицей типов файлов данного геолого-геофизического метода, а также принятой технологией обработки. Файлы некоторых типов каждой методной ФБД, образуемые, как правило, в результате обработки на полевых вычислительных комплексах или на автоматизированных рабочих местах, передаются в региональные базы данных.
Региональные базы данных (РФБД) обеспечивают долговременное хранение фактических данных в государственных масштабах.
Региональная база данных (РФБД) – это совокупность всех файлов, содержащих геолого-геофизические данные по одному миллионному листу картографической разграфки. Файл, включаемый в региональную ФБД, получает имя, состоящее из восьми символов: номенклатура листа (3 символа), год завершения работ, данные которых помещены в файл (2 символа), регистрационный номер файла в базе данных на этот год (3 символа). Например, Р4889005 содержит результаты работ, завершенных в 1989 г. в пределах листа Р-48.
Краткая информация о каждом файле региональной базы (масштаб работ, вид сети, координаты, «ключи» для перехода от относительных координат в записях файла к истинным координатам, дескрипторы, характеризующие содержание файла) помещаются в поисковый образ файла. Поисковые образы всех файлов региональной ФБД объединяют в один файл поисковых образов, хранимый при поиске данных на диске. Сами файлы региональных ФБД хранятся на лентах или любых других устройствах памяти большой емкости. Связи между этими файлами определяются через их поисковые образы и тезариус – словарь, содержащий коды (дескрипторы) ключевых слов.
Наиболее важной задачей, решаемой при создании и ведении РФБД, является сохранение основных фактических материалов, получаемых при геологоразведочных работах, и обеспечение возможности их использования для многократной последующей обработки совместно с новыми данными. Для решения этой задачи в рамках создания ГЕОСИСТЕМЫ необходимо:
1) распределить территорию страны (по миллионным листам) между региональными вычислительными центрами. Такие центры следует организовать на базе либо крупных геологических объединений, либо крупных научно-исследовательских институтов, оснащенных большими и супер-ЭВМ. Можно выделить по крайней мере восемь региональных центров (указаны в скобках) по обслуживанию территории России: Дальний Восток (ПГО «Таежгеология»), г. Хабаровск; Восточная Сибирь – два центра (ПГО «Иркутскгеология» совместно с ПГО «Иркутскгеофизика» и ПГО «Красноярскгеология»); Западная Сибирь (ЗапСибНИГРИ), г. Тюмень; Урал (институты УО РАН), г. Свердловск; восток Европейской части России (ПГО «Пермьгеология»); центр Европейской части России (ПГО «Центргеология», г. Москва); север Европейской части России (ПГО «Севзапгеология», г. Ленинград); юг Европейской части России, г. Ростов-на-Дону;
2) стандартизировать
организацию данных в рамках методных
ФБД,
определив для каждого геолого-геофизического
метода типы
файлов, подлежащих передаче
в региональные ФБД;
установить порядок пополнения региональных ФБД, аналогичный пополнению территориальных геологических фондов;
осуществить ведение региональных ФБД на базе специализированной технологической группы с выполнением функций по приему файлов из методных ФБД, их записи на магнитные ленты, принадлежащие определенному миллионному листу, составлению образов вновь принятых файлов и их включению в файлы образов, созданию целевых ФБД по запросам.
Региональные (или архивные) ФБД используются для создания локальных целевых ФБД. Временная целевая БД обычно предназначена для обобщения и комплексного анализа геолого-геофизических материалов в пределах конкретной территории с целью решения задач прогнозирования. Для создания временной целевой базы данных пользователь (геолог, геохимик, геофизик соответствующей технологической группы вычислительного центра) формирует запрос, указывая привязку требуемых данных по месту (миллионный лист, граничные координаты площадей), времени (временной интервал проведения работ, данные которых представляют интерес для решения конкретной прогнозно-поисковой задачи, геоэкологического исследования и т.д.), детальности работ и их содержанию (дескрипторы, отражающие масштаб исследований, конкретные геологические, геохимические и геофизические методы).
Программное обеспечение региональных ФБД с помощью файла поисковых образов позволяет установить, в каких файлах и на каких лентах находится требуемая информация, и, следовательно, извлечь эту информацию, сформировать на ее основе временную целевую ФБД. Связи между файлами такой ФБД определяются структурой системы комплексного анализа данных и прогноза геологических объектов, в частности, выделенными в ней типами файлов, а также технологией обработки данных. Для работы с локальной ФБД применяются общесистемное – программное обеспечение, программный аппарат обработки и интерпретации данных комплекса методов и программы, принадлежащие методным системам обработки. К локальным можно также отнести постоянно действующие целевые ФБД по месторождениям определенного типа, скважинам (в том числе сверхглубоким), отдельным локальным структурам и т.п. Такие базы данных обычно отличаются спецификой решаемых задач (например, контроль за эксплуатацией нефтегазовой залежи), и формы их взаимодействия с региональными ФБД могут быть самые разные.
Литература
1. Кузнецов О.Л., Никитин А.А., Геоинформатика. – М. – 1992.
2. Основы геоинформатики: В 2-х кн. Кн. 1: Учеб. пособие для студ. вузов / Е.Г. Капралов, А.В. Кошкарев, В.С. Тикунов и др.; под ред. В.С. Тикунова. – М.: Издательский центр «Академия», 2004.
3. Экоинформатика / Под ред. Соколова А.Л. – М. – 1992.