Изучение исторических источников на основе применения количественных методов и новых информационных технологий

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Исторический факультет

РЕФЕРАТ

На тему:

"Изучение исторических источников на основе применения количественных методов и новых информационных технологий"

МИНСК, 2008

Ограниченные возможности анализа источника традиционными методами внешней и внутренней критики проявились в конце XIX – начале XX вв. в связи с кризисом позитивистской парадигмы, ориентированной на иллюстративность в подаче исторических фактов. Для более глубокого изучения источников потребовались новые аналитические методы, которые были заимствованы историками из других гуманитарных наук, в первую очередь из социологии.

Другой причиной обращения к новым методам было смещение интереса историков от описания индивидуальных явлений (идеографического подхода) к исследованию типичных явлений в истории (генерализирующему подходу). Это смещение было связано с проникновением в исторические исследования во второй половине XIX – начале XX вв. идей философских и политических направлений, которые были ориентированы на изучение деятельности макросоциальных групп (например, марксизм с интересом к классам и классовой борьбе). Уже в начале ХХ в. историки активно начали использовать методы дескриптивной (описательной) статистики при обработке исторических источников.

Новый этап активного использования количественных (математических) методов начался в конце 1950-х – начале 1960-х гг. Количественные методы, по мнению И.Д. Ковальченко, представляют собой "обычный анализ явлений и процессов на основе системы количественных показателей", а математические – "это построение на основе системы численных данных формально-количественных, математических моделей этих процессов и явлений". Основной причиной, вызвавшей интерес историков к использованию количественных методов, было широкое введение в исследования массовых исторических источников, которые можно было эффективно обрабатывать только с помощью данных методов.

Массовыми, по мнению И.Д. Ковальченко, можно назвать "источники, характеризующие такие объекты действительности, которые образуют определенные общественные системы с соответствующими структурами". Наиболее распространенными видами массовых источников И.Д. Ковальченко считал: статистические материалы (переписи и обследования), материалы делопроизводства и личного учета, систематизированные справочные материалы, т. е. источники, которые позволяли изучать массовые процессы и явления, и в которых информация содержалась в агрегированной (обобщенной) форме. Б.Г. Литвак выделил иные признаки массовых источников (большое количество сохранившихся источников определенного вида, единый формуляр и др.), которые присущи преимущественно материалам делопроизводства.

Второй причиной активизации интереса к количественным методам было стремление исследователей повысить информативную отдачу источников. По мнению И.Д. Ковальченко, рассмотревшего источник в свете теории информации, извлекать данные из источника можно бесконечно. Это вызвано тем, что в источнике наряду с открытыми (явными) сведениями присутствует скрытая (структурная) информация (взаимосвязи между показателями, группировка исторических объектов и др.), которую можно извлечь только с помощью количественных методов. Преимуществом скрытой информации является ее большая объективность, так как она формируется независимо от позиции автора источника.

Процесс использования количественных методов значительно упростился в связи применением электронно-вычислительных машин (компьютеров), позволивших автоматизировать процесс расчета количественных показателей. Начиная с конца 1950-х – начала 1960-х гг., в источниковедческих исследованиях количественные методы применяются в сочетании с информационными технологиями.

Новые информационные технологии представляют собой методы работы с информацией, основанные на применении современных технических средств (компьютеров, сканеров, модемов и др.) и программного обеспечения. На основании применения количественных методов и компьютеров в 1960-е – 1980-е гг. появились такие перспективные направления как "новая политическая история", "новая экономическая история" (эконометрия), "новая социальная история" в США, квантитативная история (клиометрика) в странах Европы, школа по использованию математико-статистических методов и ЭВМ в исторических исследованиях под руководством И.Д. Ковальченко в СССР.

Процесс комплексного применения количественных методов и информационных технологий при обработке исторических источников прошел в своем развитии два основных этапа. Первый этап охватил 1960-е – первую половину 1980-х гг., получив по определению Л.И. Бородкина название "Эра больших ЭВМ". Он характеризовался использование больших ЭВМ с ограниченным объемом памяти и программным обеспечением, которое требовало при работе историка с компьютером присутствия посредника-программиста. Второй этап – время "микрокомпьютерной революции" конца 1980-х – 1990-е гг., предоставившей историкам персональный компьютер с дружественным интерфейсом и коммерческим программным обеспечением, что позволило практически исключить из "цепи исследования" посредника-программиста.

На первом этапе количественные методы и компьютеры наиболее интенсивно использовались при анализе письменных источников. Количественный анализ позволял:

Расшифровать источники, написанные на неизвестных "мертвых" языках. Подобные исследования в начале 1960-х гг. провели новосибирские ученые В.А. Устинов, Э.В. Евреинов и Ю.Г. Косарев, проанализировавшие Дрезденскую и Мадридскую рукописи, а также книги "Чилам Балам", написанные на языке майя. С помощью метода подсчета частоты слогов и слов, близкого к контент-анализу, и компьютера им удалось подтвердить мнение крупнейшего знатока письменности майя Ю.В. Кнорозова об иероглифическом характере письма древних майя, установить соответствие между языком рукописей и языком майя начального периода колонизации XVI–XVII вв., отождествить более 90% иероглифических комплексов Дрезденской и Мадридской рукописи со словами языка майя периода колонизации.

Провести атрибуцию, т. е. определить автора исторического источника. В середине 1970-х гг. Л.В. Милов, Л.И. Бородкин при помощи формального анализа особенностей стиля устанавливали авторство анонимных произведений ХV–XVI вв.

Выявить скрытую (структурную) информацию, заложенную в историческом источнике. Например, при помощи метода контент-анализа Л.М. Брагина в 1972 г. определила частоту встречаемости этических понятий в трактате "Об истинном благородстве" итальянского гуманиста XV в. К. Ландино. А затем использовала в комплексе с контент-анализом метод корреляционного анализа для определения тесноты связи между этими этическими терминами.

Обработать большие массивы информации, содержащиеся в массовых исторических источниках (писцовых книгах, описаниях помещичьих имений, материалах статистики и др.).

Построить генеалогические стеммы (древа) рукописных источников. В середине 1970-х гг. Л.В. Милов и Л.И. Бородкин построили генеалогическую стемму рукописного законодательного источника – "Закона Судного людем", что позволило классифицировать все списки памятника.

Проводить историко-типологические исследования источников методами автоматической классификации (кластер-анализа и др.)

Конкретные формы анализа источников позволили разработать на теоретическом уровне методику их обработки на основе количественных методов и информационных технологий. Для того, чтобы проанализировать источник на компьютере, его подвергали процедуре формализации и кодировки. При формализации весь текст источника структурировали, выделяя однородные исторические объекты (помещичьи имения, крестьянские хозяйства и др.) или одинаковые категории (этические понятия, социальные группы и др.). Затем на этапе кодировки выделенным объектам или категориям присваивали цифровые коды. Необходимость кодировки диктовалась тем, что "большие ЭВМ" обрабатывали информацию только в количественной форме.

На этапе "больших ЭВМ" возникали ограничения в применении количественных методов при анализе повествовательных источников, информация которых была слабо структурирована. При формализации подобных источников часть информации не удавалось перевести в количественную форму, и она терялась. Этот недостаток был устранен только в период "микрокомпьютерной революции", когда были разработаны полнотекстовые базы данных и основанный на их применении источнико-ориентированный подход. Эти новые компьютерные технологии позволили обрабатывать всю информацию повествовательного источника, проводить информационный поиск, и даже устанавливать лакуны (пропуски) и интерполяции (позднейшие вставки) в тексте источника.

Появление новых программных средств (мультимедийных систем, геоинформационных систем и др.) и технических средств (сканеров и др.) в период "микрокомпьютерной революции" позволило как найти новые методы анализа письменных источников, так и обрабатывать другие типы исторических источников (вещественные, изобразительные, картографические, кинофотодокументы, фонодокументы и др.). В настоящее время новые информационные технологии применяются при решении следующих источниковедческих проблем:

Представление письменных и изобразительных источников в виде графических файлов позволяет исследователю непосредственно работать с текстом или изображением источника и улучшить поврежденные страницы, иконы, картины.

Появление лазерных дисков (CD-ROMов) и использование информационных ресурсов глобальной компьютерной сети Internet предоставило исследователям прямой доступ к историческим источникам в электронной форме, находящимся в архивах, библиотеках и музеях других стран.

Применение в обработке данных источника новых теоретических концепций, пришедших из других отраслей науки (например, методов синергетики, теории хаоса или нелинейной динамики, разработанных бельгийским ученым И. Пригожиным, методов искусственного интеллекта и др.).

В 1990-е гг. возникли новые отрасли источниковедения - компьютерное и информационное источниковедение. Компьютерное источниковедение – это дисциплина, ориентированная на разработку методов анализа исторических источников с помощью компьютера, принципов их формализации и представления в электронной форме, а также общих подходов использования информационных и компьютерных технологий в историческом исследовании. Информационное источниковедение основано на изучении источника в свете теории информации.

Использование компьютеров и компьютерных сетей привело к появлению нового типа источников – электронных документов. Многие из них становятся “мультимедийными”, объединяя текст, компьютерную графику, видео, анимацию, звук. Для обработки подобных “мультимедийных” источников необходимо использовать новые методы анализа, и даже специальный язык (HTML-язык и гиперссылки на цитируемые WWW сервера).

Различные виды программного обеспечения предоставили возможность историкам изучать источники по следующим направлениям:

статистические пакеты (STATISTICA для Windows, Statgraphics, SPSS и др.) позволили анализировать как статистические источники, так и источники с неколичественной информацией с помощью широкого набора математико-статистических методов.

электронные таблицы (Lotus 1-2-3, Quattro Pro, Excel и др.) дали возможность эффективно работать со статистическими источниками, которые представлены в форме таблиц.

системы управления базами данных (DBASE, FoxPro, Paradox и др.) позволили обрабатывать статистические источники, структурированные массовые источники, имеющие единый формуляр (метрические книги, личные дела, анкеты и др.), текстовые (нарративные) источники, изображения.

текстовые редакторы и процессоры предоставили возможность проводить различные операции с текстами исторических источников.

графические редакторы, а также новые компьютерные технологии (мультимедийные системы), основанные на использовании сканеров, видеотехники, оптических лазерных дисков (CD-ROM), позволили хранить и анализировать изобразительные источники.

программы компьютерного картографирования и географические информационные системы (Atlas*GIS, ARC/INFO, MapInfo и др.) дали возможность воссоздавать и обрабатывать картографические источники.

"Микрокомпьютерная революция" также способствовала привлечению к анализу источников систем искусственного интеллекта (баз знаний, экспертных систем, когнитивных компьютерных моделей понимания текста, фреймовых систем и др.), в которых были смоделированы знания историков-профессионалов.

В 1990-е годы в количественном и компьютерном анализе источников наметились следующие основные тенденции. Были продолжены, начатые с 1977 г. Л.В. Миловым и Л.И. Бородкиным, источниковедческие исследования, посвященные атрибуции повествовательных источников XII–XVIII вв. На основе анализа статистики парной встречаемости грамматических классов слов были предприняты попытки установить авторство "Повести временных лет", "Слова о полку Игореве", "Писем к Фалалею" (XVIII в), определить "стилевые портреты" автора "Слова о законе и благодати" митрополита Иллариона, Кирилла Туровского, Ивана Пересветова, князя А. Курбского, царя Ивана Грозного.

С помощью пакета прикладных программ, разработанного Е.В. Злобиным, была произведена атрибуция "Записок" члена общества "Соединенных славян", декабриста И.И. Горбачевского. В результате статистического анализа, основанного на подсчете частоты встречаемости служебных слов в предложении, был сделан вывод, что автором "Записок" был другой, анонимный автор.

Такими же методами Е.В. Злобиным и А.В. Быстровым было проанализировано предсмертное письмо Б.В. Савинкова с целью установления его авторства. По версии А.И. Солженицына автором письма был агент ОГПУ Я. Блюмкин, бывший левый эсер, прославившийся участием в покушении на немецкого посла Мирбаха в 1918 г. Сравнительному анализу подверглись художественные произведения "То, чего не было", "Конь вороной", статьи и письма Б.В. Савинкова, две записки Я. Блюмкина и предсмертное письмо. Использование количественных методов в сочетании с содержательным анализом источника, позволили сделать вывод, что Я. Блюмкин не мог написать за Б.В. Савинкова его предсмертное письмо.

Украинская исследовательница И.О. Тарнопольская методом диграммной энтропии, который позволяет определить статистические связи между буквами и частоту встречаемости каждого символа в тексте в процентном соотношении, а также парную встречаемость этих символов, исследовала исторический труд XVII в. "Синопсис", созданный в Киево-Печерской Лавре и приписываемый И. Гизелю. Расхождения в коэффициентах диграммной энтропии позволили сделать вывод, что в создании "Синопсиса" принимали участие четыре автора.

Вторым направлением обработки текстовых источников стало использование метода контент-анализа для выявления скрытого смысла текста источника или характеристики мировоззрения, психологических черт и менталитета автора источника. Например, А.В. Быстров использовал компьютерный контент-анализ мемуаров о Б.В. Савинкове для составления его психологического портрета и характеристики его поведения в момент гибели. Подсчет частоты встречаемости в мемуарах современников психологических оценок Б.В. Савинкова (наиболее частые оценки "живой", "артистичный", "обаятельный") позволил сделать вывод о том, что Савинков принадлежал к истероидному (артистическому) психологическому типу. Поэтому он сам являлся организатором своей гибели, будучи "режиссером" и "исполнителем" самоубийства 7 мая 1925 года. Тем самым предположение А.И. Солженицына о том, что Савинков был выброшен охранниками в лестничный пролет внутренней Лубянской тюрьмы не нашло своего подтверждения. Работы А.В. Быстрова дают пример плодотворного сочетания количественных и психологических методов обработки исторических источников.

Метод контент-анализа был значительно усложнен В.И. Тихоновым при обработке личных дел граждан, лишенных избирательных и других социальных прав в 20-е гг., т. н. "лишенцев". С помощью специально разработанной методики статистической категоризации были выделены 80 категорий по таким направлениям, как утверждение трудового и отрицание "нетрудового" статуса, сетования на нелегкую жизнь и оправдание "нетрудовой" деятельности. Затем при помощи статистического пакета SPSS была проведена автоматическая группировка и методом кластер-анализа были выделены 5 типов заявлений лишенцев, в которых группировались общие представления лишенцев о том, кто в СССР достоин избирательных прав (люди занимающиеся "общественно-полезным трудом", не использующие наемный труд, получавшие "нетрудовые доходы" в незначительном количестве и др.). Затем методом дискриминантного анализа заявлений лишенцев были выявлены общие и особенные черты принятия решений чиновниками избирательных комиссий Москвы об отказе или восстановлении гражданских прав. Был сделан вывод о том, что восстановление в правах проходило в силу хозяйственных причин, однако бывшим крупным торговцам, священникам и представителям эксплуататорских классов в восстановлении всегда отказывалось.

Третьим направлением применения количественных методов стала обработка массовых источников методами многомерного статистического анализа. Например, российский ученый С.Г. Кащенко с помощью методов анализа вариационных рядов, выборочного метода и корреляционного анализа исследовал массовые источники по реформе 1861 г. Санкт-Петербургской, Псковской и Новгородской губерний – уставные грамоты, выкупные акты и др. С.В. Воронкова применила корреляционный и кластерный анализ к массовым источникам по истории промышленности России начала ХХ века – промышленным переписям 1900, 1908 и 1910–1912 гг. Количественный анализ позволил исследователям уточнить выводы традиционной историографии по проведению реформы в северо-западных губерниях России в 1861 г. и развитию российской промышленности в 1900–1912 гг.

Белорусский историк А.Г. Кохановский на основании обработки методами многомерного статистического анализа опубликованных итогов переписи 1897 г., данных поземельных переписей 1877 и 1905 гг., военно-конских переписей 1888 и 1900 гг. и других статистических источников провел изучение социально-классовой структуры народонаселения Беларуси во второй половине XIX в. Исследователь выделил 20 количественных признаков, фиксирующих удельный вес основных социальных групп населения Беларуси, и осуществил анализ взаимосвязей между ними методами корреляции и регрессии. Интерпретация матрицы коэффициентов корреляции позволила сделать вывод о слабости социальной мобильности сельскохозяйственного населения Беларуси в конце XIX в. и незначительном уровне воздействия процесса капитализации на социальную структуру деревни. Анализ регрессионных моделей позволил выделить результирующие (зависимые) признаки: удельный вес занятого в промышленности населения, сельских жителей, занятых несельскохозяйственными промыслами, грамотного населения и др. С помощью метода главных компонент (разновидности факторного анализа) было проведено сравнительное изучение 35 белорусских уездов и выделено три основных фактора, влияющих на социальную структуру населения. На завершающем этапе работы был использован агломеративно-иерархический метод кластерного анализа, который позволил выделить 4 региональных типа уездов, близких между собой по социально-классовой структуре. Применение методов многомерного статистического анализа дало возможность проранжировать уезды по уровню их социального развития.

Обработка массовых источников методами многомерного статистического анализа в настоящее время все чаще проводится с использованием таких информационных технологий, как электронные таблицы и статистические пакеты.

Четвертым направлением в применении количественных методов и информационных технологий стала обработка источников с помощью реляционных и полнотекстовых баз данных. Белорусскими исследователями В.Е. Кудряшовым и О.Л. Липницкой были введены базы данных и обработаны массовые исторические источники – пописы войска Великого княжества Литовского 1528, 1565 и 1567 гг., материалы Литовской Метрики.В.Е. Кудряшов с помощью СУБД Access 7.0 обработал реестр подымного налогообложения Оршанского повета Великого княжества Литовского 1667 г. Исследователю удалось выделить в высоко структурированном источнике три основных категории налогоплательщиков: шляхта, духовенство и "люди простого стану" – мещане и татары. Статистический анализ показал, что между титулом налогоплательщика, занимаемой им государственной должностью и размером его землевладения существует прямая корреляция. На основании расчета средних статистических величин – моды и медианы исследователем было установлено, что типичный налогоплательщик Оршанского повета носил титул "пан" и имел всего 1 дым. Рассчитан был также коэффициент Джини, величина которого позволила сделать вывод о высокой степени концентрации недвижимости в руках небольшой группы крупных землевладельцев.

Е.Я. Павлова на основании списков личного состава отрядов и бригад за период 1942–1944 гг. составила базу данных по партизанам Минской и Бресткой областей, которую обработала с помощью электронных таблиц Excel и СУБД Access. На основании анализа был установлен удельный вес различных национальностей партизан, их образовательный уровень, партийность, удельный вес партизан-женщин и молодежи. М.А. Войтович составил базу данных по 6 инвентарям владения Тимковичи Новогрудского воеводства и проанализировал эволюцию денежных и натуральных повинностей крестьян за период с 1622 по 1761 гг.

На основании накопленного опыта по применению количественных методов и информационных технологий для анализа исторических источников, можно сделать вывод, что новые методы, дающие дополнительные возможности в изучении памятников прошлого, эффективнее всего использовать в сочетании с традиционными методами источниковедческого исследования.

ЛИТЕРАТУРА

Белова Е.Б., Бородкин Л.И., Гарскова И.М., Изместьева Т.Ф., Лазарев В.В. Историческая информатика. М., 2006.

Методы количественного анализа текстов нарративных источников. М., 2003.

От Нестора до Фонвизина. Новые методы определения авторства / Под ред. Л.В. Милова, М., 2004.

Сидорцов В.Н., Балыкина Е.Н. и др. Историческая информатика. Мн., 2008.