Эффективная технология работы с растущими потоками несистематизированной текстовой информации
Эффективная технология работы с растущими потоками несистематизированной текстовой информации
Кто из аналитиков не сталкивался в своей работе с задачей поиска нужной информации в больших информационных массивах и, в частности, с работой поисковых систем в Интернете. Уровень сервисных услуг, предоставляемых поисковой машиной, обычно оценивается по двум критериям: это размер базы данных поисковой машины (чем больше база данных, тем большее количество сайтов известно данному поисковику, а следовательно, тем точнее поиск) и информативность выдаваемых результатов. Конечно, зарубежные поисковые машины, такие, как Alta-Vista, Lycos и HotBot, превосходят любой из существующих российских поисковых сервисов по размеру базы данных, поскольку пытаются охватить весь мировой Интернет. Как гласит опубликованное в научном журнала Nature исследование, максимальный охват адресов в Интернете - 16% - сегодня обеспечивает поисковая система Nothern Light, за ней - 15,5% - следует Alta Vista, а на третьем месте - 11,3% - Hotbot.
Поисковые системы соревнуются в увеличении размера базы даных.
Поисковая система под амбициозным названием Alltheweb (что соответствует русскому "всясеть") официально стартовала 3.08.99 в Интернете. Об этом сообщила информационная служба корпорации BBC.
Норвежская компания Fast Search and Transfer ASA - разработчик новой системы сообщила, что система скоро охватит ищущим виртуальным оком все 100% web-адресов Всемирной паутины. Пока ей удается "видеть" только четверть, что тоже очень неплохо по сравнению с достижениями существующих поисковых систем.
Охват системой Alltheweb всего пространства Всемирной паутины должен случиться к концу 2000 года - а к тому времени при нынешних темпах развития сети количество сайтов достигнет 1 миллиарда. Fast утверждает, что новая система сегодня просматривает 200 млн сайтов за 1 секунду, в то время как конкурирующие системы способны провести поиск по тому же количеству страниц за несколько часов, а то и дней. "Небольшие поисковые системы просто пропускают какое-то количество веб-сайтов, а иногда просто множество сайтов не включены в их поисковые каталоги", - говорит Эспен Бродин, президент и исполнительный директор Fast.
Решив хотя бы поверхностно поэкспериментировать с новой поисковой системой, корреспондент газеты "Время" обнаружила, что на слово gazprom система отреагировала 16651 документом, подчеркнув, что затратила на поиск 0,106 секунды. Alta Vista провела аналогичный поиск за не называемое ею время (но тоже довольно быстро) и нашла 5653 документа. А на запрос Gorbachev Alltheweb выдала 43142 документа (потратив 0,1 секунды), в то время как Alta Vista отыскала 1563 документа.
Я продолжил эксперимент с русскоязычными поисковыми машинами. На слово “газпром” Rambler нашел 30212 документов, Яndex – 133787 документов на 1813 сайтах, а Апорт обнаружил 1500 материалов на 339 сайтах. Вероятно, точное количество найденных документов Апортом не указывается, если их число перевалило за 1500. Ответ на запрос “Горбачев” был следующим: Rambler - 11079 документов, Яndex – 27762 (1035 сайтов), Апорт – опять 1500 (650 сайтов).
Российский Интернет сегодня составляет менее 1% от мирового и охватывает около 2 млн. пользователей. Но и эта немаленькая цифра неуклонно растет. Сеть увеличивается как по широте охвата, так и по объему хранящейся в ней информации, которая распределяется по миллионам компьютеров.
Интернет-пространство расширяется (по некоторым оценкам объем информационных массивов мирового Интернета увеличивается примерно на миллион страниц в день) Поисковые системы стараются адекватно реагировать, наращивая и скорость выполнения поиска, и величину охвата Интернет пространства. Логичным результатом явилось увеличение числа ссылок на Интернет ресурсы в результате поиска.
Всем понятно, что поиск может считаться хорошим, если удается найти нужную информацию на одной из первых страниц с результатами поиска. В этом смысле очень важна грамотная сортировка по релевантности.
Приведем перечень основных критериев, которые учитывает, к примеру, система Апорт-2000 при сортировке документов (сайтов):
1) количество искомых слов в тексте документа (в процентах) расстояние между поисковыми словами в тексте документа
2) место в тексте, где встречаются поисковые слова (заголовок, описание, мета-таг и т.п.)
3) внешний вид шрифта, которым набраны в тексте искомые слова (размер, жирность, цвет)
4) количество ссылок из Интернета на данный документ
5) использование искомого слова в тексте ссылок из Интернета на данный документ
Окончательный процент соответствия документа запросу строится как некая функция от всех этих показателей. Часть из них просты и понятны (хотя учитываются далеко не всеми поисковыми машинами), часть требует пояснения, поскольку это новые, практически уникальные решения.
Не секрет, что некоторые сайты создаются именно с учётом дальнейшей эффективной индексации поисковыми машинами. Удачная индексация - это целый комплекс действий. Её нужно учитывать еще при создании сайта. Многое зависит от правильности написания кода с учётом специальных тегов. Но и это не всё. Профессионалы, например, предлагают целый комплекс мер (законных!), который позволяет оказаться в первых страницах результатов поиска (!) практически независимо от истинного информационного содержания Web-страниц. Искусственное завышение ценности информационного ресурса, несомненно, сказывается на результатах поиска, и затрудняет работу аналитика.
Исследования показали, что пользователь может просмотреть не более 40 найденных в результате поиска материалов, а поисковые машины выдают порой сотни, тысячи, десятки и сотни тысяч ссылок, просмотреть которые в разумные сроки не представляется возможным.
Серьезность проблем очевидна.
Обычно данная проблема решается ужесточением условий поиска. Распространено мнение: “Лучше потратить значительное время на формулировку запроса. Зато получить выборку нужных документов”.
Абсолютно верная позиция, если ищешь документ, в существовании которого в данном массиве полностью уверен. Если же ответ на поставленный вопрос содержится в распределенном виде во многих документах, очень четкий запрос позволит получить, скорее всего, заранее подготовленную кем-то информацию на заданную тему: аналитические статьи, обзоры. Аналитику, не имея возможности получить первичную информацию, сложно оценить достоверность сделанных выводов и неангажированность авторов материалов. Ценность полученной в результате запроса информации весьма спорна. И это при том, когда известны ключевые слова для поиска, что тоже не всегда возможно.
Кто из сотрудников аналитических служб не сталкивался с ситуацией, когда начальство не может четко сформулировать задание. Ситуация как в сказке: пойди туда не знаю куда, принеси то не знаю что. На закономерную просьбу аналитика об уточнении запроса и выделения ключевых понятий следует ответ: “Это ты мне должен сказать, какие там ключевые понятия и фигуры, а мне надо знать, что сейчас происходит в данной отрасли или регионе, предприятии и т.п.”.
Хочешь, не хочешь, приходится начинать с самых общих запросов, постепенно сужая область поиска. Подход правильный, но уж больно трудоемкий – приходится просмотреть сотни материалов, а некоторые из них внимательно прочесть. Данная работа может растянуться на дни. А вопрос порой требует оперативного ответа. Одно из двух: либо страдает оперативность, либо достоверность.
Предлагается совершенно иной метод работы с неструктурированной текстовой информацией.
Существенное отличие предлагаемой системы от обычных информационно-поисковых систем заключается в том, что для быстрого анализа содержания документа каждая ссылка на данный ресурс сопровождается т.н. электронной аннотацией (на самом деле информационный образ документа, формируемый лингвостатистическими методами). При этом электронная аннотация представляет собой самостоятельный информационный объект с новыми, уникальными свойствами, которая формируется предварительно, причем полностью автоматически без вмешательства оператора.
Назначение аннотации: с одной стороны, быстро, не читая весь текст, оценить его содержание и определить соответствие текста заданным параметрам поиска. С другой стороны, с ее помощью выделить ключевые события, факты, имена собственные, раскрыть наиболее значимые факторы и системные взаимосвязи анализируемой проблемы.
При наличии недельного опыта эксплуатации у пользователя активно включается в работу подсознание, появляются навыки интегрального, качественного восприятия информации. При этом текстовые фрагменты объемом в сотни строк анализируются в течение 2-3 секунд. Подобная скорость “сканирования информационного пространства” обуславливает появление совершенно нового взгляда на проблему информационного поиска, выборки и фильтрации текстовых сообщений.
Аналитик, специализирующийся в узкой предметной области просто обязан знать наперечет все значимые для его специализации источники информации и способен самостоятельно отслеживать все их обновления и изменения. К сожалению, существующее положение дел не позволяет ни аналитикам отделов маркетинга, ни тем более управленцам ограничиваться специализацией только в своей производственной сфере. Сегодня бизнес слишком политизирован и криминализирован. Для успешного ведения бизнеса и адекватного ответа на внешние воздействия приходится отслеживать изменения множества параметров. Особенно это касается организаций, имеющих разветвленную (холдинговую) структуру, градообразующих предприятий и предприятий федерального уровня.
На любом более - менее крупном предприятии имеется несколько структур (отделов), которые в своей работе регулярно сталкиваются с необходимостью получения оперативных ответов на вопросы из самых разных профессиональных областей (порой, совершенно не предсказуемых).
1. Для службы безопасности особенно актуальны анализ надежности новых партнеров и их окружения, мониторинг состояния постоянных партнеров и текущих проектов, оценка и прогноз рисков и т.д. Как известно, около тридцати процентов секретной и до десяти процентов совершенно секретной информации содержится в открытой информации. Возможность эффективно “просеивать” огромные массивы общедоступной информации (например, архивы материалов центральных средств массовой информации за несколько лет) позволяет оперативно получить комплексный портрет предприятия или физического лица (политика, бизнесмена) и всего его окружения, собрать воедино все фрагменты, не упуская специфических нюансов.
2. Для отдела стратегического планирования и управления важен анализ деятельности предприятия, макроэкономический анализ и прогнозирование состояния страны и собственного сегмента рынка, расширение и диверсификация сфер бизнеса, разработка оптимальных маркетинговых и бизнес-стратегий развития и т.д. Невозможно держать в штате столь большое число специалистов в соответствующих областях. На первый план выходят как раз специалисты по работе с информацией и современные эффективные информационные технологии.
3. Более подробно рассмотрим работу аналитика для отдела инвестиций.
Информационно-аналитическое обеспечение процедуры инвестиционного проектирования, в котором проводится анализ характеристик рынков рассматриваемой в проекте продукции (ответ на первую группу вопросов: почему данный товар, по данной цене и в данном объеме будет куплен у данного предприятия):
- анализ достоверности предлагаемой идеи, и оценка риска инвестиционного предложения; исследование параметров инвестиционного проектами проверка данных его маркетинговой части на соответствие реальным характеристикам отрасли и предприятия;
- оценка товарных потоков для заданного сегмента рынка;
- оценка социально-политической и общей экономической обстановки и перспектив ее развития;
- оценка состояния и перспектив развития законодательной и налоговой базы;
- исследование рынков продукции, сырья и материалов и прогнозирование их динамики;
- статистический анализ спроса и сбытовых возможностей основных участников рынка;
- синтез региональной рыночной стратегии.
Оценка способности предприятия реализовать инвестиционный проект (ответ на вторую группу вопросов: способны ли специалисты данного предприятия организовать реализацию данного проекта на данном предприятии, производить товар требуемого качества и организовать систему сбыта в требуемом объеме):
- оценка системы управления кадровым составом и анализ систем мотивации;
- анализ системы сбыта предприятия, существующей дилерской сети и сети и торговых представителей;
- разработка конкурентоспособной ценовой политики;
- выработка предложений по организации эффективных каналов сбыта продукции и систем поддержки продаж
- анализ производственного и воспринимаемого качества продукции;
- выявление и “расшивка” узких звеньев технологической цепи, анализ и модернизация системы правления качеством сырья, комплектующих изделий и производимой продукции.
Прединвестиционная подготовка предприятия (ответ на третью группу вопросов: какая реструктуризация организационной и технологической структуры производства необходима для успешной реализации проекта):
- оценка отношения к реализации проекта федеральных и региональных властей, влиятельных региональных и федеральных общественно-политических объединений;
- оценка необходимости проведения и состав мероприятий по подготовке общественного мнения к реализации инвестиционного проекта;
- обеспечение организационно-правового статуса предприятия для привлечения прямых инвестиционных ресурсов;
- концентрация больших пакетов акций предприятия для продажи;
- создание инфраструктуры сопровождения инвестиций и их страховки от “политических” рисков;
- работа с кредиторами, оптимизация структуры долговых обязательств и очистка предприятия от долгов бюджетного характера;
- оценка надежности партнеров предприятия и построение системы противодействия влиянию криминальных структур;
- построение системы гарантийных обязательств, предоставляемых инвестору, и гарантий возврата инвестиционных ресурсов;
- построение системы физической безопасности участников проекта и предприятий, на которых реализуются инвестиционные программы;
- построение эффективных систем управления, принятия решений и мотивации.
Управление реализацией инвестиционного проекта (ответ на четвертую группу вопросов: каково состояние проекта в любой момент времени и каковы меры по компенсации изменения внешних условий или нарушений проектной динамики реализации проекта).
- мониторинг текущей экономической и общественно-политической ситуации и прогнозирование ее развития;
- контроль и управление реализацией проекта на всех этапах для оперативного реагирования на внештатные ситуации в случае нарушений планового развития проекта;
- разработка предложений по адекватному реагированию на изменение внешней для инвестиционного проекта экономической и общественно-политической обстановки и своевременному внесению изменений в проект, вплоть до его полной реорганизации.
Большая часть вышеперечисленных работ требует сбора и анализа информации из разных областей знания, подключения специалистов разных профилей или же использования передовых информационных технологий.
Один аналитик, эксплуатирующий систему, позволяющую формировать интегральные образы текстовых материалов, способен :
- в течение 5-10 минут оценить имеется ли искомая информация в базе данных, степень детализации отдельных аспектов проблемы, качество возможного ответа на поставленный вопрос;
- в течение 1-2 часов подготовить качественный обзор изучаемой проблемы, не будучи специалистом в исследуемой предметной области, справку о событии или явлении с учетом основных существующих точек зрения;
- в течение рабочего дня сформировать заготовку полновесного серьезного аналитического отчета с “сеткой” возможных выводов и рекомендаций, а также полноценное досье на политического, общественного деятеля, руководителя крупного предприятия.
Список литературы
Шаталов А.В. Эффективная технология работы с растущими потоками несистематизированной текстовой информации
Для подготовки данной применялись материалы сети Интернет из общего доступа