Понятие text mining. Text Mining. Основные задачи Text Mining Text Mining – это алгоритмическое выявление прежде не известных связей и корреляций в уже имеющихся текстовых. Автоматизация извлечения информации

Я не думаю, что открою Америку, если скажу, что не вся информация одинаково полезна. Иногда для объяснения какого-то понятия необходимо написать много текста, а иногда для объяснения сложнейших вопросов достаточно посмотреть на простую диаграмму. Для сокращения избыточности информации были придуманы математические формулы, чертежи, условные обозначения, программный код и т.д. Кроме того, важным является не только сама информация, но и ее представление. Понятно, что котировки акций более наглядно можно продемонстрировать с помощью графика, а математические формулы опишут законы Ньютона в более компактном виде.

В процессе развития информационных технологий, а также систем сбора и хранения данных - баз данных (databases), хранилищ данных (data warehousing), и с недавних пор, облачных репозиториев, возникла проблема анализа больших объемов данных, когда аналитик или управленец не в состоянии вручную обработать большие массивы данных и принять решение. Понятно, что аналитику необходимо каким-то образом представить исходную информацию в более компактном виде, с которой может справится человеческий мозг за приемлемое время.

Выделим несколько уровней информации:

исходные данные (сырые данные, исторические данные или просто данные) – необработанные массивы данных, получаемые в результате наблюдения за некой динамической системой или объекта и отображающие его состояние в конкретные моменты времени (например, данные о котировках акций за прошедший год);
информация – обработанные данные, которые несут в себе некую информационную ценность для пользователя; сырые данные, представленные в более компактном виде (например, результаты поиска);
знания - несут в себе некое ноу-хау, отображают скрытые взаимосвязи межу объектами, которые не являются общедоступными (в противном случае, это будет просто информация); данные с большой энтропией (или мерой неопределенности).

Рассмотрим пример. Допустим, у нас есть некие данные о валютных операциях на рынке Forex за определенный промежуток времени. Эти данные могут хранится в текстовом виде, в XML формате, в базе данных или в бинарном виде и сами по себе не несут никакой полезной смысловой нагрузки. Далее аналитик загружает эти данные, к примеру, в Excel и строит график изменений, таким образом получая информацию. Дальше он загружает данные (полностью или частично обработанные в Excel), например, в Microsoft SQL Server и с помощью Analysis Services получает знание о том, что завтра акции лучше продать. После этого аналитик может использовать уже полученные знания для новых оценок, таким образом получив обратную связь в информационном процессе.

Между уровнями нет четких граней, но такая классификация позволит нам в дальнейшем не запутаться с терминологией.

Data Mining

Исторически сложилось, что у термина Data Mining есть несколько вариантов перевода (и значений):

извлечение, сбор данных, добыча данных (еще используют Information Retrieval или IR);
извлечение знаний, интеллектуальный анализ данных (Knowledge Data Discovery или KDD, Business Intelligence).

IR оперирует первыми двумя уровнями информации, соответственно, KDD работает с третьим уровнем. Если же говорить о способах реализации, то первый вариант относится к прикладной области, где главной целью являются сами данные, второй - к математике и аналитике, где важно получить новое знание из большого объема уже имеющихся данных. Чаще всего извлечение данных (сбор) является подготовительным этапом для извлечения знаний (анализ).

Осмелюсь ввести еще один термин для первого пункта - Data Extracting , который буду использовать в дальнейшем.

Задачи, решаемые Data Mining:

Классификация - отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов.
Кластеризация - разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга.
Сокращение описания - для визуализации данных, упрощения счета и интерпретации, сжатия объемов собираемой и хранимой информации.
Ассоциация - поиск повторяющихся образцов. Например, поиск «устойчивых связей в корзине покупателя».
Прогнозирование – нахождение будущих состояний объекта на основании предыдущих состояний (исторических данных)
Анализ отклонений - например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы.
Визуализация данных.

Information retrieval

Information retrieval используется для получения структурированных данных или репрезентативной выборки меньшего размера. По нашей классификации information retrieval оперирует данными первого уровня, а в результате выдает информацию второго уровня.

Самым простым примером information retrieval является поисковая система, которая на основании неких алгоритмов выводит часть информации из полного набора документов. Кроме того, любая система, которая работает с тестовыми данными, метаинформаций или базами данных тем или иным способом использует инструменты information retrieval. Инструментами могут выступать методы индексации, фильтрации, сортировки данных, парсеры и т.д.

Text Mining

Другие названия: text data mining, text analysis, очень близкое понятие – concern mining.

Text mining может работать как с сырыми данными, так и с частично обработанными, но в отличие от information retrieval, text mining анализирует текстовую информацию с помощью математических методов, что позволяет получать результат с элементами знания.

Задачи, которые решает text mining: нахождение шаблонов данных, получение структурированной информации, построение иерархий объектов, классификация и кластеризация данных, определение тематики или области знаний, автоматическое реферирование документов, задачи автоматической фильтрации контента, определение семантических связей и другие.

Для решения задач text mining используют статистические методы, методы интерполяции, аппроксимации и экстраполяции, нечеткие методы, методы контент-анализа.

Web Mining

Ну и наконец мы добрались к web mining – наборе подходов и техник для извлечения данных из веб-ресурсов.
Так как веб-источники, ка правило, не являются текстовыми данными, то и подходы к процессу извлечения данных отличаются в этом случае. В первую очередь необходимо помнить, что информация в вебе хранится в виде специального языка разметки HTML (хотя есть и другие форматы – RSS, Atom, SOAP, но об этом поговорим позже), веб-страницы могут иметь дополнительную метаинформацию, а также информацию о структуре (семантике) документа, каждый веб-документ находится внутри некого домена и к нему могут применяться правила поисковой оптимизации (SEO).

Это первая статья из цикла, посвященного data mining / extracting / web mining. Пожелания и аргументированная критика принимаются.

Статья Дмитрия Ландэ "Добыча знаний" - одна из первых прочитанных мной статей о Text Mining - которая была опубликована в журнале CHIP в октябре 2003 г.

Сырые неструктурированные данные составляют не менее 90% информации, с которой имеют дело пользователи. Найти в таких данных нечто ценное можно лишь посредством специализированных технологий.

Электронная информация играет все большую роль во всех сферах жизни современного общества. В информационных хранилищах, распределенных по всему миру, собраны террабайты текстовых данных. Развитие информационных ресурсов Интернет многократно усугубило проблему информационной перегрузки.

Исследовательская служба Cyveillance сообщила, что в еще в 2001 году общее количество страниц в Интернете превысило 4 миллиарда. Средний размер Web-страницы - 10 КБ, среднестатистическая страница содержит 23 внутренних ссылок, 5.6 - внешних и 14-15 изображений. Если к этому добавить массивы неструктурированных документов в корпоративных фаловых системах и базах данных, то легко видеть, почему многие организации заинтересованы в технологиях автоматизированного анализа и классификации информации, представленной на естественном языке. Ведь по существующим оценкам, неструктурированные данные - главным образом, текст - составляют не менее 90% информации, с которой имеют дело фирмы и организации. И лишь 10% приходится на структурированные данные, загружаемые в реляционные СУБД.

"Люди будут искать то, что они знают, обращаясь к документальным репозитариям. Однако они вообще не будут или просто не смогут выразить запросом то, чего они не знают, даже имея доступ к собранию документов", заметил Джим Нисбет, вице-президент компании Semio, которая является одним из ведущих производителей систем добычи данных. "Вид эффективного анализа текста - Text Mining - используя вычислительные мощности должен выявить отношения, которые могут приводить к добыче новых знаний пользователем."

Технология эффективного анализа текста Text Mining способна выступить в роли репетитора, который, проштудировав весь курс, преподает лишь наиболее ключевую и значущую информацию. Таким образом, пользователю незачем самому "просеивать" огромное количество неструктурированной информации. Разработанные на основе статистического и лингвистического анализа, а также искусственного интеллекта, технологии Text Mining как раз и предназначены для проведения смыслового анализа, обеспечения навигации и поиска в неструктурированных текстах. Применяя построенные на их основе системы, пользователи смогут получить новую ценную информацию - знания.

Отделяя зерна от плевел...

Не так давно ЦРУ опубликовало "План стратегических инвестиций анализа разведсообщества" (Strategic Investment Plan for Intelligence Community Analysis). В плане разведчики признают, что не использовали полностью возможности открытых источников, и теперь работа с ними должна стать "высшим приоритетом для инвестиций". Теперь в ЦРУ резонно полагают, что брать информацию из открытых источников безопаснее и дешевле, чем пользоваться разведданными. Технология глубинного анализа текста - Text Mining - это тот самый инструментарий, который позволяет анализировать большие объемы информации в поисках тенденций, шаблонов и взаимосвязей, способных помочь в принятии стратегических решений. Кроме того, Text Mining - это новый вид поиска, который в отличие традиционных подходов не только находит списки документов, формально релевантных запросам, но и помогает ответить на вопрос: "Помоги мне понять смысл, разобраться с этой проблематикой". Клод Фогель, один из основателей и главный технолог компании Semio, поясняет: "Используя аналогию с библиотекой, технология Text Mining подобна открытию книги перед читателем с почеркнутой необходимой информацией. Сравните это с выдачей читателю кипы документов и книг, в которых где-нибудь содержится информация, нужная читателю, однако найти ее будет непросто". Процесс осмысленного поиска является далеко не тривиальным, часто в коллекции документов присутствует только намек на необходимую информацию. Необходимы мощные интеллектуальные возможности, чтобы найти то, что требуется. В названии технологии слово "mining" (добыча руды) выступает как метафора нахождения глубоко "зарытой" информации.

Следует заметить, что технологии глубинного анализа текста исторически предшествовала технология добычи данных (Data Mining), методология и подходы которой широко используются и в методах Text Mining . Для добычи текстов вполне справедливо определение, данное для добычи данных одним из ведущих мировых экспертов Григорием Пятецким-Шапиро из GTE Labs: "Процесс обнаружения в сырых данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности." Как и большинство когнитивных технологий - Text Mining - это алгоритмическое выявление прежде не известных связей и корреляций в уже имеющихся текстовых данных.

Оформившись в середине 90-х годов ХХ века как направление анализа неструктурированных текстов, технология Text Mining сразу же взяла на вооружение методы классической добычи данных, такие как классификация или кластеризация. В Text Mining появились и дополнительные возможности, такие как автоматическое реферирование текстов и выделение понятий, феноменов, фактов. Возможности современных систем Text Mining могут применяться при управлении знаниями для выявления шаблонов в тексте, для автоматического "выталкивания" или размещения информации по интересующим пользователей профилям, создавать обзоры документов. Технологии Text Mining , кроме того, присуща объективность - отсутствует субъективизм, свойственный человеку-аналитику.

Важный компонент технолгоии Text Mining связан с извлечением из текста его характерных элементов или свойств, которые могут использоваться в качестве метаданных документа, ключевых слов, аннотаций. Другая важная задача состоит в отнесении документа к некоторым категориям из заданной схемы их систематизации. Text Mining также обеспечивает новый уровень семантического поиска документов.

Основы технологии Text Mining

В соответствии с уже сложившейся методологией к основным элементам Text Mining относятся суммаризация (summarization), выделение феноменов, понятий (feature extraction), кластеризация (clustering), классификация (classification), ответ на запросы (question answering), тематическое индексирование (thematic indexing) и поиск по ключевым словам (keyword searching). Также в некоторых случаях набор дополняют средства поддержки и создания таксономии (oftaxonomies) и тезаурусов (thesauri).

Александр Линден, директор компании Gartner Research, выделил четыре основных вида приложений технологий Text Mining :

Классификация текста, в которой используются статистические корреляции для построения правил размещения документов в предопределенные категории. Кластеризация, базирующаяся на признаках документов, использующая лингвистические и математические методы без использования предопределенных категорий. Результат - таксономия или визуальная карта, которая обеспечивает эффективный охват больших объемов данных. Семантические сети или анализ связей, которые определяют появление дескрипторов (ключевых фраз) в документе для обеспеченияи навигации. Извлечение фактов предназначено для получения некоторых фактов из текста с целью улучшения классификации, поиска и кластеризации.

Так сложилось, что наиболее часто встречается в Text Mining задача - это классификация - отнесение объектов базы данных к заранее определенным категориям. Фактически задача классификации - это классическая задача распознавания, где по обучающей выборке система относит новый объект к той или иной категории. Особенность же системы Text Mining состоит в том, что количество объектов и их атрибутов может быть очень большим; поэтому должны быть предусмотрены интеллектуальные механизмы оптимизации процесса классификации. В существующих сегодня системах классификация применяется, например, в таких задачах: группировка документов в intranet-сетях и на Web-сайтах, размещение документов в определенные папки, сортировка сообщений электронной почты, избирательное распространение новостей подписчикам.

Вторая задача - кластеризация - выделение компактных подгрупп объектов с близкими свойствами. Система должна самостоятельно найти признаки и разделить объекты по подгруппам. Она, как правило, предшествует задаче классификации, поскольку позволяет определить группы объектов. Различают два основных типа кластеризации - иерархическую и бинарную. Иерархическая кластеризация заключается в построении дерева кластеров, в каждом из которых размещается небольшая группа документов. Пример утилиты двоичной кластеризации приведен на сервере корпорации IBM по адресу http://www.software.ibm.com/data/iminer/fortext. Двоичная кластеризация обеспечивает группировку и просмотр документальных кластеров по ссылкам подобия. В один кластер помещаются самые близкие по своим свойствам документы. В процессе кластеризации строится базис ссылок от документа к документу, основанный на весах и совместном употреблении определяемых ключевых слов. Кластеризация сегодня применяется при реферировании больших документальных массивов, определение взаимосвязанных групп документов, упрощения процесса просмотра при поиске необходимой информации, нахождения уникальных документов из коллекции, выявления дубликатов или очень близких по содержанию документов.

Можно назвать еще несколько задач технологии Text Mining , например, прогнозирование, которое состоит в том, чтобы предсказать по значениям одних признаков объекта значения остальных.

Еще одна задача - нахождение исключений, то есть поиск объектов, которые своими характеристиками сильно выделяются из общей массы. Для этого сначала выясняются средние параметры объектов, а потом исследуются те объекты, параметры которых наиболее сильно отличаются от средних значений. Как известно, поиск исключений широко применяется, например, в работе спецслужб. Подобный анализ часто проводится после классификации, для того чтобы выяснить, насколько последняя была точна.

Несколько отдельно от задачи кластеризации стоит задача поиска связанных признаков (полей, понятий) отдельных документов. От предсказания эта задача отличается тем, что заранее не известно, по каким именно признакам реализуется взаимосвязь; цель именно в том и состоит, чтобы найти связи признаков. Эта задача сходня с кластеризацией, но не по множеству документов, а по множеству присущих им признаков.

И наконец, для обработки и интерпретации результатов Text Mining большое значение имеет визуализация. Визуализация данных подразумевает обработку структурированных числовых данных, однако она также является ключевым звеном при представлении схем неструктурированных текстовых документов. В частности, современные системы класса Text Mining могут осуществлять анализ больших массивов документов и формировать предметные указатели понятий и тем, освещенных в этих документах. Визуализация обычно используется как средство представления контента всего массива документов, а также для реализации навигационного механизма, который может применяться при исследовании документов и их классов.

Реализации систем

В настоящее время многие ведущие производители программного обеспечения предлагают свои продукты и решения в области Text mining. Как правило - это масштабируемые системы, в которых реализованы различные математические и лингвистические алгоритмы анализа текстовых данных. Они имеют развитыке графические интерфейсы, богатые возможности визуализации и манипулирования с данными, предоставляют доступ к различным источникам данных, функционируют в архитектуре клиент-сервер. Вот несколько примеров таких систем:

Intelligent Miner for Text (IBM)
TextAnalyst, WebAnalyst (Мегапьютер Интеллидженс)
Text Miner (SAS)
SemioMap (Semio Corp.)
Oracle Text (Oracle)
Knowledge Server (Autonomy)
Galaktika-ZOOM (корпорация "Галактика")
InfoStream (Информационный центр "ЭЛВИСТИ")

Ниже мы рассмотрим некоторые из этих систем более подробно.

Intelligent Miner for Text

Продукт фирмы IBM Intelligent Miner for Text представляет собой набор отдельных утилит, запускаемых из командной строки или скриптов независимо друг от друга. Эта система является одним из лучших инструментов глубинного анализа текстов. Система содержит такие основные утилиты (Tools) для построения приложений управления знаниями:

Language Identification Tool - утилита определения языка - для автоматического определения языка, на котором составлен документ.

Categorisation Tool - утилита классификации - автоматического отнесения текста к некоторой категории (входной информацией на обучающей фазе работы этого инструмента может служить результат работы следующей утилиты - Clusterisation Tool).

Clusterisation Tool - утилита кластеризации - разбиения большого множества документов на группы по близости стиля, формы, различных частотных характеристик выявляемых ключевых слов.

Feature Extraction Tool - утилита определения нового - выявление в документе новых ключевых слов (собственные имена, названия, сокращения) на основе анализа заданного заранее словаря.

Annotation Tool - утилита "выявления смысла" текстов и составления рефератов - аннотаций к исходным текстам.

IBM Intelligent Miner for Text объединяет мощную совокупность инструментов, базирующихся в основном на механизмах поиска информации (information retrieval), что является спецификой всего продукта. Система включает ряд базовых компонент, которые имеют самостоятельное значение вне пределов технологии "добычи текстов" - это информационно-поисковая система Text Search Engine, утилита сканирования Web-пространства Web crawler, Net Question Solution - решение для поиска в локальном Web-сайте или на нескольких intranet/Internet-серверах, Java Sample GUI - набор интерфейсов Java Beans для администрирования и организации поиска на основе Text Search Engine.

Intelligent Miner for Text как продукт IBM включен в комплекс "Information Integrator for Content" для СУБД DB2 вкачестве средства Information Mining ("глубинного анализа информации").

Стоимость продуктов разных уровней семейства Intelligent Miner составляет от 18 до 75 тысяч долларов.

TextAnalyst

Российская компания Мегапьютер Интеллидженс, известная своей системой PolyAnalyst класса Data Mining, разработала также систему TextAnalyst (http://www.megaputer.com/products/ta/index.php3, которая решает такие задачи Text Mining : создание семантической сети большого текста, подготовка резюме текста, поиск по тексту и автоматическая классификация и кластеризация текстов. Построение семантической сети - это поиск ключевых понятий текста и установление взаимоотношений между ними. По такой сети можно не только понять, о чем говорится в тексте, но и осуществить контекстную навигацию. Подготовка резюме - это выделение в тексте предложений, в которых чаще других встречаются значимые для этого текста слова. В 80% случаев этого вполне достаточно для получения представления о тексте. Для поиска информации в системе предусмотрено использование запросов на естественном языке. По запросу строится уникальная семантическая сеть, которая при взаимодействии с сетью документа позволяет выделить нужные фрагменты текста. Кластеризация и классификация проводятся стандартными методами добычи данных.

Система Text-Analyst, рассматривает Text Mining в качестве отдельного математического аппарата, который разработчики программного обеспечения могут встраивать в свои продукты, не опираясь на платформы информационно-поисковых систем или СУБД. Основная платформа для применения системы - MS Windows 9x/2000/NT. Существует плагин TextAnalyst для браузера Microsoft Internet Explorer.

WebAnalyst

Система WebAnalyst (http://www.megaputer.com/products/wa/index.php3) - также продукт "Мегапьютер Интеллидженс" -представляет собой интеллектуальное масштабируемое клиент/серверное решение для компаний, желающих максимизировать эффект анализа данных в Web-среде. Сервер WebAnalyst функционирует как экспертная система сбора информации и управления контентом Web-сайта. Модули WebAnalyst решают три задачи: сбор максимального количества информации о посетителях сайта и запрашиваемых ими ресурсах; исследование собранных данных и генерация персонализированного, на основе результатов исследований, контента. Решение этих задач в совокупности должно по мнению разработчиков системы привести к максимизации количества новых посетителей Web-сайта и удержанию уже имеющихся, а следовательно, увеличению популярности ресурса.WebAnalyst и способен интегрировать возможности Text Mining напрямую в web-сайт организации. Это позволяет предложить индивидуализированный, автоматизированный и целевой маркетинг, автоматический поиск и реализацию перекрестных продаж и расширить набор данных, настраиваемых пользователем. По сути WebAnalyst представляет собой интеллектуальный сервер приложений электронной коммерции.

Техническая платформа - та же, что и у TextAnalyst.

Text Miner

Американская компания SAS Institute выпустила систему SAS Text Miner для сравнения определенных грамматических и словесных рядов в письменной речи. Text Miner - весьма универсальна, поскольку может работать с текстовыми документами различных форматов - в базах данных, файловых системах и даже в Web.

Text Miner обеспечивает логическую обработку текста в среде мощного пакета SAS Enterprise Miner. Это позволяет пользователям обогащать процесс анализа данных, интегрируя неструктурированную текстовую информацию с существующими структурированными данными - такими, как возраст, доход и характер покупательского спроса. Text Miner.

Пример успешного применения логических возможностей Text Miner демонстрирует компания Compaq Computer Corp., которая в настоящее время тестирует Text Miner, анализируя более 2,5 гигабайт текстовых документов, полученных по e-mail и собранных представителями компании. Ранее обработать такие данные было практически невозможно

Программа Text Miner позволяет определять, насколько правдив тот или иной текстовый документ. Обнаружение лжи в документах производится путем анализа текста и выявления изменений стиля письма, которые могут возникать при попытке исказить или скрыть информацию. Для поиска таких изменений используется принцип, заключающийся в поиске аномалий и трендов среди записей баз данных без выяснения их смысла. При этом в Text Miner включен обширный набор документов различной степени правдивости, чья структура принимается в качестве шаблонов. Каждый документ, "прогоняемый" на детекторе лжи анализируется и сравнивается с этими эталонами, после чего программа присваивает документу тот или иной индекс правдивости. Особенно полезной программа может стать в организациях, получающих большой объем электронной корреспонденции, а также в правоохранительных органах для анализа показаний наравне с детекторами лжи, чье действие основано на наблюдении за эмоциональным состоянием человека.

Интересен пример применения Text Miner в медицине: в одной из американских национальных здравоохранительных организаций было собрано свыше 10 тыс. врачебных записей о заболеваниях сердца, собранных из клиник по всей стране. Анализируя эти данные с помощью Text Miner, специалисты обнаружили некоторые административные нарушения в отчетности, а также смогли определить взаимосвязь между сердечно-сосудистыми заболеваниями и другими недугами, которые не были определены традиционными методами.

Вместе с тем, компания SAS отмечает, что выпустит свой продукт Text Miner в основном для привлечения внимания бизнес-интеллигенции.

SemioMap

SemioMap - это продукт компании Entrieva, созданный в 1996 г. ученым-семиотиком Клодом Фогелем (Claude Vogel). В мае 1998 г. продукт был выпущен как промышленный комплекс SemioMap 2.0 - первая система Text Mining , работающая в архитектуре клиент-сервер. Система SemioMap состоит из двух основных компонент - сервера SemioMap и клиента SemioMap. Работа системы протекает в три фазы:

Индексирование; сервер SemioMap автоматически читает массивы неструктурированного текста, извлекает ключевые фразы (понятия) и создает из них индекс;
Кластеризация понятий; сервер SemioMap выявляет связи между извлеченными фразами и строит из них, на основе совместной встречаемости, лексическую сеть ("понятийную карту");
Графическое отображение и навигация; визуализация карт связей, которая обеспечивает быструю навигацию по ключевым фразам и связям между ними, а также возможность быстрого обращения к конкретным документам.

SemioMap поддерживает разбиение материала по "папкам", создание отдельной базы данных для каждой папки. Связи между понятиями, которые выявляет SemioMap, базируются на совместной встречаемости фраз в абзацах исходного текстового массива.

Центральным блоком SemioMap является лексический экстрактор - программа, которая извлекает фразы из текстовой совокупности и выявляет совместную встречаемость этих фраз (их взаимные связи). Лексический экстрактор базируется на патентованной технологии SEMIOLEX. Она реализует идеи вычислительной семиотики, науки о знаках в языковой коммуникации, разработанной Клодом Фогелем.

InterMedia Text, Oracle Text

Средства Text Mining , начиная с Text Server в составе СУБД Oracle 7.3.3 и картриджа interMedia Text в Oracle8i, являются неотъемлемой частью продуктов Oracle. В Oracle9i эти средства развились и получили новое название - Oracle Text - программмный комплекс, интегрированный в СУБД, позволяющий эффективно работать с запросами, относящимися к неструктурированным текстам. При этом обработка текста сочетается с возможностями, которые предоставлены пользователю для работы с реляционными базами данных. В частности, при написании приложений для обработки текста стало возможным использовать SQL.

Основной задачей, на решение которой нацелены средства Oracle Text, является задача поиска документов по их содержанию - словам или фразам, которые при необходимости комбинируются с использованием булевых операций. Результаты поиска ранжируются по релевантности, с учетом частоты встречаемости слов запроса в найденных документах. Для повышения полноты поиска Oracle Text предоставляет ряд средств расширения поискового запроса, среди которых можно выделить три группы. Во-первых, это расширение слов запроса всеми морфологическими формами, что реализуется привлечением знаний о морфологии языка. Во-вторых, Oracle Text допускает расширение слов запроса близкими по смыслу словами за счет подключения тезауруса - семантического словаря, а также расширение запроса словами, близкими по написанию и по звучанию - нечеткий поиск и поиск созвучных слов. Нечеткий поиск целесообразно применять при поиске слов с опечатками, а также в тех случаях, когда возникают сомнения в правильном написании - фамилии, названия организации и т.п.

Система Oracle Text обеспечивает проведение тематического анализа текстов на английском языке. В ходе обработки текст каждого документа подвергается процедурам лингвистического и статистического анализа, в результате чего определяются его ключевые темы и строятся тематические резюме, а также общее резюме - реферат.

Все описанные средства могут использоваться совместно, что поддерживается языком запросов в сочетании с традиционным синтаксисом SQL и PL/SQL для поиска документов. Oracle Text предоставляет возможность работать с современными реляционными СУБД в контексте сложного многоцелевого поиска и анализа текстовых данных.

Возможности обработки текстовой информации на русском языке в Oracle Text достаточно ограничены. Для решения этой проблемы компанией "Гарант-Парк-Интернет" было разработан модуль Russian Context Optimizer (RCO), предназначенный для совместного использования с interMedia Text (или Oracle Text). Помимо поддержки русскоязычной морфологии, RCO включает в себя средства нечеткого поиска, тематического анализа и реферирования документов.

Autonomy Knowledge Server

Архитектура системы компании Autonomy, известной своими разработками в области статистического контент-анализа, объединяет интеллектуальный парсинг по шаблонам со сложными методами контекстного анализа и извлечения смысла для решения задач автоматической классификацию и организации перекрестных ссылок. Основное преимущество системы Autonomy - мощные интеллектуальные алгоритмы, основанные на статистической обработке. Эти алгоритмы базируются на информационной теории Клода Шаннона, Байесовых вероятностях и нейронных сетях.

Концепция адаптивного вероятностного моделирования (APCM) позволяет системе Autonomy идентифицировать шаблоны в тексте документа и автоматически определять подобные шаблоны во множестве других документов.

Важный момент в системе Autonomy Knowledge Server - это возможность анализа тектов и идентификации ключевых концепций в пределах документов путем анализа корреляции частот и отношений терминов со смыслом текста. Компонета системы Autonomy - Agentware использует уникальную технологию анализа шаблонов (нелинейная адаптивная цифровая обработка сигнала) для извлечения из документов смысла и определения характеристик, содержащихся в текстах. APCM позволяет идентифицировать уникальные "сигнатуры" смысла текста, а также создавать агентов концепций, с помощью которых ищутся подобные по смыслу записи на Web-сайтах, в новостях, архивах электронной почты и в других документах. Поскольку система не базируется на предопределенных ключевых словах, она может работать с любыми языками.

Ядро системы агентов Autonomy - это механизм динамического рассуждения (DRE), основанный на технологии обработки шаблонов, в которой используются методы нейронных сетей, получившие стартовое развитие в родительской компанией Автономии, Neurodynamics. В DRE используется концепция адаптивного вероятностного моделирования для реализации четырех главных функций: выявления концепции, создание агента, обучение агента и стандартный поиск текста. DRE воспринимает запросы на естественном языке, или термины, связанные булевыми операторами, и возвращает список документов, упорядоченных по релевантности запросу. Этот механизм является основой всех продуктов системы агентов от Autonomy. Описание сервера знаний (Knowledge Server) компании Autonomy приведено по адресу http://www.autonomy.com/tech/whitepaper.pdf .

Galaktika-ZOOM

Система Galaktika-ZOOM - продукт российской корпорации "Галактика". Основное назначение системы - интеллектуальный поиск по ключевым словам с учетом морфологии русского и английского языков, а также и формирование информационных массивов по конкретным аспектам. При этом объемы информации могут достигать сотен гигабайт. Именно ориентация на большие информационные объекты - сообщения и статьи СМИ, отраслевую печать, нормативную документацию, деловую переписку и материалы внутреннего документооборота предприятия, информацию из Интернет. При этом система предоставляет определенный инструментарий для анализа объективных смысловых связей отобранных данных и формирования "образа" проблемы - многомерной модели в информационном потоке в форме ранжированного списка значимых слов, употребляемых совместно с темой проблемы. Большое внимание в системе уделено выявлению тенденций динамики развития изучаемой проблемы. Система содержит конверторы часто встречающихся форматов: простой текст, RTF, DOC, HTML. Galaktika-ZOOM функционирует в среде ОС Windows 2000.

InfoStream

Охват, обобщение больших динамических информационных массивов, непрерывно генерируемых в Cети, потребовал качественно новых подходов. Возникла необходимость создания методов мониторинга информационных ресурсов, тесно связанных с методологией контент-анализа - контент-мониторинга. Для получения качественных и количественных срезов такой мониторинг должен производится постоянно на протяжении не определенного заранее времени. Для решения этой задачи в Украине в Информационном центре "ЭЛВИСТИ" разработана технология InfoStream™. Программно-технологические средства InfoStream включают три основные составляющие:

центр сбора и обработки информации;
центр организации интерактивного доступа к базам данных;
центр контент-мониторинга.

Ядром механизма обработки контента InfoStream является полнотекстовая информационно-поисковая система InfoReS. Технология позволяет создавать полнотекстовые базы данных и осуществлять поиск информации, формировать тематические информационные каналы, автоматически рубрицировать информацию, формировать дайджесты, таблицы взаимосвязей понятий (относительно встречаемости их в сетевых публикациях), гистограммы распределения весовых значений отдельных понятий, а также динамики их встречаемости по времени. Технология InfoStream позволяет обрабатывать данные в форматах MS WORD (DOC, RTF), PDF, и всех текстовых форматов (простой текст, HTML, XML). Системы на основе InfoStream в настоящее время функционируют на платформах таких ОС: FreeBDS, Linux, Solaris.

Заглянем в будущее

Не так давно Центральное Разведывательное Управление США представило широкой публике свои технологии "добычи данных", используемые для поиска информации в текстах, радио- и телепередачах.Отдел современных информационных технологий, входящий в состав управления науки и техники Центрального разведывательного управления США, продемонстрировал общественности технологии "извлечения текстовых данных" ("Text Data Mining"), используемые для поиска значимой информации в огромной массе документов и в радио- и телепередачах на различных языках. Поиск ведется как по систематизированным, так и по случайным источникам, причем объектами поиска являются тексты в печатных изданиях и в цифровом виде, графические изображения, аудиоинформация на 35 языках. Для отсеивания аудиоинформации используется методика "Oasis", которая распознает речь и превращает ее в текст. При этом технология позволяет отделять мужские голоса от женских, а также голоса, принадлежащие разным людям, и записывать их в виде диалогов. Методика "Oasis" позволяет выделять из аудиопотока только те голоса или ту конкретную информацию, которая заложена в настройках поиска.

Другая компьютерная технология под названием Fluent позволяет подразделениям ЦРУ искать информацию в текстовых документах. Эта технология подразумевает поиск по ключевым словам, причем вводится слово или сочетание на английском языке, которое тут же переводится на целый ряд других языков, и найденная информация из базы данных на разных языках поступает исследователю после автоматического перевода. Еще одна программа, Text Data Mining, позволяет автоматически создавать предметные указатели для текстовых документов, а также получать данные по частоте употребления тех или иных слов в документах. Эти технологии ЦРУ использует сегодня в отслеживании незаконных финансовых операций и наркотрафика.

Назваными выше технологиями занимается отдел Advanced Information Technology (AIT) Директората науки и технологии ЦРУ. "Мы развиваемся не так быстро, чтобы поспеть за стремительным ростом информационных потоков, стекающихся сюда каждый день, - сказал директор AIT Ларри Ферчайлд (Larry Fairchild) - Мы должны снабжать сотрудников технологией, которая поможет им справиться с гигантскими объемами оперативно обрабатываемых данных".

В плане профессионального использования инструментов Text Mining ЦРУ - далеко не монополист. По прогнозам аналитической компании IDC, спрос на подобные программы существенно возрастет в течение ближайших 4-5 лет. Так, к 2005 году ожидается повышение прибылей от такого ПО с $540 млн. (в 2002 году) до полутора миллиардов долларов. Такие возможности, как экспресс-анализ найденной информации, информационная разведка (добыча разрозненной прямой и косвенной информации по некоторой проблеме), формирование и ведение тематических досье с возможностью выявления тенденций и взаимосвязей персон, событий, процессов уже используются рядом крупных предприятий и наверняка будут востребованы в дальнейшем.

К 2006 году такого рода программы станут доминирующими при анализе информации от клиентов в компаниях любого уровня, будь то телефонные центры поддержки, интернет-агентства или аналитические агентства, утверждает эксперт Алессандро Занаси (Alessandro Zanasi), ранее сотрудник META Group. Кадровые отделы будут использовать программы класса text mining для поиска резюме, подходящих по сложной сетке показателей. А маркетинговые подразделения найдут применение таким программам в качестве анализаторов ситуации на рынке, отслеживающих тенденции, положение конкурентов и другие показатели на основе информации и самых разных источников - новостных лент, отчетов о НИР, обзоров, патентов.

Технологии анализа данных (Text Mining, Data Mining)

Руководитель : Баяндин Николай Иванович.

Образовательное учреждение : Федеральное государственное бюджетное учреждение высшего профессионального образования "Московский государственный университет экономики, статистики и информатики (МЭСИ)", г. Москва

Кто владеет информацией - тот владеет миром. В наше время трудно переоценить значение аналитики и мониторинга социальных медиа. Для быстрого и успешного развития бизнеса и эффективного продвижения в интернет, эти этапы просто необходимы.

На сегодняшний день, всё большую популярность приобретают задачи, связанные с получением и накоплением новых знаний путём анализа ранее полученной информации. Возникла необходимость в создании больших хранилищ данных и систем поддержки принятия решений.

Рассмотрим подробнее технологию анализа данных.

Наиболее перспективные направления анализа данных:

·анализ текстовой информации

·интеллектуальный анализ данных

1. Анализ текстовой информации Text Mining

Анализ структурированной информации, хранящейся в базах данных, требует предварительной обработки: проектирования БД, ввод информации по определенным правилам, размещение ее в специальных структурах (например, реляционных таблицах) и т.п. Текстовые документы практически невозможно преобразовать в табличное представление без потери семантики текста и отношений между сущностями. По этой причине такие документы хранятся в БД без преобразований, как текстовые поля (BLOB-поля). В это же время в тексте скрыто огромное количество информации, но ее неструктурированность не позволяет использовать алгоритмы Data Mining. Решением этой проблемы занимаются методы анализа неструктурированного текста (Text Mining).

Определение Text Mining: Обнаружение знаний в тексте - это нетривиальный процесс обнаружения действительно новых, потенциально полезных и понятных шаблонов в неструктурированных текстовых данных. "Неструктурированные текстовые данные" - набор документов, представляющих собой логически объединенный текст без каких-либо ограничений на его структуру (web-страницы, электронная почта, нормативные документы).

Процесс анализа текстовых документов можно представить как последовательность нескольких шагов:

Поиск информации. В первую очередь необходимо понять, какие документы нужно подвергнуть анализу плюс обеспечить доступ. Пользователи могут определить набор анализируемых документов самостоятельно - вручную.

Предварительная обработка документов. Выполняются необходимые преобразования с документами для представления их в нужном виде. Удаление лишних слов и придание тексту более строгой формы.

Извлечение информации. Выделение ключевых понятий для анализа.

Применение методов Text Mining. Извлекаются шаблоны и отношения, имеющиеся в текстах.

Интерпретация результатов. Представлении результатов на естественном языке, или в их визуализации в графическом виде.

Предварительная обработка документа

Удаление стоп-слов. Стоп-словами называются слова, которые являются вспомогательными и несут мало информации о содержании документа.

Стэмминг - морфологический поиск. Он заключается в преобразовании каждого слова к его нормальной форме.

Л-граммы это альтернатива морфологическому разбору и удалению стоп-слов. Позволяют сделать текст более строгим, не решают проблему уменьшения количества неинформативных слов;

Приведение регистра. Этот прием заключается в преобразовании всех символов к верхнему или нижнему регистру.

Наиболее эффективно совместное применение всех методов.

Задачи Text Mining

Классификация (classification) - определение для каждого документа одной или нескольких заранее заданных категорий, к которым этот документ относится, автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества

Автоматическое аннотирование (summarization) сокращение текста и сохранение его смысла. Результат включает в себя наиболее значимые предложения в тексте.

Извлечения ключевых понятий (feature extraction) - идентификация фактов и отношений в тексте (имена существительные и нарицательные: имена и фамилии людей, названия организаций и др.).

Навигация по тексту (text-base navigation) перемещение по документам по определённым темам и терминам. Это выполняется за счет идентификации ключевых понятий и некоторых отношений между ними.

Анализ трендов позволяет идентифицировать тренды в наборах документов на какой-то период времени.

Поиск ассоциаций. В заданном наборе документов идентифицируются ассоциативные отношения между ключевыми понятиями.

Существует достаточно большое количество разновидностей перечисленных задач, а также методов их решения. Это еще раз подтверждает значимость анализа текстов.

Примеры средства анализа текстовой информации:

Средства Oracle - Oracle Text2.

Средства от IBM - Intelligent Miner for Text1

Средства SAS Institute - Text Miner

Интеллектуальный анализ данных Data Mining

Интеллектуальный анализа данных (англ. Data mining, другие варианты перевода - "добыча данных", "раскопка данных") - обнаружение неявных закономерностей в наборах данных.

·специализированных "коробочных" программных продуктов для интеллектуального анализа;

·математических пакетов;

·электронных таблиц (и различного рода надстроек над ними);

·средств интегрированных в системы управления базами данных (СУБД);

·других программных продуктов.

Задачи интеллектуального анализа данных:

Задача классификации определение категории и класса каждому объекту.

Задача регрессии - поиск шаблонов для определения числового значения.

Задача прогнозирования новых значений на основании имеющихся значений числовой последовательности. Учитываются тренды.

анализ text data mining

Задача кластеризации - деление множества объектов на группы (кластеры) с похожими параметрами. При этом, в отличие от классификации, число кластеров и их характеристики могут быть заранее неизвестны и определяться в ходе построения кластеров исходя из степени близости объединяемых объектов по совокупности параметров.

Задача определения взаимосвязей - определение часто встречающихся наборов объектов среди множества подобных наборов.

Анализ последовательностей - обнаружение закономерностей в последовательностях событий.

Анализ отклонений - поиск событий, отличающихся от нормы.

По способу решения задачи интеллектуального анализа можно разделить на два класса: обучение с учителем (от англ. supervisedlearning) и обучение без учителя (от англ. unsupervisedlearning). В первом случае требуется обучающий набор данных, на котором создается и обучается модель интеллектуального анализа данных. Готовая модель тестируется и впоследствии используется для предсказания значений в новых наборах данных. Во втором случае целью является выявление закономерностей имеющихся в существующем наборе данных.

Вывод

Интеллектуальный анализ данных является одним из наиболее актуальных и востребованных направлений прикладной математики. Современные процессы бизнеса и производства порождают огромные массивы данных, и людям становится все труднее интерпретировать и реагировать на большое количество данных, которые динамически изменяются во времени выполнения. Нужно извлекать максимум полезных знаний из многомерных, разнородных, неполных, неточных, противоречивых, косвенных данных. А главное, сделать это эффективно, если объем данных измеряется гигабайтами или даже терабайтами.

Важно предохранить людей от информационной перегрузки, преобразовать оперативные данные в полезную информацию так, чтобы нужные действия могли быть приняты в нужное время.

Список используемой литературы и интернет - ресурсов

1.Л.М. Ермакова Методы классификации текстов и определения качества контента. Вестник пермского университета 2011. УДК 004.912

Основные задачи Text Mining Text Mining – это алгоритмическое выявление прежде не известных связей и корреляций в уже имеющихся текстовых данных. Важная задача технологии Text Mining связана с извлечением из текста его характерных элементов или свойств, которые могут использоваться как метаданные документа, ключевых слов, аннотаций. Другая важная задача состоит в отнесении документа к некоторым категориям из заданной схемы их систематизации. Text Mining также обеспечивает новый уровень семантического поиска документов. Возможности современных систем Text Mining могут применяться при управлении знаниями для выявления шаблонов в тексте, для автоматического «выталкивания» или размещения информации по интересующим пользователей профилям, создавать обзоры документов.

Основные элементы Text Mining В соответствии с уже сформированной методологии к основным элементам Text Mining относятся: классификация (classification), кластеризация (clustering), построение семантических сетей, извлечение фактов, понятий (feature extraction), суммаризация (summarization), ответ на запросы (question answering), тематическое индексирование (thematic indexing), поиск по ключевым словам (keyword searching). Также в некоторых случаях набор дополняют средства поддержки и создание таксономии (oftaxonomies) и тезаурусов (thesauri).

© ElVisti 4 Классификация При классификации текстов используются статистические корреляции для построения правил размещения документов в определенные категории. Задача классификации - это классическая задачу распознавания, где по некоторой контрольной выборке система относит новый объект к той или другой категории. Особенность систем Text Mining заключается в том, что количество объектов и их атрибутов может быть очень большой, поэтому должны быть предусмотрены интеллектуальные механизмы оптимизации процесса классификации. В существующих сегодня системах классификация применяется, например, в таких задачах: группировка документов в intranet-сетях и на Web-сайтах, размещение документов в определенные папки, сортировка сообщений электронной почты, избирательное распространение новостей подписчикам.

© ElVisti 5 Кластеризация Кластеризация базируется на признаках документов, которые использует лингвистические и математические методы без использования определенных категорий. Результат - таксономия или визуальная карта, которая обеспечивает эффективный охват больших объемов данных. Кластеризация в Text Mining рассматривается как процесс выделения компактных подгрупп объектов с близкими свойствами. Система должна самостоятельно найти признаки и разделить объекты по подгруппам. Кластеризация, как правило, передует классификации, поскольку разрешает определить группы объектов. Различают два основных типа кластеризации - иерархическую и бинарную. Кластеризация применяется при реферировании больших документальных массивов, определение взаимосвязанных групп документов, упрощения процесса просмотра при поиске необходимой информации, нахождения уникальных документов из коллекции, выявления дубликатов или очень близких по содержанию документов.

© ElVisti 6 Другие элементы Построение семантических сетей Построение семантических сетей или анализ связей, которые определяют появление дескрипторов (ключевых фраз) в документе для обеспечения навигации. Извлечение фактов Извлечение фактов, предназначенное для получения некоторых фактов из текста с целью улучшения классификации, поиска и кластеризации. Прогнозирование Состоит в том, чтобы предсказать по значениям одних признаков объекта значения остальных. Нахождение исключений Поиск объектов, которые своими характеристиками сильно выделяются из общей массы. Визуализация. Визуализация используется как средство представления контента текстовых массивов, а также для реализации навигационных механизмов.

© ElVisti 7 Автоматическое реферирование Автоматическое реферирование (Automatic Text Summarization) - это составление коротких изложений материалов, аннотаций или дайджестов, т.е. извлечения наиболее важных сведений из одного или нескольких документов и генерация на их основе лаконичных и информационно-насыщенных отчетов. Существует два направления автоматического реферирования - квазиреферирование и краткое изложение содержания. Квазиреферирование основано на экстрагировании фрагментов документов - выделении наиболее информативных фраз и формировании из них квазирефератов. Краткое изложение исходного материала основывается на выделении из текстов с помощью методов искусственного интеллекта и специальных информационных языков наиболее важной информации и порождении новых текстов, содержательно обобщающих первичные документы. Семантические методы формирования рефератов-изложений допускают два основных подхода: метод синтаксического разбора предложений, и методы, базирующиеся на понимании естественного языка, методах искусственного интеллекта.

Отслеживание новостного потока. Постановка задачи Пользовательские потребности: В одном месте получить все основные новости дня получить некоторую карту новостей Узнать, что говорят разные источники об одной и той же новости, не затрачивая на это специальных усилий Проследить развитие «новости» (события) во времени

Новостное сообщение – опубликованное сообщение, обладающее следующими признаками: дата, время опубликования (может отличаться от даты/времени произошедшего события) и источник (название СМИ). Новостное сообщение – опубликованное сообщение, обладающее следующими признаками: дата, время опубликования (может отличаться от даты/времени произошедшего события) и источник (название СМИ). Новостной сюжет – совокупность сведений (новостных сообщений) о некоторых сущностях и явлениях (о людях, вещах, отношениях, действиях, процессах, свойствах, и т.д.), а также о связанных сущностях и явлениях. Делается допущение, что группа схожих по содержанию и близких по времени новостных сообщений соответствует новостному сюжету. Таким образом, выделение новостных сюжетов сводится к разбиению сообщений на группы. Новостной сюжет – совокупность сведений (новостных сообщений) о некоторых сущностях и явлениях (о людях, вещах, отношениях, действиях, процессах, свойствах, и т.д.), а также о связанных сущностях и явлениях. Делается допущение, что группа схожих по содержанию и близких по времени новостных сообщений соответствует новостному сюжету. Таким образом, выделение новостных сюжетов сводится к разбиению сообщений на группы. Выпуск новостей – ранжированный по некоторому признаку список новостных сюжетов. Выпуск новостей – ранжированный по некоторому признаку список новостных сюжетов. Отслеживание новостного потока. Постановка задачи

Новое направление исследования в области IR: Новое направление исследования в области IR: Отслеживание новостного потока. Постановка задачи TDT topic detection and tracking ??? Чем отличается новая задача от стандартных задач IR? ???Применимы ли стандартные методы IR к новой задаче? TDT - технологии, служащие не только для нахождения похожих новостей, но и для мониторинга отдельных событий, и для получения информационной картины мира в определенное время.

Отслеживание новостного потока. Постановка задачи Список основных задач Сегментация статей (Story Segmentation) - задача разделения непрерывного потока на новости, связанные одним и тем же событием. Отслеживание новостной дорожки (Topic Tracking) - нахождение всех новостей, которые похожи на множество эталонных новостей. Определение дорожки (Topic Detection) - кластеризация всех новостей, порожденных конкретным событием. Определение первой новости в дорожке (First Story Detection) - для нахождения самого первого сообщения в новом событии. Определение связей (Link Detection) - позволяет определить, порождены ли две новости одним и тем же событием.

TDT. Параметры. Пример 1. Министерство финансов внесло в правительство законопроект, предусматривающий поправки в закон об ОСАГО, куда теперь введено новое положение о выплате страховщиками неустойки в случае задержки страховых выплат. Участники рынка в целом приветствуют инициативы Минфина, поскольку считают, что выплат за просрочку будет немного. За 2006 год в ФССН поступило 3099 жалоб, из них жалобы на действия (бездействия) страховых организаций по вопросам нарушений при осуществлении ОСАГО 1679, или более 50% обращений. В 784 жалобах, связанных с ОСАГО, указывается «несоблюдение установленных сроков рассмотрения обращений и осуществления выплат». Вера Балакирева также пояснила, почему размер неустойки привязан к страховой сумме, а не к размеру выплаты: «Достаточно много случаев, когда страховщик, получив документы, вообще не пытается урегулировать страховой случай. Тогда он не рассчитывает сумму выплаты или отвечает немотивированным отказом. И привязать неустойку к выплате невозможно».

TDT. Параметры. Пример 1. Проблемы Новостные сообщения тексты малого объема Новостные сообщения тексты малого объема Учитывать «нелингвистические признаки» Учитывать «нелингвистические признаки» Учитывать максимально большое количество слов в качестве параметров Учитывать максимально большое количество слов в качестве параметров Учитывать только лексемы с определенными семантическими или морфологическими свойствами Учитывать только лексемы с определенными семантическими или морфологическими свойствами Частотность «терминов» и «нетерминов» одинаковая Частотность «терминов» и «нетерминов» одинаковая «Неустойчивость» частотных характеристик тематических элементов «Неустойчивость» частотных характеристик тематических элементов

TDT. Параметры. Пример 1. Проблемы Новостные сообщения сообщения о часто случающихся событиях и о часто упоминаемых людях или организациях Новостные сообщения сообщения о часто случающихся событиях и о часто упоминаемых людях или организациях Много общеупотребительных слов, определяющих тему сообщения Много общеупотребительных слов, определяющих тему сообщения Признаки N-граммы из слов с высокими tf.idf Признаки N-граммы из слов с высокими tf.idf

TDT. Параметры. Пример 1. Проблемы Новостные сообщения сообщения о часто случающихся событиях и о часто упоминаемых людях или организациях Новостные сообщения сообщения о часто случающихся событиях и о часто упоминаемых людях или организациях Много общеупотребительных слов, определяющих тему сообщения Много общеупотребительных слов, определяющих тему сообщения Признаки N-граммы с высокими tf.idf Признаки N-граммы с высокими tf.idf

TDT. Параметры. Пример 1. Проблемы Много многословных устойчивых словосочетаний, состоящих из общеупотребительных слов Много многословных устойчивых словосочетаний, состоящих из общеупотребительных слов Нужен способ выделения их именно как устойчивых слвосочетаний Нужен способ выделения их именно как устойчивых слвосочетаний Вначале выделить N-грамм как устойчивое словосочетание, потом уже считать веса по устойчивому словосочетанию (t- статистика, взаимная информация и т.п.) Вначале выделить N-грамм как устойчивое словосочетание, потом уже считать веса по устойчивому словосочетанию (t- статистика, взаимная информация и т.п.) например, использовать специальные статистики для выделения устойчивых словосочетаний (MWU), использовать частеречные фильтры (shallow parsing, chunking)

TDT. Параметры. Пример 1. Проблемы Новостные сообщения компактные Новостные сообщения компактные Авторы сообщений стараются не повторяться про одно и то же событие разными словами, один и тот же объект называть по разному, т.е. Нет полных повторений, но есть семантические повторения низкие tf.idf у участников событий Авторы сообщений стараются не повторяться про одно и то же событие разными словами, один и тот же объект называть по разному, т.е. Нет полных повторений, но есть семантические повторения низкие tf.idf у участников событий ср. Министерство финансов, минфин, министерство и т.п., дворняга, собака, пес, Шарик ср. Министерство финансов, минфин, министерство и т.п., дворняга, собака, пес, Шарик Постулат о текcтовой связности Постулат о текcтовой связности Разные способы моделирования текстовой связности Разные способы моделирования текстовой связности

TDT. Параметры. Усовершенстования Постулат о текстовой связности Постулат о текстовой связности Математические методы моделирования Математические методы моделирования Лингвистические и «когнитивные» методы моделирования Лингвистические и «когнитивные» методы моделирования Меры ассоциативной связи между словами в предложении Кандидаты в признаки все биграмы в предложении Изменение технологии кластеризации (кластеризация по предложениям, по абзацам и т.п.) Математические «способы борьбы» Математические «способы борьбы»

TDT. Параметры усовершенствования Постулат о текстовой связности Постулат о текстовой связности Лингвистические и «когнитивные» методы моделирования: Лингвистические и «когнитивные» методы моделирования: вектор лексических цепочек (First Story Detection using a Composite Document Representation. Nicola Stokes, Joe Carthy) учет кластеризации по типу новостного сюжета (Activity clustering) – т.е. слова, имеющие высокий tf.idf засчет того, что характеризуют события определенного типа («ураган», «террористический акт» и т.п.) отдельные веса для имен собственных (named entities)

TDT. Параметры. Пример 1. Проблемы Новостные сообщения подвижные: условия группировки в сюжет меняются со временем Если вначале мы имеем новый текст, посвященный новой новости, то что будет с tf.idf нужных слов? Часть совпадет с ключевыми словами про новости об аналогичных событиях Часть совпадет с ключевыми словами про новости об аналогичных событиях Часть, наиболее значимых, будут иметь низкий tf.idf Часть, наиболее значимых, будут иметь низкий tf.idf Необходим пересчет весовых коэффициентов (как часто?) Возможно предварительное обучение на тестовом корпусе Раздельный подсчет весов для разных категорий лексических единиц (веса для именованных объектов отдельно)

TDT. Параметры. Усовершенстования признакового пространства. Резюме (1) tf.idf считается на тренинговом корпусе, при поступлении нового сообщения пересчитывается, вся коллекция, включая новое сообщение заново подвергается кластеризации (greedy agglomerative clustering algorithm) каждый термин получает дополнительный вес в зависимости от его близости к лексическим единицам, детектирующим время возниконовения события документ характеризуется комбинацией 2-х векторов: стандартый tf.idf вектор + вектор лексических цепочек (First Story Detection using a Composite Document Representation. Nicola Stokes, Joe Carthy)

TDT. Параметры. Усовершенстования признакового пространства. Резюме (2) учитываются традиционные параметры (позиция в тексте и т.п.) учет кластеризации по типу новостного сюжета (Activity clustering) – т.е. слова, имеющие высокий tf.idf засчет того, что характеризуют события определенного типа («ураган», «террористический акт» и т.п.) (Ronald K. Braun and Ryan Kaneshiro Exploiting topic pragmatics for New Event Detection in tdt-2003) отдельные веса для имен собственных (named entities) классификация документов по категориям, после чего удаление стоп-слов внутри каждой категории отдельно и выбор признаковой базы внутри каждой категории

TDT. Меры близости устанавливается порог: выше порога – «нет» - сообщение относится к старому сюжету, ниже порога – «да» - первое сообщение в сюжете устанавливается порог: выше порога – использование сразу нескольких методов кластеризации – результирующая мера близости как некоторая функция от результатов разных методов

TDT. Меры близости Векторная модель Другие меры близости: Во-первых, мера не учитывает разницу в размере сравниваемых документов, а во-вторых, при ее вычислении не используется информация о частоте употребления термов, составляющих документы. sim(D i, D j) = Prob(w D i | w D j). Мера Джаккарда

TDT. Методы математического моделирования. Определение новостной дорожки. Методы кластеризации. Формирование кластеров: Последний поступивший на вход системы документ (документ с номером 1 при обратной нумерации) порождает первый кластер и сравнивается со всеми предыдущими. Если мера близости для какого-нибудь документа оказывается ближе заданной пороговой, то текущий документ приписывается первому кластеру. Сравнение продолжается, пока не исчерпывается список актуальных документов потока. После такой обработки документа 1, происходит обработка следующего документа, не вошедшего в первый кластер, с которым последовательно сравниваются все актуальные документы потока и т.д.

TDT. Методы математического моделирования Определение новостной дорожки. Методы кластеризации. Ранжирование по весу В результате формируется некоторое неизвестное заранее количество кластеров, которые ранжируются по своим весам, задаваемым суммой нормированных метрик близости для всех элементов кластера. Отбор важных кластеров Несмотря на то, что минимальный кластер может включать всего 1 документ, на окончательное рассмотрение принимается лишь определенное количество кластеров с наибольшими весами, т.е. группы наиболее цитируемых и актуальных сообщений. Пересчет цетроидов Для выбранных кластеров заново пересчитываются центроиды – документы, в наибольшей степени отражающие тематику кластера. Таким образом, формируются сюжетные цепочки, реализующие запросы типа «о чем пишут больше всего в последнее время?»

TDT. Методы математического моделирования. Определение новостной дорожки. Методы кластеризации. Построение сюжетных цепочек автоматически выявляются наиболее значимые темы, освещаемые в информационных потоках. Группировка весомых сообщений по выделенным сюжетам Все весомые сообщения группируются по принадлежности к автоматически определяемым сюжетам. Названия сюжетов В качестве названий сюжетных цепочек используются заголовки сообщений, наиболее точно отражающих их суть. Ранжирование сюжетов определяется количеством сообщений в сюжетной цепочке, что отражает общий интерес к данной теме, рейтингом источника и временем публикации сообщений.

Чем больше лексических совпадений, тем ближе тексты Чем больше лексических совпадений, тем ближе тексты Наиболее близкие тексты дубликаты кластеры, состоящие из дубликатов или очень близких текстов Наиболее близкие тексты дубликаты кластеры, состоящие из дубликатов или очень близких текстов Сначала удалить дубликаты, а затем кластеризовать Сначала удалить дубликаты, а затем кластеризовать TDT. Методы математического моделирования. Определение новостной дорожки. Проблемы Проблема семантически идентичных текстов Проблема семантически идентичных текстов (1)СООБЩИТЬ, СЕГОДНЯ, КОНФЕРЕНЦИЯ, ГЛАВА, АЛЕКСЕЙ, МИЛЛЕР, ПРЕМЬЕР- МИНИСТР, БЕЛОРУССИЯ, СЕРГЕЙ,З АВЕРШЕНИЕ, ПЕРЕГОВОРЫ, МОСКВА (2)РАНЕЕ, ПРЕДЛАГАТЬ, МИНСК, ПОКУПАТЬ, ГАЗ, ЦЕНА, ДОЛЛАР, ДОЛЛАР,БЫТЬ, ОПЛАТИТЬ, ДЕНЕЖНЫЙ, СРЕДСТВО, ЧАСТЬ, АКТИВ, БЕЛТРАНСГАЗ (3)АЛЕКСЕЙ, МИЛЛЕР, РАССКАЗАТЬ, ДОГОВОР, ПОСТАВКА, ТРАНЗИТ, РОССИЙСКИЙ, ГАЗ, ПОДПИСАТЬ, ПОСЛЕДНИЙ, МИНУТА, МИНУВШИЙ, ГОД, ЕСТЬ, (4) ОБЕЩАТЬ, БОЙ, КРЕМЛЕВСКИЙ, КУРАНТЫ СООБЩИТЬ, ТЕЧЕНИЕ, ЛЕТА, РАВНЫЙ, ДОЛЯ, ВЫПЛАЧИВАТЬ, ПОЛОВИНА, СТОИМОСТЬ, БЕЛТРАНСГАЗ, ОЦЕНИТЬ, ДОЛЛАР

Новости, посвященные одним и тем же типам событий (наводнения, заведение уголовного дела, теракт и т.п.), попадут в один и тот же кластер Новости, посвященные одним и тем же типам событий (наводнения, заведение уголовного дела, теракт и т.п.), попадут в один и тот же кластер Классификация по типам новостей (по событиям), потом уже выделение признаков Классификация по типам новостей (по событиям), потом уже выделение признаков Цепочки именованных объектов Цепочки именованных объектов TDT. Методы математического моделирования. Определение новостной дорожки. Методы кластеризации. Проблемы Альтернативный подход: параметры кластеризации основные координаты события Альтернативный подход: параметры кластеризации основные координаты события Фокус новости Фокус новости

TDT. Методы математического моделирования. Определение новостной дорожки. Фокус новости Фокус новости Ф окус события представляет собой совокупность объектов, каким-либо образом взаимодействующих в новости, и их тематического окружения (синонимов, описаний, дополнений объектов и других параметров, характеризующих рассматриваемое событие). Фокус события может отвечать на следующие вопросы (Сценарий (фрейм) для стандартной новости): Кто? Где? Когда?

Базовые технологии: Задачи TDT. «Переносимость» методов IR Параметры информационный портрет математические «корреляты» параметров (например, веса, оценки вероятности и т.п.) Параметры информационный портрет математические «корреляты» параметров (например, веса, оценки вероятности и т.п.) Методы разбиения объектов на классы Методы разбиения объектов на классы Меры близости - различия Меры близости - различия Задачи TDT База: методы IR Вопросы: Что считать признаками (размерностями пространства / параметрами интегральной характеристики)? Как оценивать вес признака (проекцию точки на соответствующую ось) Как оценивать интегральную характеристику (меру близости в пространстве) Как уменьшить количество признаков Как уменьшить шум (уменьшить число признаков, ослабить / усилить эффект корреляции признаков)

Развитие задач обработки текстов Технологическая цепочка обработки текстов в современных системах: На входе: поток текстов 1) 1. «Семантические» характеристики текста в целом Сгруппировать тексты по «событию» (кластеризация) Соотнести событие с некоторой областью знаний (рубрикация) Приписать тексту резюме (реферирование - summarization) Сопоставить тексту топики (семантические теги - топики)

Развитие задач обработки текстов 1) 2. Содержательный анализ текста Выделить в тексте «главных героев» (распознавание именованных сущностей – NER – named entities recognition Сопоставить сущности некоторое онтологическое описание - пресс- портрет, досье и т.п. (дополнительная задача разрешение неоднозначности - named entities disambiguation) Локализовать текст (геолокация) Определить в тексте тематические доминанты (семантические теги) Выделить главные события (Fact extraction)

Развитие задач обработки текстов На входе: пользователь + текст Задачи: (а) сформировать у пользователя некоторое отношение к объектам из текста (б) поставить пользователю дополнительный контент в соответствии с его интересами (в т.ч. детектировать интересы пользователя – персонализация) Opinion mining (sentiment analysis) Локализовать текст (геолокация) Поиск в социальных сетях сообщений на соответствующую тему Social tagging Рекомендации, контекстная реклама

Семантические карты подборки документов Кластеризация позволяет разделять подборку документов на статистические смысловые группы, однако зачастую аналитику нужен более тонкий инструмент для обнаружения редких, но важных связей между темами подборки. В этом случае объектом анализа является семантическая карта взаимосвязей тем документов, а не сами документы. Карта представляет собой ориентированный граф, размеры узлов и толщина линий связи на котором соответствуют относительному весу тем и связей в подборке. Связи могут быть либо типизированными (определен семантический тип связи), либо логическими (установлен факт их наличия). Направление стрелки связи показывает причинно-следственную связь между темами на более частную тему указывает стрелка. Толщина стрелки между темами отражает ее важность. В вершинах и связях находятся гиперссылки, ведущие к связанному набору документов. Выбрав узел на карте аналитик погружается в темы, непосредственно связанные с темой узла, как бы увеличивая масштаб карты и центрируя карту на теме. При этом состав тем карты изменится, появятся темы, наиболее тесно связанные с выбранной. Этот метод анализа часто используется также для совместного анализа нескольких карт, поиска похожих ситуаций или семантических шаблонов в различных картах и другие задачи. семантической карты.

© ElVisti 42 SemioMap (Semio Corp.) SemioMap - это продукт компании Entrieva, созданный в 1996 г. ученым- семиотиком Клодом Фогелем (Claude Vogel). В мае 1998 г. продукт был выпущен как промышленный комплекс SemioMap первая система Text Mining, работающая в архитектуре клиент-сервер.

© ElVisti 43 SemioMap (Semio Corp.) Система SemioMap состоит из двух основных компонент - сервера SemioMap и клиента SemioMap. Работа системы протекает в три фазы: Индексирование: сервер SemioMap автоматически читает массивы неструктурированного текста, извлекает ключевые фразы (понятия) и создает из них индекс; Кластеризация понятий: сервер SemioMap выявляет связи между извлеченными фразами и строит из них, на основе совместной встречаемости, лексическую сеть ("понятийную карту"); Графическое отображение и навигация: визуализация карт связей, которая обеспечивает быструю навигацию по ключевым фразам и связям между ними, а также возможность быстрого обращения к конкретным документам.

Web Mining можно перевести как "добыча данных в Web". Web Intelligence или Web Интеллект готов "открыть новую главу" в стремительном развитии электронного бизнеса. Способность определять интересы и предпочтения каждого посетителя, наблюдая за его поведением, является серьезным и критичным преимуществом конкурентной борьбы на рынке электронной коммерции.

Системы Web Mining могут ответить на многие вопросы, например, кто из посетителей является потенциальным клиентом Web-магазина, какая группа клиентов Web-магазина приносит наибольший доход, каковы интересы определенного посетителя или группы посетителей.

Технология Web Mining охватывает методы, которые способны на основе данных сайта обнаружить новые, ранее неизвестные знания и которые в дальнейшем можно будет использовать на практике. Другими словами, технология Web Mining применяет технологию Data Mining для анализа неструктурированной, неоднородной, распределенной и значительной по объему информации, содержащейся на Web-узлах.

Согласно таксономии Web Mining , здесь можно выделить два основных направления: Web Content Mining и Web Usage Mining .

Web Content Mining подразумевает автоматический поиск и извлечение качественной информации из разнообразных источников Интернета, перегруженных " информационным шумом ". Здесь также идет речь о различных средствах кластеризации и аннотировании документов.

В этом направлении, в свою очередь, выделяют два подхода: подход, основанный на агентах, и подход, основанный на базах данных.

Подход, основанный на агентах (Agent Based Approach ), включает такие системы:

интеллектуальные поисковые агенты (Intelligent Search Agents);
фильтрация информации / классификация;
персонифицированные агенты сети.

Примеры систем интеллектуальных агентов поиска:

Harvest (Brown и др., 1994),
FAQ -Finder (Hammond и др., 1995),
Information Manifold (Kirk и др., 1995),
OCCAM (Kwok and Weld , 1996), and ParaSite (Spertus, 1997),
ILA (Information Learning Agent) (Perkowitz and Etzioni, 1995),
ShopBot (Doorenbos и др., 1996).

Подход, основанный на базах данных (Database Approach ), включает системы:

многоуровневые базы данных;
системы web-запросов (Web Query Systems);

Примеры систем web-запросов:

W3QL (Konopnicki и Shmueli, 1995),
WebLog (Lakshmanan и др., 1996),
Lorel (Quass и др., 1995),
UnQL (Buneman и др., 1995 and 1996),
TSIMMIS (Chawathe и др.., 1994).

Второе направление Web Usage Mining подразумевает обнаружение закономерностей в действиях пользователя Web-узла или их группы.

Анализируется следующая информация:

какие страницы просматривал пользователь;
какова последовательность просмотра страниц.

Анализируется также, какие группы пользователей можно выделить среди общего их числа на основе истории просмотра Web-узла.

Web Usage Mining включает следующие составляющие:

предварительная обработка;
операционная идентификация;
инструменты обнаружения шаблонов;
инструменты анализа шаблонов.

При использовании Web Mining перед разработчиками возникает два типа задач. Первая касается сбора данных, вторая - использования методов персонификации. В результате сбора некоторого объема персонифицированных ретроспективных данных о конкретном клиенте, система накапливает определенные знания о нем и может рекомендовать ему, например, определенные наборы товаров или услуг. На основе информации о всех посетителях сайта Web-система может выявить определенные группы посетителей и также рекомендовать им товары или же предлагать товары в рассылках.

Задачи Web Mining согласно можно подразделить на такие категории:

Предварительная обработка данных для Web Mining .
Обнаружение шаблонов и открытие знаний с использованием ассоциативных правил, временных последовательностей, классификации и кластеризации;
Анализ полученного знания.

Text Mining

Text Mining охватывает новые методы для выполнения семантического анализа текстов, информационного поиска и управления. Синонимом понятия Text Mining является KDT (Knowledge Discovering in Text - поиск или обнаружение знаний в тексте).

В отличие от технологии Data Mining , которая предусматривает анализ упорядоченной в некие структуры информации, технология Text Mining анализирует большие и сверхбольшие массивы неструктурированной информации.

Программы, реализующие эту задачу, должны некоторым образом оперировать естественным человеческим языком и при этом понимать семантику анализируемого текста. Один из методов, на котором основаны некоторые Text Mining системы, - поиск так называемой подстроки в строке.

Call Mining

По словам Энн Беднарц , "добыча звонков" может стать популярным инструментом корпоративных информационных систем.

Технология Call Mining объединяет в себя распознавание речи, ее анализ и Data Mining . Ее цель - упрощение поиска в аудио-архивах, содержащих записи переговоров между операторами и клиентами. При помощи этой технологии операторы могут обнаруживать недостатки в системе обслуживания клиентов, находить возможности увеличения продаж, а также выявлять тенденции в обращениях клиентов.

Среди разработчиков новой технологии Call Mining ("добыча" и анализ звонков) - компании CallMiner, Nexidia, ScanSoft, Witness Systems. В технологии Call Mining разработано два подхода - на основе преобразования речи в текст и на базе фонетического анализа.

Примером реализации первого подхода, основанного на преобразовании речи, является система CallMiner. В процессе Call Mining сначала используется система преобразования речи, затем следует ее анализ, в ходе которого в зависимости от содержания разговоров формируется статистика телефонных вызовов. Полученная информация хранится в базе данных, в которой возможен поиск, извлечение и обработка.

Пример реализации второго подхода - фонетического анализа - продукция компании Nexidia. При этом подходе речь разбивается на фонемы, являющиеся звуками или их сочетаниями. Такие элементы образуют распознаваемые фрагменты. При поиске определенных слов и их сочетаний система идентифицирует их с фонемами.

Аналитики отмечают, что за последние годы интерес к системам на основе Call Mining значительно возрос. Это объясняется тем фактом, что менеджеры высшего звена компаний, работающих в различных сферах, в т.ч. в области финансов, мобильной связи, авиабизнеса, не хотят тратить много времени на прослушивание звонков с целью обобщения информации или же выявления каких-либо фактов нарушений.

По словам Дэниэла Хонг, аналитика компании Datamonitor: "Использование этих технологий повышает оперативность и снижает стоимость обработки информации".

Типичная инсталляция продукции от разработчика Nexidia обходится в сумму от 100 до 300 тыс. долл. Стоимость внедрения системы CallMiner по преобразованию речи и набора аналитических приложений составляет около 450 тыс. долл.

По мнению Шоллера, приложения Audio Mining и Video Mining найдут со временем гораздо более широкое применение, например, при индексации учебных видеофильмов и презентаций в медиабиблиотеках компаний. Однако технологии Audio Mining и Video Mining находятся сейчас на уровне становления, а практическое их применение - на самой начальной стадии.