Индексирование интернета. Индексирование документов (Систематизация, предметизация, координатное индексирование). Смотреть что такое "Индексирование" в других словарях

Поисковая машина Яндекса отвечает на вопросы пользователей, находя нужные документы в интернете. А размеры современного интернета исчисляются в эксабайтах, то есть в миллиардах миллиардов байтов. Конечно же, Яндекс не обходит весь интернет каждый раз, когда ему задают вопрос. Поисковая система, так сказать, делает домашнее задание.

Поиск в интернете состоит из двух частей. Первая - поисковик обходит интернет, создавая его слепок на своих серверах. Вторая - пользователь задаёт запрос и получает ответ с серверов поисковика.

Яндекс ищет по поисковому индексу - базе данных, где для всех слов, которые есть на известных поиску сайтах, указано их местонахождение - адрес страницы и место на ней. Индекс можно сравнить с предметным указателем в книге или адресным справочником. В отличие от обычного предметного указателя, индекс содержит не только термины, а вообще все слова. А в отличие от адресного справочника, у каждого слова-адресата есть не одно, а очень много «мест прописки».

Подготовка к ответам

Подготовка данных, по которым ищет поисковая машина, называется индексированием. Специальная компьютерная система - поисковый робот - регулярно обходит интернет, выкачивает документы и обрабатывает их. Создается своего рода слепок интернета, который хранится на серверах поисковика и обновляется при каждом новом обходе.

У Яндекса два поисковых робота - основной и быстрый (он называется Orange). Основной робот индексирует интернет в целом, а Orange отвечает за то, чтобы в поиске можно было найти самые свежие документы, которые появились минуты или даже секунды назад. У каждого робота есть список адресов документов, которые нужно проиндексировать.

Когда при обходе робот видит на уже известных сайтах новые ссылки, он добавляет их в свой список, увеличивая количество индексируемых страниц. Впрочем, владелец сайта сам может помочь основному роботу Яндекса найти свой ресурс и подсказать, например, как часто обновляются его страницы - через сервис Яндекс.Вебмастер.

Сначала программа-планировщик выстраивает маршрут - очередность обхода документов. При этом планировщик учитывает важные для поисковой системы характеристики сайтов, такие как, например, цитируемость или частота обновления документов. После создания маршрута планировщик отдаёт его другой части поискового робота - «пауку». Паук регулярно обходит документы по заданному маршруту. Если сайт на месте, то есть работает и доступен, паук выкачивает запланированные в маршруте документы. Он определяет тип скачанного документа (html, pdf, swf и т.п.), кодировку и язык, а затем отправляет данные в хранилище.

Там программа разбирает документ по кирпичику: очищает от html-разметки, оставляя чистый текст, выделяет данные о местоположении каждого слова и добавляет их в индекс. Сам документ в исходном виде также остается в хранилище до следующего обхода. Благодаря этому пользователи могут найти в Яндексе и посмотреть документы, даже если сайт временно недоступен. Если сайт закрылся или документ был удалён или обновлён, Яндекс удалит копию со своих серверов или заменит её на новую.

Поисковый индекс, данные о типе документов, кодировке, языке и сохраненные копии документов вместе составляют поисковую базу. Она обновляется постоянно, но, чтобы это обновление стало доступно пользователям, её нужно перенести на «базовый поиск». Базовый поиск - сервера, которые отвечают пользователям на запросы. Туда переносится не вся поисковая база, а только её полезная часть - без спама, дубликатов сайтов (зеркал) и других ненужных документов.

Обновление поисковой базы из хранилища основного робота попадает в поиск «пакетами» - раз в несколько дней. Этот процесс создаёт дополнительную нагрузку на сервера, поэтому производится ночью, когда к Яндексу обращаются на порядок меньше пользователей. Сначала новые части базы помещаются рядом с такими же частями из прошлого обхода. Затем они проверяются по целому ряду факторов, чтобы обновление не ухудшило качество поиска. Если проверка прошла успешно, новая часть базы заменяет собой старую.

Робот Orange предназначен для поиска в реальном времени. Его планировщик и паук настроены так, чтобы находить новые документы и выбирать из огромного их количества все, хоть сколько-нибудь интересные. Каждый такой документ Orange сразу обрабатывает и выкладывает на базовый поиск. Срочных документов не очень много по сравнению с общим объемом интернета, поэтому обновление базы в реальном времени можно делать и при дневных нагрузках на сервера.

СИСТЕМА СТАНДАРТОВ ПО ИНФОРМАЦИИ, БИБЛИОТЕЧНОМУ И ИЗДАТЕЛЬСКОМУ ДЕЛУ

ИНДЕКСИРОВАНИЕ ДОКУМЕНТОВ

ОБЩИЕ ТРЕБОВАНИЯ К КООРДИНАТНОМУ ИНДЕКСИРОВАНИЮ

ГОСТ 7.66-92
(ИСО 5963-85)

ГОССТАНДАРТ РОССИИ

Москва

ГОСУДАРСТВЕННЫЙ СТАНДАРТ СОЮЗА ССР

Дата введения 01.01.93

Настоящий стандарт устанавливает общие требования к координатному индексированию документов, включая правила формирования поискового образа документа. Специфические требования к систематизации и предметизации документов - по ГОСТ 7.59. Форма представления поискового образа документа в коммуникативном формате МЕКОФ - по ГОСТ 7.52. Стандарт распространяется на информационно-поисковые системы, в которых содержание документов представлено в сжатой форме лексическими единицами информационно-поискового языка. Стандарт не распространяется на формирование фактографических записей в фактографических базах данных. Термины и определения - по ГОСТ 7.0, ГОСТ 7.26, ГОСТ 7.27, ГОСТ 7.59 и прилож ению 1 . Дополнительные требования, отражающие потребности народного хозяйства, приведены в приложе нии 1 .

1. ОБЩИЕ ПОЛОЖЕНИЯ

1.1. Процесс индексирования включает следующие этапы, которые осуществляют в указанной ниже последовательности: анализ и определение содержания документа, как объекта индексирования; выбор понятий, характеризующих содержание документа; выбор терминов индексирования для обозначения понятий; формирование поискового образа документа из терминов индексирования. Перечисленные этапы могут быть объединены в составе технологических процедур при условии надлежащего выполнения каждого из этапов. 1.2. Поисковый образ документа (ПОД) формируют из выбранных терминов индексирования при помощи грамматических средств информационно-поискового языка (ИПЯ). 1.3. В процессе индексирования не рекомендуется описывать документ как физический объект (с точки зрения его формы, объема и пр.). Допускается отражать в ПОД подобную информацию, если она позволяет более точно установить соответствие документа информационной потребности пользователя системы.

2. АНАЛИЗ ДОКУМЕНТА

2.1. При анализе документа индексатору должна быть предоставлена возможность ознакомиться с документом в полном объеме. При невозможности исчерпывающего ознакомления с документом индексатор должен изучить имеющиеся текстовые части документа (основные источники индексирования): справочный аппарат документа - заглавие (наименование), аннотацию, реферат, содержание (оглавление), предисловие, заключение и др.; введение; заголовки частей и глав; первые фразы глав и параграфов; иллюстрации, схемы, таблицы и подписи к ним; слова и группы слов, которые в тексте подчеркнуты или выделены полиграфическими средствами. Индексирование только по заглавиям является неполноценным. При индексировании по рефератам и аннотациям следует следить за адекватностью передачи в них содержания документа. 2.2. При анализе нетекстовых (аудиовизуальных и других) документов, которые помимо чтения требуют просмотра, прослушивания, испытания объекта в действии и других подобных процедур, допускается индексирование их по имеющемуся текстовому компоненту (наименованию, краткому описанию и т.п.), но и в этом случае индексатору должна быть предоставлена возможность полного ознакомления с документом, если текстовый материал представляется недостаточным.

3. ВЫБОР ПОНЯТИй, ХАРАКТЕРИЗУЮЩИХ СОДЕРЖАНИЕ ДОКУМЕНТА

3.1. Число характеристик и понятий, отраженных в ПОД, определяет его полноту и является важнейшим показателем качества индексирования. 3.1.1. В ПОД необходимо отразить все понятия, которые могут иметь ценность для пользователей системы. В документе может быть выявлено более одной темы из сферы интересов пользователей. Эти темы должны рассматриваться раздельно. 3.1.2. Тематика, отражаемая при индексировании, не должна ограничиваться узкими рамками непосредственных интересов пользователей ИПС. Следует включать в ПОД также понятия, связанные с побочными аспектами документа (например, социальные и экономические аспекты научно-технических исследований). 3.1.3. При выборе понятий основным критерием является потенциальная ценность понятия для выражения содержания документа или для его поиска. При этом необходимо ориентироваться на типичные запросы к ИПС: отбирать понятия, наиболее употребительные в коллективе пользователей ИПС; уточнять состав лексики и грамматические правила ИПЯ па основе обратной связи с пользователями. Изменения, вносимые в ИПЯ, не должны нарушать общую структуру и логику, заложенные при его создании. 3.1.4. Число терминов индексирования, приписываемых одному документу, определяется количеством сведений, содержащихся в документе. Ограничение числа терминов должно быть основано на содержательном отборе наиболее важных понятий. 3.2. Полнота индексирования, принятая в каждой ИПС, определяется ее функциональным назначением. Объем документа также сильно влияет на полноту индексирования. Необходимо учитывать указанные факторы и на их основе производить экспертный отбор понятий из документа, не стремясь включить в ПОД все упомянутые в нем понятия. 3.3. Специфичность ПОД определяется тем, в какой мере понятия документа нашли точное отражение терминами индексирования, и также является одним из параметров качества индексирования. Замена понятия термином, отражающим более широкое понятие, приводит к потере специфичности. Более широкие термины допускается использовать в особых случаях: если излишне специфичный термин непонятен пользователям, особенно когда соответствующее понятие применяется только в пограничных областях деятельности; если в документе понятие раскрыто недостаточно полно или является вспомогательным для изложения содержания документа. 3.4. Рекомендуется в каждой ИПС разрабатывать списки характеристик, которые признаются важными для отражения в ПОД. Для всех систем может быть рекомендован список указателей роли по ГОСТ 7.52. В зависимости от потребности конкретной ИПС этот список может быть как расширен, так и сокращен.

4. ВЫБОР ТЕРМИНОВ ИНДЕКСИРОВАНИЯ

4.1. В процессе выбора терминов индексирования понятия, характеризующие содержание документа, представляют: предпочтительными лексическими единицами (дескрипторами или ключевыми словами), выбранными по правилам конкретного ИПЯ; терминами, отражающими новые понятия, проверив их точность и приемлемость по словарям, энциклопедиям, справочникам, классификационным таблицам, информационно-поисковым тезаурусам, терминологическим стандартам и другим источникам, признанным авторитетными в данной области. 4.2. Выбор терминов индексирования осуществляют на основе зарегистрированного (ГОСТ 7.25) или опубликованного информационно-поискового тезауруса, который используют при составлении запросов к ИПС. При использовании тезауруса допускается сокращать число терминов, включаемых в ПОД за счет исключения общих понятий, которые могут быть привлечены на этапе поиска документа или на этапе составления поискового предписания на основании ссылок в статьях тезауруса. 4.3. Понятия, не представленные в словаре индексирования, но необходимые для формирования ПОД, выражают одним из двух способов: новым специфическим термином, который включают в ПОД и в словарь; более общим термином, имеющимся в ИПЯ; при этом специфический термин направляют в службу ведения ИПЯ в качестве кандидата на включение в словарь. Новые понятия представляют наиболее близкими из существующих в ИПЯ лексических единиц, а также оценивают полезность включения новых терминов в словарь с точки зрения поиска. 4.4. При индексировании свободными ключевыми словами, взятыми из текста документа, они должны быть приведены к канонической форме по ГОСТ 7.25. Длину словосочетаний рекомендуется ограничивать двумя-тремя словоформами. Схема индексирования с использованием информационно-поискового тезауруса приведена в приложе нии 2 .

5. ФОРМИРОВАНИЕ ПОИСКОВОГО ОБРАЗА ДОКУМЕНТА

5.1. ПОД состоит из выбранных терминов индексирования, организованных с помощью грамматических средств ИПЯ данной ИПС. 5.2. В состав ПОД могут быть включены следующие категории данных, предусмотренные технологией индексирования конкретной ИПС: степень нормализации терминов индексирования и применяемый для этого словарь; индивидуальные характеристики термина индексирования; связь терминов индексирования в синтаксических конструкциях ПОД. Для включения в ПОД фактографических данных применяют грамматические категории, указанные в разд. 6 . 5.3. По степени нормализации различают два типа терминов координатного индексирования: дескрипторы и ключевые слова. 5.4. Термины индексирования должны быть представлены в ПОД в соответствии с орфографическими правилами используемого в системе естественного языка. 5.4.1. Дескрипторы допускается представлять условными кодами, которые указаны в используемом словаре индексирования. В этом случае ИПС должна обеспечивать автоматический поиск орфографических форм дескрипторов по их кодам. 5.4.2. Ключевые слова в многоязычных информационных системах, с ПОД на основе различных национальных языков, должны быть снабжены пометами о принадлежности к тому или иному естественному языку. 5.5. Индивидуальные характеристики терминов индексирования являются факультативными элементами ПОД и их используют для уточнения содержания документа, организации процедур информационного поиска или дальнейшей аналитико-синтетической обработки документов в системе. К индивидуальным характеристикам относят данные о семантической и морфологической категории термина индексирования, его роли и информационном весе, способе получения и предполагаемом использовании. 5.5.1. Семантическая характеристика термина индексирования заключается в отнесении его к следующим лексикографическим категориям: 1) термин, выражающий научно-техническое понятие; 2) имя собственное, идентификатор; 3) наименование параметра; 4) значение параметра (выраженное текстом или именованной величиной); 5) числовое выражение; 6) обозначение единицы величины. 5.5.2. Морфологическая характеристика термина индексирования заключается в отнесении его к лексикографическим категориям: 1) производное слово; 2) сложное слово; 3) словосочетание; 4) аббревиатура; 5) фрагмент слова. Морфологические характеристики используют в ПОД для реализации в ИПС смыслового анализа лексических единиц на основе их формальных признаков. 5.5.3. Роль термина индексирования указывают в ПОД для уточнения места соответствующего понятия в содержании документа. Для этого особыми указателями роли, принятыми в ИПС, отмечают термины индексирования, отражающие следующие аспекты документа: 1) объект исследования, описания; 2) характеристики, свойства, параметры объекта; 3) методы и средства исследования, технологическую оснастку; 4) составные части, узлы, детали объекта; 5) область применения объекта (отрасль хозяйства, техники, науки); 6) назначение объекта; 7) цель исследования, разработки, описания; 8) результаты исследования, разработки. 5.5.4. Информационный вес термина индексирования отражав в ПОД важность данного понятия для данного документа. Число градаций информационного веса определяется потребностями конкретной ИПС. Следует различать: 1) понятия, выражающие главную тему документа; 2) понятия, выражающие побочные темы документа; 3) понятия, использованные в документе как вспомогательные для изложения его содержания. Допускается использовать указатель отрицательного веса, которым помечают термины индексирования для указания на то, что данное понятие не рассматривается в документе. 5.5.5. Пометы, необходимые для указания на способ получения термина индексирования, используют для организации технологического процесса индексирования. Следует различать следующие пометы: 1) термин назначен по усмотрению индексатора, но отсутствует в документе; 2) термин введен в ПОД на основании связей, указанных в тезаурусе, но отсутствует в документе; 3) термин получен при автоматическом индексировании. 5.5.6. Пометы о предполагаемом использовании термина индексирования вводят в ПОД с целью выделить лексические единицы, подлежащие специальной обработке в процессах дальнейшей аналитико-синтетической переработки информации. Следует различать следующие пометы: 1) термин используется как предметная рубрика указателей; 2) при данном термине индексирования имеются фактографические данные, указанные в ПОД; 3) термин используется только как уточняющий определитель к другим терминам. 5.6. Термины индексирования в ПОД могут быть снабжены указателями связи, объединяющими их в синтаксические конструкции, которые отражают: 1) порядок следования и взаимное расположение терминов индексирования в документе; 2) смысловые связи понятий в документе; 3) парадигматические связи дескрипторов в тезаурусе. Синтаксические конструкции рассматривают как цельные единицы ПОД наряду с терминами индексирования. Они могут быть объединены с другими синтаксическими конструкциями или с отдельными терминами индексирования в конструкции более высокого порядка. Число уровней иерархии синтаксических конструкций определяется потребностями конкретных ИПС. Не следует применять конструкции четвертого и более высоких порядков. Синтаксические конструкции могут быть охарактеризованы указателями веса, роли и предполагаемого использования аналогично индивидуальным терминам индексирования (см. п.п. 5.5.3 , 5.5.4, 5. 5.6). 5.7. Запись ПОД в памяти ИПС обусловлена принятым в ней способом кодирования с учетом требований настоящего раздела и ГОСТ 7.52.

6. ФАКТОГРАФИЧЕСКОЕ ИНДЕКСИРОВАНИЕ ДОКУМЕНТА

6.1. Фактографическое индексирование документа (ФИД) заключается в выявлении в документе и включении в ПОД данных, выражающих конкретные сведения (сообщения), имеющиеся в документе. На основании результатов ФИД в фактографических ИПС формируются массивы сведений, в которых единицей информации является фактографическая запись. 6.2. ФИД предполагает формальное различение в ПОД двух категорий терминов индексирования, выражающих: 1) темы или объекты сообщения; 2) приписанные этим объектам свойства, являющиеся смыслом сообщения. Соответствующие термины индексирования должны быть связаны друг с другом в синтаксическую конструкцию, объединяющую наименование объекта, его характеристики, их значения, единицы величины и отражающую смысловые связи понятий в документе. Дополнительно такая синтаксическая конструкция может быть охарактеризована: 1) показателем модальности; 2) условием истинности. 6.3. Показатель модальности фактографического сообщения определяет различие между сообщениями следующих типов: 1) наблюдаемый факт; 2) допускаемое значение; 3) требование стандарта; 4) плановый показатель; 5) запрет; 6) рекомендация; 7) предположение; 8) условие. Если в информационной системе не используют показатели модальности, то все фактографические сообщения рассматривают как принадлежащие одной модальности, которая должна быть указана в эксплуатационной документации системы. 6.4. Условием истинности фактографического сообщения является другое фактографическое сообщение, связанное с первым в синтаксическую конструкцию вышестоящего уровня. Например: Х = вес продукта Z = 150 г. V = влажность не более 45 %, где Х - характеристика объекта, Z -значение характеристики, Y - условие истинности. Фактографическое сообщение, являющееся условием истинности, должно иметь показатель модальности условия «если », например: (вес продукта = 150 г) (если (влажность не более 45 %)). 6.5. Термины индексирования, выражающие тему (объект) сообщения, относятся к категориям 1 или 2, указанным в п. 5.5.1 . При использовании категории 1 термину индексирования может быть дополнительно приписан показатель единичности или общности объекта (квантор). Квантор общности используют в сообщениях, где выражено утверждение обо всех объектах, попадающих в объем соответствующего понятия. Квантор единичности используют в сообщениях, где выражена информация о том объекте, входящем в состав данного понятия, который рассматривается в данном документе. 6.6. Термины индексирования, выражающие свойства объектов, которые составляют смысл сообщения, могут быть выражены лексическими единицами категорий 1, 2, 3 (с м. п. 5.5.1) или параметрической конструкцией (см. п. 5.6). 6.7. Параметрическая конструкция должна состоять из двух формально выраженных частей: наименования параметра и перечня значений параметра (см. п. 6.8), которые объединены в одну синтаксическую конструкцию. 6.8. Перечень значений в параметрической конструкции должен включать набор значений параметров и указание об альтернативности или одновременности (симультанности) значений. Набор значений задают перечислением или указанием двух предельных значений, между которыми располагаются значения, принимаемые параметром (интервалом значений). При задании интервала значений формально указывают, которое из значений является начальным и конечным для интервала значений, а также входят ли граничные значения в указанный интервал. Одно из граничных значений интервала может отсутствовать, если значение параметра ограничено только с одной стороны. Указание об одновременности используют, когда у одного объекта сообщения наблюдаются все заданные значения параметра. Указание об альтернативности используют, когда параметры одного объекта сообщения должны быть выбраны из числа заданных. 6.9. Значения параметра могут быть представлены синтаксической конструкцией из двух терминов индексирования - числового выражения и наименования единицы величины - при необходимости производить операции расчета или численного сравнения.

7. АВТОМАТИЗИРОВАННОЕ ИНДЕКСИРОВАНИЕ

7.1. Целью автоматизации индексирования является минимизация материальных и человеческих ресурсов, затрачиваемых на процедуру индексирования, а также достижение стабильности и единообразия ее результатов. 7.2. Автоматизированное индексирование (АИ) осуществляют по: 1) тексту первичного документа. 2) заглавию и аннотации или реферату документа; АИ по тексту первичного документа должно включать процедуру сжатия ПОД. 7.3. С использованием вычислительной техники осуществляют следующие содержательные этапы АИ: 1) выявление информативных частей документа; 2) идентификация слов текста и приведение их к нормализованному виду (морфологический анализ и синтез); 3) формирование списка ключевых слов исходного текста; 4) подбор дескрипторов по тезаурусу; 5) формирование ПОД. 7.4. Выявление информативных частей документа Технология АИ должна предусматривать идентификацию и предоставление индексатору или программе индексирования наиболее информативных фрагментов документа из списка указанных в п. 2. 1 . Могут быть предусмотрены алгоритмы выявления информативных фрагментов по другим формальным критериям, а также по решению специалиста-индексатора. 7.5. Идентификация слов текста 7.5.1. Процесс идентификации слов текста должен включать: отождествление словоформ одного слова и определение информативных слов текста. При этом может быть необходимо использование интеллектуальных процедур для решения таких задач, как выявление и обработка синтаксических конструкций, выявление и разрешение омонимии. 7.5.2. Для идентификации слов текста используют машинные словари (словари основ, парадигм, словосочетаний и т.д.). Словари должны быть представлены в базе данных системы и обеспечены средствами визуализации и ведения. 7.6. Формирование списка ключевых слов текста 7.6.1. В процессе формирования списка ключевых слов текста проводится синтаксический анализ текста с учетом правил сочетаемости грамматических категорий данного естественного языка. 7.6.2. Синтаксический анализ текста решает задачи: 1) разделение текста на фрагменты по заданным критериям; 2) установление синтаксических зависимостей между словоформами текста; 3) отождествление словосочетаний; 4) нормализация выявленных ключевых слов. 7.7. Автоматическое формирование ПОД 7.7.1. В процедуре A И допускается формирование ПОД из свободных ключевых слов или дескрипторов информационно-поискового тезауруса, используемого в данной области. 7.7.2. При АИ дескрипторами информационно-поискового тезауруса на этапе формирования ПОД происходит замена ключевых слов на дескрипторы, указанные в тезаурусе. 7.7.3. При формировании ПОД из дескрипторов возможно обогащение ПОД за счет пополнения вышестоящими терминами информационно-поискового тезауруса. 7.7.4. Процедура АИ должна предусматривать включение в ПОД типовых грамматических средств (см. р азд. 5). 7.7.5. К системам АИ предъявляются следующие требования: 1) модульность построения, т.е. такая внутренняя организация лингвистического и программного обеспечения системы при которой процедуры решения отдельных задач АИ реализуются с помощью самостоятельных блоков или модулей; 2) ориентация на типовые программные и технические средства; 3) соответствие действующей нормативно-методической документации по координатному индексированию.

ПРИЛОЖЕНИЕ 1

Справочное

ТЕРМИНЫ И ОПРЕДЕЛЕНИЯ

1. Автоматизированное индексирование - индексирование, технология которого предусматривает использование формальных процедур, осуществляемых с помощью вычислительной техники, и может включать применение интеллектуальных процедур при принятии основных решений о составе поискового образа. 2. Автоматическое индексирование - составление поискового образа с использованием только формальных процедур обработки текста документа или запроса, осуществляемых средствами вычислительной техники. 3. Информативное слово - слово или словосочетание в тексте документа или запроса, которое несет в нем существенную смысловую нагрузку. 4. Контролируемое индексирование - индексирование, при котором предусмотрена замена информативных слов текста дескрипторами, указанными в определенном информационно-поисковом тезаурусе или другом словаре индексирования. 5. Координатное индексирование - индексирование, цель которого состоит во всестороннем отражении содержания документа или запроса путем включения в поисковый образ всех необходимых для этого терминов индексирования. 6. Лексическая единица (ЛЕ) ИПЯ - последовательность символов, слово, словосочетание, фрагмент слова или условное обозначение, которая рассматривается в данном ИПЯ как элементарная единица, используемая для представления в поисковых образах документов или запросов определенного понятия, объекта или значения параметра. 7. Свободное индексирование - индексирование, технология которого не предусматривает замену информативных слов текста в соответствии с рекомендациями специального словаря индексирования. 8. Специфический термин - информативное слово, в наибольшей степени отряжающее содержание документа, использование которого отличает данный документ от других тематически близких документов. 9. Специфичность индексирования - характеристика качества индексирования, определяемая отношением числа специфических терминов и фактографических сведений к числу неспецифических терминов в поисковом образе. 10. Полнота индексирования - степень отражения в поисковом образе содержания документа и (или) запроса, определяемая как отношение числа специфических терминов и фактографических сведений, включенных в поисковый образ, к числу таковых терминов и сведений, имеющихся в тексте документа или запроса. 11. Фактографическое индексирование - индексирование, предусматривающее отражение в поисковом образе документа конкретных сведений (сообщений), являющихся смыслом данного документа.

ПРИЛОЖЕНИЕ 2

Справочное

СХЕМА ИНДЕКСИРОВАНИЯ ПО ИНФОРМАЦИОННО-ПОИСКОВОМУ ТЕЗАУРУСУ

1. Изучить документ и составить перечень существенных для его содержания понятий с учетом специфики ИПС. 2. Рассмотреть первое понятие. 3. Найти в тезаурусе лексическую единицу, отражающую данное понятие. Если таковой нет, перейти к п. 11 . 4. Если найденная лексическая единица - аскриптор, заменить ее указанным в ссылке дескриптором (или комбинацией дескрипторов). 5. Рассмотреть ссылки, указанные в тезаурусе для данного дескриптора (дескрипторов). 6. Проверить, не являются ли указанные в ссылках дескрипторы более специфичными для выражения данного понятия. Если да, то перейти к п. 10 . 7. Записать найденные лексические единицы в поисковый образ, снабдив их необходимыми грамматическими показателями по правилам данного ИПЯ. 8. Проверить, имеются ли еще не отраженные в поисковом образе понятия из документа и рассмотреть следующее понятие. Перейти к п. 3 . 9. Если список понятий документа исчерпан, окончить работу. 10. Заменить исходный дескриптор более специфичными согласно указанию ссылки в тезаурусе. Перейти к п. 7. 11. Найти в тезаурусе дескрипторы, совместное включение которых в поисковый образ отражает данное понятие. Если таковых нет, перейти к п. 12, если есть - перейти к п. 5. 12 . Установить термин, выражающий понятие и удовлетворяющий требованиям к дескрипторам по ГОСТ 7.25. 13. Направить найденный термин в службу ведения ИПЯ в качестве кандидата на включение в тезаурус. Перейти к выполнению п. 7. 14. Конец Блок-схема индексирования по информационно-поисковому тезаурусу показана на чертеже.Блок-схема алгоритма индексирования

ИНФОРМАЦИОННЫЕ ДАННЫЕ

1. РАЗРАБОТАН И ВНЕСЕН Государственным комитетом СССР по науке и технологиям и Техническим комитетом ТК 191 «Научно-техническая информация, библиотечное и издательское дело» РАЗРАБОТЧИКИ В.И. Белоозеров, канд. филол. наук (руководитель темы); Н.Д. Кравченко, канд. пед. наук; И.В. Тростникова; Н.А. Сливницина; Г.Н. Хондкариан; В.Н. Казаков, канд. техн. наук 2. УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Постановлением Комитета стандартизации и метрологии СССР от 27.03.92 № 297 Настоящий стандарт разработан методом прямого применения стандарта ИСО 5963-85 «Документация. Методы анализа документов, определения их тематики и выбора терминов индексирования» с дополнительными требованиями, отражающими потребности народного хозяйства 3. Срок первой проверки - 1995г. Периодичность проверки - 5 лет 4. РАЗРАБОТАН ВПЕРВЫЕ 5. ССЫЛОЧНЫЕ НОРМАТИВНО-ТЕХНИЧЕСКИЕ ДОКУМЕНТЫ

1. Общие положения 1
2. Анализ документа 2
3. Выбор понятий, характеризующих содержание документа 2
4. Выбор терминов индексирования 3
5. Формирование поискового образа документа 4
6. Фактографическое индексирование документа 6
7. Автоматизированное индексирование 7
Приложение 1 (справочное) Термины и определения 8
Приложение 2 (справочное) Схема индексирования по информационно-поисковому тезаурусу 9

Что такое индексирование сайта? Как оно происходит? На эти и другие вопросы вы можете найти ответы в статье. в поисковых системах) называют процесс приобщения информации о сайте к базе данных роботом поисковой машины, которая впоследствии используется для розыска сведений на веб-проектах, прошедших такую процедуру.

Данные о веб-ресурсах чаще всего состоят из ключевых слов, статей, ссылок, документов. Индексироваться также могут аудио, изображения и так далее. Известно, что алгоритм выявления ключевых слов зависим от поискового устройства.

На типы индексируемой информации (flash файлы, javascript) существует некоторая лимитация.

Управление приобщением

Индексирование сайта - сложный процесс. Чтобы им управлять (к примеру, запрещать приобщение той или иной страницы), нужно использовать файл robots.txt и такие предписания, как Allow, Disallow, Crawl-delay, User-agent и другие.

Также для ведения индексации применяют теги и реквизит , скрывающие содержимое ресурса от роботов Google и «Яндекса» (Yahoo применяет тег ).

В поисковой системе Goglle новые сайты индексируются от пары дней до одной недели, а в Яндексе - от одной недели до четырёх.

Вы желаете, чтобы ваш сайт показывался в запросах результатов поисковиков? Тогда он должен быть обработан «Рамблером», «Яндексом», Google, Yahoo и так далее. Вы должны сообщить поисковым машинам (паукам, системам) о существовании вашего веб-узла, и тогда они просканируют его полностью или частично.

Многие сайты не индексируются годами. Информацию, которая на них находится, не видит никто, кроме их владельцев.

Способы обработки

Индексирование сайта может выполняться несколькими способами:

  1. Первым вариантом является ручное добавление. Вам нужно ввести данные своего сайта через особые формы, предлагаемые поисковиками.
  2. Во втором случае робот поисковой машины сам находит ваш веб-узел по ссылкам и индексирует его. Он может разыскать ваш сайт по ссылкам с других ресурсов, которые ведут на ваш проект. Этот способ наиболее эффективен. Если поисковик нашёл сайт таким образом, он считает его значительным.

Сроки

Индексирование сайта происходит не слишком быстро. Сроки разные, от 1-2 недель. Ссылки с авторитетных ресурсов (с великолепным PR и Тиц) значительно ускоряют размещение сайта в базе поисковиков. Сегодня самым медленным считается Google, хотя до 2012 года он мог выполнять эту работу за неделю. К сожалению, всё очень быстро меняется. Известно, что Mail.ru работает с веб-узлами в этой области около полугода.

Индексирование сайта в поисковиках осуществить способен не каждый специалист. На сроки добавления в базу новых страниц уже обработанного поисковиками сайта влияет частота корректировки его контента. Если на ресурсе постоянно появляется свежая информация, система считает его часто обновляемым и полезным для людей. В этом случае её работа ускоряется.

За ходом индексации веб-узла можно следить на особых разделах для веб-мастеров или на поисковиках.

Изменения

Итак, мы уже разобрались, как происходит индексирование сайта. Необходимо отметить, что базы данных поисковиков часто обновляются. Поэтому количество добавленных в них страниц вашего проекта может меняться (как уменьшаться, так и увеличиваться) по следующим причинам:

  • санкции поисковика к веб-узлу;
  • наличие погрешностей на сайте;
  • изменение алгоритмов поисковиков;
  • отвратительный хостинг (недосягаемость сервера, на котором находится проект) и так далее.

Ответы «Яндекса» на обычные вопросы

«Яндекс» - поисковая система, которой пользуются многие пользователи. Она занимает пятое место среди розыскных систем мира по числу обработанных исследовательских запросов. Если вы в неё добавили сайт, он может слишком долго добавляться в базу.

Добавление URL не гарантирует его индексацию. Это лишь один из методов, с помощью которого сообщают роботу системы о том, что появился новый ресурс. Если на сайт отсутствуют ссылки с других веб-узлов или их немного, добавление поможет его быстрее обнаружить.

Если индексация не произошла, нужно проверить, не было ли на сервере сбоев в момент создания ему заявки от робота «Яндекса». Если сервер сообщает об ошибке, робот завершит свою работу и попытается её выполнить в порядке всестороннего обхода. Работники «Яндекса» не могут увеличить скорость добавления страниц в базу поисковика.

Индексирование сайта в «Яндексе» - довольно-таки сложное занятие. Вы не знаете как добавить ресурс в поисковую систему? Если на него имеются ссылки с других веб-узлов, то добавлять специально сайт не требуется - робот его автоматически разыщет и проиндексирует. Если у вас нет таких ссылок, можно использовать форму «Добавить URL», чтобы заявить поисковику о существовании веб-узла.

Необходимо помнить, что добавление URL не гарантирует индексацию вашего творения (или её скорость).

Многим интересно, сколько времени занимает индексирование сайта в «Яндексе». Сотрудники этой компании не дают гарантий и не прогнозируют сроки. Как правило, с тех пор, как робот узнал о сайте, страницы его в поиске появляются через два дня, иногда - через пару недель.

Процесс обработки

«Яндекс» - поисковая система, требующая точности и внимания. Индексация сайта состоит из трёх частей:

  1. Поисковый робот выполняет обход страниц ресурса.
  2. Содержимое (контент) сайта записывается в базу данных (индекс) розыскной системы.
  3. Через 2-4 недели, после обновления базы, можно увидеть результаты. Ваш сайт появится (или не появится) в поисковой выдаче.

Проверка индексации

Как проверить индексацию сайта? Выполнить это можно тремя способами:

  1. Введите наименование своего предприятия в строке поиска (к примеру, «Яндекса») и проверьте каждую ссылку на первой и второй странице. Если вы обнаружите там URL своего детища, значит, робот свою задачу выполнил.
  2. Можно ввести URL своего сайта в розыскной строке. Вы сможете увидеть, сколько интернет-листов показывается, то есть проиндексировано.
  3. Зарегистрируйтесь на страницах веб-мастеров в Mail.ru, «Гугле», «Яндексе». После того как вы пройдёте верификацию сайта, вы сможете увидеть и итоги индексации, и иные сервисы поисковиков, созданные для улучшения работы вашего ресурса.

Почему «Яндекс» отказывает?

Индексирование сайта в Google осуществляется следующим образом: робот в базу данных заносит все страницы сайта, некачественные и качественные, не выбирая. Но в ранжировании участвуют лишь полезные документы. А «Яндекс» весь веб-хлам исключает сразу же. Он может проиндексировать любую страницу, но поисковик со временем ликвидирует весь мусор.

У обеих систем имеется добавочный индекс. И у той, и у другой страницы низкого качества влияют на рейтинг веб-узла в целом. Здесь работает простая философия. Излюбленные ресурсы конкретного пользователя будут занимать более высокие позиции в его выдаче. Зато этот же индивидуум с трудом отыщет сайт, который ему в прошлый раз не понравился.

Именно поэтому сперва необходимо от индексации прикрыть копии веб-документов, проинспектировать наличие пустых страниц и не пускать в выдачу некачественный контент.

Ускорение работы «Яндекса»

Как можно ускорить индексирование сайта в «Яндексе»? Необходимо выполнить следующие шаги:

Промежуточные действия

Что необходимо выполнить, пока веб-страница «Яндексом» не проиндексирована? Отечественный поисковик должен считать сайт первоисточником. Именно поэтому ещё до публикации статьи обязательно необходимо добавить её содержание в форму «Специфичных текстов». В противном случае плагиаторы скопируют запись на свой ресурс и окажутся в базе данных первыми. В итоге признаны авторами будут они.

База данных Google

Запрещение

Что собой представляет запрет индексирования сайта? Вы можете наложить его как на всю страницу, так и на отдельную её часть (ссылку или кусок текста). Фактически существует как глобальный запрет индексации, так и локальный. Как это реализуется?

Рассмотрим запрет добавления в базу поисковика веб-узла в Robots.txt. С помощью файла robots.txt можно исключить индексацию одной страницы или целой рубрики ресурса так:

  1. User-agent: *
  2. Disallow: /kolobok.html
  3. Disallow: /foto/

Первый пункт говорит о том, что инструкции определены для всех ПС, второй указывает на запрет индексации файла kolobok.html, а третий - не разрешает добавление в базу всей начинки папки foto. Если нужно исключить несколько страниц или папок, укажите их все в «Роботсе».

Для того чтобы воспрепятствовать индексации отдельного интернет-листа, можно применить мета-тег robots. Он отличается от robots.txt тем, что даёт указания сразу всем ПС. Этот мета-тег подчиняется общим принципам формата html. Его нужно размещать в заголовке страницы между Запись для запрета, к примеру, может быть написана так: .

Ajax

А как проводит индексирование Ajax-сайтов Yandex? Сегодня технологией Ajax пользуются многие разработчики веб-узлов. Конечно, у неё есть большие возможности. С помощью неё можно создавать быстродействующие и производительные интерактивные веб-страницы.

Однако системы веб-лист «видит» не так, как пользователь и браузер. К примеру, человек смотрит на комфортный интерфейс с подвижно подгружаемыми интернет-листами. Для поискового робота содержимое той же страницы может быть порожним или представленным как остальной статический HTML-контент, для генерации которого скрипты не идут в дело.

Для создания Ajax-сайтов можно применять URL с #, но его робот-поисковик не использует. Обычно часть URL после # отделяется. Это нужно учитывать. Поэтому взамен URL вида http://site.ru/#example он делает заявку главной странице ресурса, размещённой по адресу http://site.ru. Это значит, что контент интернет-листа может не попасть в базу данных. В итоге он не окажется в результатах поиска.

Для усовершенствования индексации Ajax-сайтов «Яндекс» поддержал изменения в поисковом роботе и правилах обработки URL таких веб-узлов. Сегодня веб-мастера могут указать поисковику «Яндекса» на необходимость индексации, создав соответствующую схему в структуре ресурса. Для этого необходимо:

  1. Заменить в URL страниц символ # на #!. Теперь робот поймёт, что он сможет обратиться за HTML-версией наполнения этого интернет-листа.
  2. HTML-версия контента такой страницы должна быть размещена на URL, где #! заменён на?_escaped_fragment_=.

ГОСТ 7.66-92
(ИСО 5963-85)

Группа Т62

ГОСУДАРСТВЕННЫЙ СТАНДАРТ СОЮЗА ССР

Система стандартов по информации, библиотечному и издательскому делу

ИНДЕКСИРОВАНИЕ ДОКУМЕНТОВ

Общие требования к координатному индексированию

System of standards on information,
librarianship and publishing. Indexing of documents.
General requirements for coordinate indexing


ОКСТУ 0007

Дата введения 1993-01-01

ИНФОРМАЦИОННЫЕ ДАННЫЕ

1. РАЗРАБОТАН И ВНЕСЕН Государственным комитетом СССР по науке и технологиям и Техническим комитетом ТК 191 "Научно техническая информация, библиотечное и издательское дело"

РАЗРАБОТЧИКИ

В.Н.Белоозеров, канд. филол. наук (руководитель темы); Н.Д.Кравченко, канд. пед. наук; И.В.Тростникова; Н.А.Сливницина; Г.Н.Хондкариан; В.Н.Казаков, канд. техн. наук

2. УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Постановлением Комитета стандартизации и метрологии СССР от 27.03.92 N 297


Настоящий стандарт разработан методом прямого применения стандарта ИСО 5963-85 "Документация. Методы анализа документов, определения их тематики и выбора терминов индексирования" с дополнительными требованиями, отражающими потребности народного хозяйства

3. Срок первой проверки - 1995 г.

Периодичность проверки - 5 лет

4. РАЗРАБОТАН ВПЕРВЫЕ

5. ССЫЛОЧНЫЕ НОРМАТИВНО-ТЕХНИЧЕСКИЕ ДОКУМЕНТЫ

Номер пункта, приложения

ГОСТ 7.0-84

Вводная часть

ГОСТ 7.25-80

ГОСТ 7.26-80

Вводная часть

ГОСТ 7.27-80

Вводная часть; приложение 1

ГОСТ 7.52-85

Вводная часть; 5.7

ГОСТ 7.59-90

Вводная часть; приложение 1


Настоящий стандарт устанавливает общие требования к координатному индексированию документов, включая правила формирования поискового образа документа. Специфические требования к систематизации и предметизации документов - по ГОСТ 7.59 . Форма представления поискового образа документа в коммуникативном формате МЕКОФ - по ГОСТ 7.52 .

Стандарт распространяется на информационно-поисковые системы, в которых содержание документов представлено в сжатой форме лексическими единицами информационно-поискового языка. Стандарт не распространяется на формирование фактографических записей в фактографических базах данных.

Термины и определения - по ГОСТ 7.0 , 7.26, 7.27, 7.59 и приложению 1.

Дополнительные требования, отражающие потребности народного хозяйства, приведены в приложении 1.

1. ОБЩИЕ ПОЛОЖЕНИЯ

1. ОБЩИЕ ПОЛОЖЕНИЯ

1.1. Процесс индексирования включает следующие этапы, которые осуществляют в указанной ниже последовательности:

анализ и определение содержания документа как объекта индексирования;

выбор понятий, характеризующих содержание документа;

выбор терминов индексирования для обозначения понятий;

формирование поискового образа документа из терминов индексирования.

Перечисленные этапы могут быть объединены в составе технологических процедур при условии надлежащего выполнения каждого из этапов.

1.2. Поисковый образ документа (ПОД) формируют из выбранных терминов индексирования при помощи грамматических средств информационно-поискового языка (ИПЯ).

1.3. В процессе индексирования не рекомендуется описывать документ как физический объект (с точки зрения его формы, объема и пр.). Допускается отражать в ПОД подобную информацию, если она позволяет более точно установить соответствие документа информационной потребности пользователя системы.

2. АНАЛИЗ ДОКУМЕНТА

2.1. При анализе документа индексатору должна быть предоставлена возможность ознакомиться с документом в полном объеме. При невозможности исчерпывающего ознакомления с документом индексатор должен изучить имеющиеся текстовые части документа (основные источники индексирования):

справочный аппарат документа - заглавие (наименование), аннотацию, реферат, содержание (оглавление), предисловие, заключение и др.;

введение;

заголовки частей и глав;

первые фразы глав и параграфов;

иллюстрации, схемы, таблицы и подписи к ним;

слова и группы слов, которые в тексте подчеркнуты или выделены полиграфическими средствами.

Индексирование только по заглавиям является неполноценным. При индексировании по рефератам и аннотациям следует следить за адекватностью передачи в них содержания документа.

2.2. При анализе нетекстовых (аудиовизуальных и других) документов, которые помимо чтения требуют просмотра, прослушивания, испытания объекта в действии и других подобных процедур, допускается индексирование их по имеющемуся текстовому компоненту (наименованию, краткому описанию и т. п.), но и в этом случае индексатору должна быть предоставлена возможность полного ознакомления с документом, если текстовый материал представляется недостаточным.

3. ВЫБОР ПОНЯТИЙ, ХАРАКТЕРИЗУЮЩИХ СОДЕРЖАНИЕ ДОКУМЕНТА

3.1. Число характеристик и понятий, отраженных в ПОД, определяет его полноту и является важнейшим показателем качества индексирования.

3.1.1. В ПОД необходимо отразить все понятия, которые могут иметь ценность для пользователей системы.

В документе может быть выявлено более одной темы из сферы интересов пользователей. Эти темы должны рассматриваться раздельно.

3.1.2. Тематика, отражаемая при индексировании, не должна ограничиваться узкими рамками непосредственных интересов пользователей ИПС. Следует включать в ПОД также понятия, связанные с побочными аспектами документа (например, социальные и экономические аспекты научно-технических исследований).

3.1.3. При выборе понятий основным критерием является потенциальная ценность понятия для выражения содержания документа или для его поиска. При этом необходимо ориентироваться на типичные запросы к ИПС:

отбирать понятия, наиболее употребительные в коллективе пользователей ИПС;

уточнять состав лексики и грамматические правила ИПЯ на основе обратной связи с пользователями.

Изменения, вносимые в ИПЯ, не должны нарушать общую структуру и логику, заложенные при его создании.

3.1.4. Число терминов индексирования, приписываемых одному документу, определяется количеством сведений, содержащихся в документе. Ограничение числа терминов должно быть основано на содержательном отборе наиболее важных понятий.

3.2. Полнота индексирования, принятая в каждой ИПС, определяется ее функциональным назначением. Объем документа также сильно влияет на полноту индексирования. Необходимо учитывать указанные факторы и на их основе производить экспертный отбор понятий из документа, не стремясь включить в ПОД все упомянутые в нем понятия.

3.3. Специфичность ПОД определяется тем, в какой мере понятия документа нашли точное отражение терминами индексирования, и также является одним из параметров качества индексирования. Замена понятия термином, отражающим более широкое понятие, приводит к потере специфичности. Более широкие термины допускается использовать в особых случаях:

если излишне специфичный термин непонятен пользователям, особенно когда соответствующее понятие применяется только в пограничных областях деятельности;

если в документе понятие раскрыто недостаточно полно или является вспомогательным для изложения содержания документа.

3.4. Рекомендуется в каждой ИПС разрабатывать списки характеристик, которые признаются важными для отражения в ПОД. Для всех систем может быть рекомендован список указателей роли по ГОСТ 7.52 . В зависимости от потребности конкретной ИПС этот список может быть как расширен, так и сокращен.

4. ВЫБОР ТЕРМИНОВ ИНДЕКСИРОВАНИЯ

4.1. В процессе выбора терминов индексирования понятия, характеризующие содержание документа, представляют:

предпочтительными лексическими единицами (дескрипторами или ключевыми словами), выбранными по правилам конкретного ИПЯ;

терминами, отражающими новые понятия, проверив их точность и приемлемость по словарям, энциклопедиям, справочникам, классификационным таблицам, информационно-поисковым тезаурусам, терминологическим стандартам и другим источникам, признанным авторитетными в данной области.

4.2. Выбор терминов индексирования осуществляют на основе зарегистрированного (ГОСТ 7.25) или опубликованного информационно-поискового тезауруса, который используют при составлении запросов к ИПС.

При использовании тезауруса допускается сокращать число терминов, включаемых в ПОД за счет исключения общих понятий, которые могут быть привлечены на этапе поиска документа или на этапе составления поискового предписания на основании ссылок в статьях тезауруса.

4.3. Понятия, не представленные в словаре индексирования, но необходимые для формирования ПОД, выражают одним из двух способов:

новым специфическим термином, который включают в ПОД и в словарь;

более общим термином, имеющимся в ИПЯ; при этом специфический термин направляют в службу ведения ИПЯ в качестве кандидата на включение в словарь.

Новые понятия представляют наиболее близкими из существующих в ИПЯ лексических единиц, а также оценивают полезность включения новых терминов в словарь с точки зрения поиска.

4.4. При индексировании свободными ключевыми словами, взятыми из текста документа, они должны быть приведены к канонической форме по ГОСТ 7.25 . Длину словосочетаний рекомендуется ограничивать двумя-тремя словоформами.

Схема индексирования с использованием информационно-поискового тезауруса приведена в приложении 2.

5. ФОРМИРОВАНИЕ ПОИСКОВОГО ОБРАЗА ДОКУМЕНТА

5.1. ПОД состоит из выбранных терминов индексирования, организованных с помощью грамматических средств ИПЯ данной ИПС.

5.2. В состав ПОД могут быть включены следующие категории данных, предусмотренные технологией индексирования конкретной ИПС:

степень нормализации терминов индексирования и применяемый для этого словарь;

индивидуальные характеристики термина индексирования;

связь терминов индексирования в синтаксических конструкциях ПОД.

Для включения в ПОД фактографических данных применяют грамматические категории, указанные в разд. 6.

5.3. По степени нормализации различают два типа терминов координатного индексирования: дескрипторы и ключевые слова.

5.4. Термины индексирования должны быть представлены в ПОД в соответствии с орфографическими правилами используемого в системе естественного языка.

5.4.1. Дескрипторы допускается представлять условными кодами, которые указаны в используемом словаре индексирования. В этом случае ИПС должна обеспечивать автоматический поиск орфографических форм дескрипторов по их кодам.

5.4.2. Ключевые слова в многоязычных информационных системах, с ПОД на основе различных национальных языков, должны быть снабжены пометами о принадлежности к тому или иному естественному языку.

5.5. Индивидуальные характеристики терминов индексирования являются факультативными элементами ПОД и их используют для уточнения содержания документа, организации процедур информационного поиска или дальнейшей аналитико-синтетической обработки документов в системе.

К индивидуальным характеристикам относят данные о семантической и морфологической категории термина индексирования, его роли и информационном весе, способе получения и предполагаемом использовании.

5.5.1. Семантическая характеристика термина индексирования заключается в отнесении его к следующим лексикографическим категориям:

1) термин, выражающий научно-техническое понятие;

2) имя собственное, идентификатор;

3) наименование параметра;

4) значение параметра (выраженное текстом или именованной величиной);

5) числовое выражение;

6) обозначение единицы величины.

5.5.2. Морфологическая характеристика термина индексирования заключается в отнесении его к лексикографическим категориям:

1) производное слово;

2) сложное слово;

3) словосочетание;

4) аббревиатура;

5) фрагмент слова.

Морфологические характеристики используют в ПОД для реализации в ИПС смыслового анализа лексических единиц на основе их формальных признаков.

5.5.3. Роль термина индексирования указывают в ПОД для уточнения места соответствующего понятия в содержании документа. Для этого особыми указателями роли, принятыми в ИПС, отмечают термины индексирования, отражающие следующие аспекты документа:

1) объект исследования, описания;

2) характеристики, свойства, параметры объекта;

3) методы и средства исследования, технологическую оснастку;

4) составные части, узлы, детали объекта;

5) область применения объекта (отрасль хозяйства, техники, науки);

6) назначение объекта;

7) цель исследования, разработки, описания;

8) результаты исследования, разработки.

5.5.4. Информационный вес термина индексирования отражает в ПОД важность данного понятия для данного документа. Число градаций информационного веса определяется потребностями конкретной ИПС. Следует различать:

1) понятия, выражающие главную тему документа;

2) понятия, выражающие побочные темы документа;

3) понятия, использованные в документе как вспомогательные для изложения его содержания.

Допускается использовать указатель отрицательного веса, которым помечают термины индексирования для указания на то, что данное понятие не рассматривается в документе.

5.5.5. Пометы, необходимые для указания на способ получения термина индексирования, используют для организации технологического процесса индексирования. Следует различать следующие пометы:

1) термин назначен по усмотрению индексатора, но отсутствует в документе;

2) термин введен в ПОД на основании связей, указанных в тезаурусе, но отсутствует в документе;

3) термин получен при автоматическом индексировании.

5.5.6. Пометы о предполагаемом использовании термина индексирования вводят в ПОД с целью выделить лексические единицы, подлежащие специальной обработке в процессах дальнейшей аналитико-синтетической переработки информации. Следует различать следующие пометы:

1) термин используется как предметная рубрика указателей:

2) при данном термине индексирования имеются фактографические данные, указанные в ПОД;

3) термин используется только как уточняющий определитель к другим терминам.

5.6. Термины индексирования в ПОД могут быть снабжены указателями связи, объединяющими их в синтаксические конструкции, которые отражают:

1) порядок следования и взаимное расположение терминов индексирования в документе;

2) смысловые связи понятий в документе;

3) парадигматические связи дескрипторов в тезаурусе.

Синтаксические конструкции рассматривают как цельные единицы ПОД наряду с терминами индексирования. Они могут быть объединены с другими синтаксическими конструкциями или с отдельными терминами индексирования в конструкции более высокого порядка.

Число уровней иерархии синтаксических конструкций определяется потребностями конкретных ИПС. Не следует применять конструкции четвертого и более высоких порядков.

Синтаксические конструкции могут быть охарактеризованы указателями веса, роли и предполагаемого использования аналогично индивидуальным терминам индексирования (см. пп.5.5.3, 5.5.4, 5.5.6).

5.7. Запись ПОД в памяти ИПС обусловлена принятым в ней способом кодирования с учетом требований настоящего раздела и ГОСТ 7.52 .

6. ФАКТОГРАФИЧЕСКОЕ ИНДЕКСИРОВАНИЕ ДОКУМЕНТА

6.1. Фактографическое индексирование документа (ФИД) заключается в выявлении в документе и включении в ПОД данных, выражающих конкретные сведения (сообщения), имеющиеся в документе.

На основании результатов ФИД в фактографических ИПС формируются массивы сведений, в которых единицей информации является фактографическая запись.

6.2. ФИД предполагает формальное различение в ПОД двух категорий терминов индексирования, выражающих:

1) темы или объекты сообщения;

2) приписанные этим объектам свойства, являющиеся смыслом сообщения.

Соответствующие термины индексирования должны быть связаны друг с другом в синтаксическую конструкцию, объединяющую наименование объекта, его характеристики, их значения, единицы величины и отражающую смысловые связи понятий в документе.

Дополнительно такая синтаксическая конструкция может быть охарактеризована:

1) показателем модальности;

2) условием истинности.

6.3. Показатель модальности фактографического сообщения определяет различие между сообщениями следующих типов:

1) наблюдаемый факт;

2) допускаемое значение;

3) требование стандарта;

4) плановый показатель;

7) предположение;

8) условие.

Если в информационной системе не используют показатели модальности, то все фактографические сообщения рассматривают как принадлежащие одной модальности, которая должна быть указана в эксплуатационной документации системы.

6.4. Условием истинности фактографического сообщения является другое фактографическое сообщение, связанное с первым в синтаксическую конструкцию вышестоящего уровня.

Например:

Х = вес продукта

Z = 150 г.

V = влажность не более 45%,

где Х - характеристика объекта,

Z - значение характеристики,

Y - условие истинности.

Фактографическое сообщение, являющееся условием истинности, должно иметь показатель модальности условия "если", например:

(вес продукта = 150 г) (если (влажность не более 45%)).

6.5. Термины индексирования, выражающие тему (объект) сообщения, относятся к категориям 1 или 2, указанным в п.5.5.1. При использовании категории 1 термину индексирования может быть дополнительно приписан показатель единичности или общности объекта (квантор).

Квантор общности используют в сообщениях, где выражено утверждение обо всех объектах, попадающих в объем соответствующего понятия.

Квантор единичности используют в сообщениях, где выражена информация о том объекте, входящем в состав данного понятия, который рассматривается в данном документе.

6.6. Термины индексирования, выражающие свойства объектов, которые составляют смысл сообщения, могут быть выражены лексическими единицами категорий 1, 2, 3 (см. п.5.5.1) или параметрической конструкцией (см. п.5.6).

6.7. Параметрическая конструкция должна состоять из двух формально выраженных частей: наименования параметра и перечня значений параметра (см. п.6.8), которые объединены в одну синтаксическую конструкцию.

6.8. Перечень значений в параметрической конструкции должен включать набор значений параметров и указание об альтернативности или одновременности (симультанности) значений.

Набор значений задают перечислением или указанием двух предельных значений, между которыми располагаются значения, принимаемые параметром (интервалом значений). При задании интервала значений формально указывают, которое из значений является начальным и конечным для интервала значений, а также входят ли граничные значения в указанный интервал. Одно из граничных значений интервала может отсутствовать, если значение параметра ограничено только с одной стороны.

Указание об одновременности используют, когда у одного объекта сообщения наблюдаются все заданные значения параметра. Указание об альтернативности используют, когда параметры одного объекта сообщения должны быть выбраны из числа заданных.

6.9. Значения параметра могут быть представлены синтаксической конструкцией из двух терминов индексирования - числового выражения и наименования единицы величины - при необходимости производить операции расчета или численного сравнения.

7. АВТОМАТИЗИРОВАННОЕ ИНДЕКСИРОВАНИЕ

7.1. Целью автоматизации индексирования является минимизация материальных и человеческих ресурсов, затрачиваемых на процедуру индексирования, а также достижение стабильности и единообразия ее результатов.

7.2. Автоматизированное индексирование (АИ) осуществляют по:

1) тексту первичного документа.

2) заглавию и аннотации или реферату документа;

АИ по тексту первичного документа должно включать процедуру сжатия ПОД.

7.3. С использованием вычислительной техники осуществляют следующие содержательные этапы АИ:

1) выявление информативных частей документа;

2) идентификация слов текста и приведение их к нормализованному виду (морфологический анализ и синтез);

3) формирование списка ключевых слов исходного текста;

4) подбор дескрипторов по тезаурусу;

5) формирование ПОД.

7.4. Выявление информативных частей документа

Технология АИ должна предусматривать идентификацию и предоставление индексатору или программе индексирования наиболее информативных фрагментов документа из списка указанных в п.2.1. Могут быть предусмотрены алгоритмы выявления информативных фрагментов по другим формальным критериям, а также по решению специалиста-индексатора.

7.5. Идентификация слов текста

7.5.1. Процесс идентификации слов текста должен включать: отождествление словоформ одного слова и определение информативных слов текста.

При этом может быть необходимо использование интеллектуальных процедур для решения таких задач, как выявление и обработка синтаксических конструкций, выявление и разрешение омонимии.

7.5.2. Для идентификации слов текста используют машинные словари (словари основ, парадигм, словосочетаний и т.д.). Словари должны быть представлены в базе данных системы и обеспечены средствами визуализации и ведения.

7.6. Формирование списка ключевых слов текста

7.6.1. В процессе формирования списка ключевых слов текста проводится синтаксический анализ текста с учетом правил сочетаемости грамматических категорий данного естественного языка.

7.6.2. Синтаксический анализ текста решает задачи:

1) разделение текста на фрагменты по заданным критериям;

2) установление синтаксических зависимостей между словоформами текста;

3) отождествление словосочетаний;

4) нормализация выявленных ключевых слов.

7.7. Автоматическое формирование ПОД

7.7.1. В процедуре АИ допускается формирование ПОД из свободных ключевых слов или дескрипторов информационно-поискового тезауруса, используемого в данной области.

7.7.2. При АИ дескрипторами информационно-поискового тезауруса на этапе формирования ПОД происходит замена ключевых слов на дескрипторы, указанные в тезаурусе.

7.7.3. При формировании ПОД из дескрипторов возможно обогащение ПОД за счет пополнения вышестоящими терминами информационно-поискового тезауруса.

7.7.4. Процедура АИ должна предусматривать включение в ПОД типовых грамматических средств (см. разд. 5).

7.7.5. К системам АИ предъявляются следующие требования:

1) модульность построения, т.е. такая внутренняя организация лингвистического и программного обеспечения системы, при которой процедуры решения отдельных задач АИ реализуются с помощью самостоятельных блоков или модулей;

2) ориентация на типовые программные и технические средства;

3) соответствие действующей нормативно-методической документации по координатному индексированию.

ПРИЛОЖЕНИЕ 1 (справочное). ТЕРМИНЫ И ОПРЕДЕЛЕНИЯ

ПРИЛОЖЕНИЕ 1

Справочное

1. Автоматизированное индексирование - индексирование, технология которого предусматривает использование формальных процедур, осуществляемых с помощью вычислительной техники, и может включать применение интеллектуальных процедур при принятии основных решений о составе поискового образа.

2. Автоматическое индексирование - составление поискового образа с использованием только формальных процедур обработки текста документа или запроса, осуществляемых средствами вычислительной техники.

3. Информативное слово - слово или словосочетание в тексте документа или запроса, которое несет в нем существенную смысловую нагрузку.

4. Контролируемое индексирование - индексирование, при котором предусмотрена замена информативных слов текста дескрипторами, указанными в определенном информационно-поисковом тезаурусе или другом словаре индексирования.

5. Координатное индексирование - индексирование, цель которого состоит во всестороннем отражении содержания документа или запроса путем включения в поисковый образ всех необходимых для этого терминов индексирования.

6. Лексическая единица (ЛЕ) ИПЯ - последовательность символов, слово, словосочетание, фрагмент слова или условное обозначение, которая рассматривается в данном ИПЯ как элементарная единица, используемая для представления в поисковых образах документов или запросов определенного понятия, объекта или значения параметра.

7. Свободное индексирование - индексирование, технология которого не предусматривает замену информативных слов текста в соответствии с рекомендациями специального словаря индексирования.

8. Специфический термин - информативное слово, в наибольшей степени отражающее содержание документа, использование которого отличает данный документ от других тематически близких документов.

9. Специфичность индексирования - характеристика качества индексирования, определяемая отношением числа специфических терминов и фактографических сведений к числу неспецифических терминов в поисковом образе.

10. Полнота индексирования - степень отражения в поисковом образе содержания документа и (или) запроса, определяемая как отношение числа специфических терминов и фактографических сведений, включенных в поисковый образ, к числу таковых терминов и сведений, имеющихся в тексте документа или запроса.

11. Фактографическое индексирование - индексирование, предусматривающее отражение в поисковом образе документа конкретных сведений (сообщений), являющихся смыслом данного документа.

ПРИЛОЖЕНИЕ 2 (справочное). СХЕМА ИНДЕКСИРОВАНИЯ ПО ИНФОРМАЦИОННО-ПОИСКОВОМУ ТЕЗАУРУСУ

ПРИЛОЖЕНИЕ 2
Справочное

1. Изучить документ и составить перечень существенных для его содержания понятий с учетом специфики ИПС.

2. Рассмотреть первое понятие

3. Найти в тезаурусе лексическую единицу, отражающую данное понятие. Если таковой нет, перейти к п.11.

4. Если найденная лексическая единица - аскриптор, заменить ее указанным в ссылке дескриптором (или комбинацией дескрипторов).

6. Проверить, не являются ли указанные в ссылках дескрипторы более специфичными для выражения данного понятия. Если да, то перейти к п.10.

7. Записать найденные лексические единицы в поисковый образ, снабдив их необходимыми грамматическими показателями по правилам данного ИПЯ.

8. Проверить, имеются ли еще не отраженные в поисковом образе понятия из документа и рассмотреть следующее понятие. Перейти к п.3.

9. Если список понятий документа исчерпан, окончить работу.

10. Заменить исходный дескриптор более специфичными согласно указанию ссылки в тезаурусе. Перейти к п.7.

11. Найти в тезаурусе дескрипторы, совместное включение которых в поисковый образ отражает данное понятие. Если таковых нет, перейти к п.12, если есть - перейти к п.5.

12. Установить термин, выражающий понятие и удовлетворяющий требованиям к дескриторам по ГОСТ 7.25 .

13. Направить найденный термин в службу ведения ИПЯ в качестве кандидата на включение в тезаурус. Перейти к выполнению п.7.

14. Конец.

Блок-схема индексирования по информационно поисковому тезаурусу показана на чертеже.

Блок-схема алгоритма индексирования



Текст документа сверен по:
официальное издание
М.: Издательство стандартов, 1992

Типы систем индексирования. Морфологический анализ и нормализация понятий.

Индексирование – это процесс перевода текстов с естественного языка на ИПЯ. Индексирование базируется на совокупности инструкций, детально описывающих процесс индексирования и представляющих собой комплекс правил, включающих и правила применения ИПЯ .

Система индексирования (СИ) совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ПНЯ. Помимо правил применения ИПЯ система индексирования может включать большое разнообразие инструкций, положений, методов и т.д., регламентирующих те или иные этапы процесса индексирования.

Существующие системы индексирования сильно отличаются друг от друга, и описать их общий состав и структуру невозможно. Однако наличие общих признаков позволяет дать системное представление о классах систем индексирования.

Рассмотрим типологию систем индексирования по пяти наиболее важным основаниям (рис. 5.1).

1. Но степени автоматизации процесса индексирования выделяют

Ручного индексирования;

Автоматического индексирования;

Автоматизированного индексирования.

2. По степени контролируемости различают системы:

Без словаря;

С жестким словарем;

Со свободным словарем.

3. По характеру алгоритма отбора слов текста выделяют системы:

С последовательным просмотром текста (отбираются все полнозначные слова);

Эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре):

Со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).

4. По характеру лексикографического контроля различают системы:

Без лексикографического контроля;

С полным контролем;

С промежуточным контролем.

Лексикографический контроль предусматривает:

Устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;

Нормализацию слов на основе морфологических нормативных словарей.

В системах с полным контролем реализуются обе функции лексографического контроля. В системах индексации с промежуточным контролем эти функции реализуются частично.

Рис. 5.1. Типы систем индексирования

5. По характеру морфологического анализа слов различают системы:

С использованием морфологических словарей;

С использованием основных лексических словарей;

С использованием морфологического анализа с усечением слов.

Возможны системы индексирования без морфологического анализа.



Примеры систем индексирования:

1) Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это системы индексирования с ручным индексированием, без словаря, с эвристическими процедурами отбора слов, без лексиграфического контроля и морфологического анализа.

2) Процесс полусвободного индексирования аналогичен вышеописанному, но слова сформированного списка соотносятся со словарем, несовпадающие слова отбрасываются в ПОД не включаются.

3) При жестком индексировании слова берутся только из текста. В ПОД включаются только те слова, которые есть в словаре. Перед включением термина в словарь производится его морфологическая нормализация на базе основных лексических словарей.

4) При статическом автокодировании слова выбираются из текста по заданным статистическим процедурам, после чего производится их статистическое кодирование путем усечения слов по алгоритмам позиционной статистики.

Существует ряд и других систем индексации.

Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.

Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса - прямой и инвертированный.

Прямой тип индекса строится по схеме «документ-термины». Поисковое пространство в ЭТОМ случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.

Инвертированный тип индекса строится по обратной схеме - «термин-документы». Поисковое пространство соответственно представлено аналогичной матрицей, только в транспонированной форме. Поисковыми образами документов в этом случае являются столбцы матрицы.

Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).

Морфологический анализ и нормализация понятий. Основные этапы процесса индексирования состоят в выборе понятий текста, отражающих его основное смысловое содержание, а также в морфологическом анализе и лексографическом контроле отобранных понятий и их кодировании .

Процедура отбора информативных понятий текста аналогична процессам выбора понятий при построении словарей основных лексических единиц, рассмотренным в предшествующей теме.

Рассмотрим более подробно суть процедур морфологического анализа, лексикографического контроля и кодирования понятий при использовании различных видов словарей.

Процедура морфологического анализа по морфологическим словарям состоит:

1) в определении обобщенного грамматического класса слова и его членами на основу и окончание (по словарям основ и окончаний);

2) в идентификации рода существительных (по основам слов);

3) в выявлении номера флексивного класса слов (по обобщенному грамматическому классу, признаку рода, окончанию, конечным буквосочетаниям основы);

4) в определении номера набора грамматической информации к слову.

Результатом такого анализа является нормализованное слово и номер набора его грамматической информации.

Нормализованные слова кодируются путем их замены буквенными кодами или кодами слов. В первом случае каждая буква заменяется соответствующим ей кодом (по словарю кодов букв). Во втором случае слова отождествляются по словарю лексических единиц и заменяются их номерами или кодами словаря.

Декодирование слов, производимое при выдаче результатов поиска, состоит в формировании буквенного кода слова (а затем и самого слова) по номеру или коду его нормализованной части и по номеру соответствующей грамматической информации.

При использовании словосочетаний процедура морфологического анализа существенно усложняется, включая в себя :

1. Отождествление слов словосочетания с элементами словаря слов. Замена их номерами по словарю, сопровождение грамматической информацией.

2. Выявление грамматической структуры словосочетания в целом – синтаксический анализ (по грамматической информации слов словосочетания).

3. Поиск по словарю номера словосочетания, соответствующего данному сочетанию номеров слов и грамматической структуре кодируемого словосочетания.

4. Выбор из словаря по номеру словосочетания соответствующего ему номера грамматической структуры и самой структуры. Сравнение выбранной грамматической структуры с грамматической структурой кодируемого словосочетания, полученной на втором этапе. Если структуры совпадают, то понятия тождественны. Анализируемое словосочетание заменяется соответствующим ему номером или кодом. Два последних этапа являются этапами семантического анализа.

Декодирование словосочетаний представляет собой :

1) выбор из словаря по номеру словосочетания соответствующего ему набора номеров слов и номера грамматической структуры;

2) извлечение информации о формах слов и их связях, восстановление порядка слов в словосочетании (по грамматической структуре);

3) формирование буквенного кода словосочетания и самого сочетания.

Морфологический анализ по словарям основных лексических единиц включает 2 этапа: сравнение слова со словарем (идентификация и определение номера совпадающего понятия) и выявление номера набора понятий осуществляется буквенным кодом или кодами понятий (по словарю).

В ИПС широко применяется морфологический анализ путем усечения слов. При этом используются различные процедуры усечения :

а) с использованием словарей (основ, окончаний и т.д.);

б) без использования словарей (по простейшим априорным правилам);

в) статистическое усечение слов с использованием аппарата позиционной статистики.

В случае а) процедуры морфологического анализа, кодирования и декодирования те же, что и при использовании морфологических словарей. В случае б) начало и/или окончание слов усекается по определенным правилам. Усеченные части слов кодируются буквенными кодами. Декодирование отсутствует. В случае в) при усечении слов используется аппарат и словари позиционной статистики. Слова кодируются буквенными кодами, а декодирование тоже отсутствует.

При усечении слов производятся только их нормализация и неморфологический анализ.

Контрольные вопросы

1. Каковы роль и место системы индексирования в составе логико-семантических средств, обеспечивающих создание и функционирование автоматизированной информационно-поисковой системы?

2. Приведите примеры систем индексирования.

3. По каким типологическим признакам можно разделять системы индексирования?

4. В чем суть процедуры морфологического анализа, лексикографического контроля и кодирования понятий при использовании различных видов словарей в процессе индексирования?