Информационно-поисковый язык. Система индексирования. Цель процесса индексирования. Тема: индексирование документов: определение, основные процессы

Индексирование документов

(Систематизация, предметизация, координатное индексирование)

Индексирование – это выражение содержания документа и/или смысла информационного запроса на информационно-поисковом языке (ГОСТ 7.74-96). Выделяют три вида индексирования документов: классификационное (систематизация), предметное (предметизация), координатное (координатное индексирование).

Предметное индексирование – индексирование предметного содержания документа, выраженное языком предметных рубрик.

Классификационное индексирование – систематизация документов посредством понятий и кодов какой-либо классификационной системы.

Координатное индексирование – индексирование, предусматривающее многоаспектное выражение основного смыслового содержания информационного запроса множеством ключевых слов или дескрипторов.

Название поля

Указания

Классификационный индекс, определенный по таблицам ББК

Индексы другой классификации, используемой библиографирующим учреждением, например, ТБК или таблицы для краеведческих документов

Определяется по встроенной таблице Хавкиной. Автоматически проставляется после сохранения при наличии классификационного индекса

903: Шифр документа в БД

Идентификатор документа, строится автоматически

906: Систематический шифр

Расстановочный шифр, определяемый библиографирующим учреждением

60: Раздел знаний

Порядковый номер, включающий название отрасли в целом

Краткая формулировка темы на естественном языке

Предметный заголовок

Первый элемент многочленной предметной рубрики

1-й подзаголовок

Конкретизируют основные характеристики, состав, состояние, свойства и т. д. предмета, выраженного заголовком предметной рубрики

2-й подзаголовок

Детализирует аспекты рассмотрения предмета, выраженные в 1-м подзаголовке предметной рубрики

Эффективность

3-й подзаголовок

Детализирует аспекты рассмотрения предмета, выраженные во 2-м подзаголовке предметной рубрики

Математические расчеты

Географический подзаголовок

Отражают географический (территориальный) аспект рассмотрения предмета, показывают его связь с определенной территорией

Географический подзаголовок

Географический подзаголовок

Хронологический подзаголовок

Конкретизируют период времени или определенную дату. Обозначают арабскими цифрами, словесными формулировками эпохи и периодов

2005–2008 гг.

20 в., вторая половина

610: Ненормированные ключевые слова

Ключевое слово (словосочетание из текста документа), которое несет в данном тексте существенную смысловую нагрузку с точки зрения информационного поиска. Целесообразно использовать КС для дополнительного раскрытия содержания документа на более глубоком уровне, т. е. использовать ПР для описания основных предметов документа и их аспектов, КС – для их дальнейшей детализации а также описания побочных тем документа. Выбираются непосредственно из текста документа и вводятся в данное поле, если они отсутствуют в заглавии и предметной рубрики

Писатели

Доплера эффект

Оздоровительные лагеря

600: Персоналия

(о нем) – имя лица

Предметная рубрика, заголовком которой является имя лица, если оно является предметом рассмотрения в документе. Содержит подполя, аналогичные полям 700 «Автор» и 701 «Другие индивидуальные авторы»

Фамилия, инициалы

Расширение инициалов

Татьяна Григорьевна

Неотъемлемая часть имени

Дополнения к именам, кроме дат

Д-р филол. наук (фольклорист), лауреат Гос. премии УР (2004)

Даты жизни

Разночтение фамилий

Персоналия (о нем)

Записывается в одну строчку полное наименование организации

Ижсталь, спортивная команда по хоккею

331: Аннотация

Краткая характеристика документа, поясняющая его содержание, назначение, форму, другие особенности

Процесс индексирования включает следующие этапы:

– выявление основных компонентов содержания документа,

– представление выявленных компонентов содержания средствами информационно-поисковых языков.

В процессе индексирования учитываются:

– информационные потребности пользователей,

– общая и частные методики индексирования.

Предметные рубрики (ПР), присвоенные документу, должны отражать содержание каталогизируемого документа с максимальной полнотой и точностью. Как правило, документу следует присваивать адекватные ПР, формулировка которых выражает объем понятия, наиболее точно соответствующий объему понятия о предмете документа. Обобщающие рубрики, которой выражает объем понятия более широкий, чем объем понятия о предмете документа, присваиваются в том случае, если нерационально использовать адекватные ПР.

Количество ПР, присвоенных документу, может быть различным и зависит от содержания каталогизируемого документа. Индексатор может присвоить документу одну или несколько ПР.

Новые предметные рубрики создаются при наличии документов соответствующей тематики. Для формулирования новых ПР следует использовать термины, соответствующие современному состоянию терминосистем. Использование терминологии должно основываться на

§ отраслевых энциклопедиях;

§ современных терминологических словарях;

§ каталогизируемых документах.

Правила формулирования предметной рубрики

1. В состав ПР могут входить все части речи , но основной языковой формой выражения понятий в ПР являются имена существительные и словосочетания на их основе. Наличие существительного в ПР обязательно.

2. Заголовок и подзаголовки предметных рубрик формулируются в именительном падеже . При инверсировании словосочетаний может применяться родительный падеж . Например: Ома закон.

3. Слова, используемые в предметной рубрики, формулируются во множественном числе . Исключение представляют термины, которые не употребляются во множественном числе. Например: Транспорт. Дыхание. Единственное число принято и для тех слов, которые во множественном числе обозначают другое понятие. Например: Театр – как вид искусства и Театры – как вид учреждения.

4. При употреблении предмета в полной и краткой форме предпочтение отдается полной форме. Исключение составляют слова у которых краткая форма вытеснила полное наименование предмета и сокращение вошло в терминологию. Например: КПСС, ЮНЕСКО.

5. При использовании в формулировке предметных рубрик многозначных слов и слов-омонимов в скобках указывать слова, уточняющие содержание понятия (реляторы). Например: Представления (гносеол.) и Представления (мероприятия).

6. Для того, чтобы в позиции ведущего слова предметной рубрики находилось слово, несущее максимальную смысловую нагрузки, возможно применение инверсии. Инверсия применяется в следующих случаях:

6.1. В отношении таких понятий, как теорема, теория, метод, задача, эффект, явление и т. д. Например: Вероятностей теория, Ферма теорема.

6.2. В отношении так называемых «нехарактерных» прилагательных. В этих случаях существительное является основным словом, определяющим сущность предмета, а прилагательное обозначает не основные свойства предметов, а их частные вторичные признаки

К таким признакам относятся:

– некоторые нехарактерные внешние признаки (величина, объем, форма, цвет и т. д.). Например: Строительные конструкции легкие.

– физические свойства и состояния (твердый, жидкий, сухой и т. д.). Например: Пищевые продукты жидкие.

– некоторые количественные, пространственные и временные определения и отношения. Например: Музыкальные фестивали международные.

Исключениями являются те случаи, когда нехарактерное само по себе прилагательное является частью общепринятого термина. Например: Внешняя торговля.

6.3. В случае, если имя собственное входит в географическое название.

Например: Лаптевых море.

Правила формулирования географического термина

1. При формулировании географического термина, вводимого в словарь, следует использовать исторически сложившиеся, более краткое общеупотребительное название государства. Развернутые официальные названия государств используются только при отражении юридической литературы. Например: Конституция – Российская Федерация.

Географическое наименование должно соответствовать историческому периоду, рассматриваемому в документе. Например:

Вятская губерния

Устинов, город.

2. Названия всех географических объектов должны иметь уточнения, к какой категории географических объектов они относятся (город, остров, река и т. д.). Эти уточнения записываются без сокращений через запятую и пробел после наименования объекта. Например.

Процедуру перевода с естественного языка на ИПЯ называют индексированием . Результатом такого перевода является ПОД (при вводе документов в ИПС) или ПОЗ (при индексировании запроса пользователя).

Проблема индексирования связана с семантическим анализом текстов документов. Сложность ее связана с тем, что индексирование документов, вводимых в поисковые массивы, и запросов пользователя разнесены во времени.

Для алгоритмизации и автоматизации индексирования необходимо решить проблему выбора для включения в ПОД или ПОЗ наиболее значимых ключевых слов, дескрипторов, фраз (в зависимости от лексических единиц ИПЯ).

Важность можно определить несколькими признаками:

  • статистическими, т.е. на основе частоты использования термина в документе;
  • на основе высказываний автора (его мнения, отраженного в заглавии документа или подзаголовках, выделяемых автором в документе);
  • с помощью грамматики, позволяющей отразить взаимосвязи между лексическими единицами, содержащимися в контексте;
  • по критериям важности, сформулированным пользователем, для чего при индексировании документов могут быть указаны весовые коэффициенты дескрипторов.

Система индексирования конкретной ИПС определяется в основном возможностями ИПЯ, имеющимися в нем лексическими и синтаксическими средствами. Однако есть и некоторые специфические правила и рекомендации, исследование которых позволило выявить некоторые разновидности систем индексирования.

Существуют различные типы систем индексирования.

1. К первому типу относят системы свободного индексирования.

При этом способе из индексируемого документа выписываются в ПОД слова или словосочетания, которые отражают содержание индексируемого документа. Кроме этого, элементами ПОД могут быть слова, отсутствующие в этих документах, но отражающие более точно смысл их текстов с точки зрения целей создания ИПС. Выписанные элементы упорядочиваются в алфавитном порядке. Такой упорядоченный набор слов (словосочетаний) представляет собой ПОД при этом типе индексирования. Аналогично – из текста запроса пользователя формируется ПОЗ.

Такой процесс индексирования является принципиально неалгоритмическим, т.е. неавтоматизируемым.

2. При втором методе, который условно называют методом полусвободного индексирования, из документа выписывают слова и словосочетания вначале так же, как и при свободном индексировании.

Однако выписанные элементы сравнивают затем с фиксированным словарем, не найденные в нем – устраняют, а оставшиеся, упорядочиваемые в алфавитном порядке, представляют собой ПОД (или ПОЗ).

3. Третий способ индексирования основан на статистическом подходе.

Выбор слов (выражений) исходного текста, подлежащих включению в ПОД, производится на основе статистического анализа текста, при котором его слова рассматриваются как знаки, не имеющие семантических значений. При этом предлагались различные статистические критерии, основанные на сопоставлении относительной частоты употребления слова в документе и относительной частоты употребления слова в представительном массиве документов (т.е. в репрезентативной статистической выборке).

Например, в предлагаются следующие количественные критерии:

где F – относительная частота употребления слова в документе; R – относительная частота употребления слова в представительном массиве документов.

Легко видеть, что в основе приведенных соотношений лежит идея, согласно которой информационная значимость слова определяется расхождением частоты его употребления в данном документе и во всем потоке рассматриваемых документов.

Возможны различные подходы к определению расхождения:

  • согласно первому вычисляется расхождение между частотой употребления слов в потоке документов данной тематики (монотематический поток) и частотой встречаемости этого слова в многотемном потоке документов (политематический поток);
  • второй принцип основан на вычислении расхождения частоты употребления слова в потоке текстов данной тематики и частоты этого же слова в потоке текстов тематики, далекой от данной ("противоположной" тематики).

Статистический способ индексирования может быть алгоритмизирован и автоматизирован, и в настоящее время имеются средства автоматизированного статистического анализа текстов.

Однако самостоятельного практического применения в ИПС этот способ не нашел, он используется как вспомогательный в сочетании с семантическим анализом текстов документов.

4. К четвертому типу относят системы индексирования, контролируемые заданным словарем (тезаурусом ).

Алгоритм индексирования сводится к тому, что каждое слово текста сравнивается с точностью до основы со словарем, совпавшие слова записываются в ПОД.

В некоторых системах словарь используется как помощник специалисту, занимающемуся индексированием текста.

К таким системам относится, например, УДК. В других – такой словарь является элементом алгоритма индексирования: слово, одновременно встретившееся в тексте и в словаре, записывается в ПОД. В дескрипторных ИПЯ в ПОД

(ПОЗ) записываются не само слово текста, а соответствующий ему дескриптор.

Перспективным представляется индексирование документов с использованием специально разработанных иерархических классификаций, отражающих цели поиска и использования документов.

Такие классификаторы могут использоваться в качестве ИПЯ в информационных системах нормативно-методического обеспечения управления: иерархический классификатор, объединяющий нормативно-методические документы, разрабатывается на основе структуры целей (основных направлений) и функций деятельности предприятия.

Иерархический классификатор ИПЯ может быть основой системы избирательного распределения информации (ИРИ): разрабатывается классификатор потребностей категории работников, пользующихся системой ИРИ.

  • При подготовке этого раздела использовалась классификация, предложенная в работе: Певзнер Б. Р. Информационно-поисковые системы и информационно-поисковые языки / Б. Р. Певзнер. М.: ИПКИР, 1974. С. 10-11.

Информационные системы. Автоматизированные информационные системы.

1. Информационные системы.

2. Информационно-поисковый язык. Система индексирования. Цель процесса индексирования.

3. Документальные информационные системы. Показатели эффективности документальной ИС.

4. Фактографическая система. Что такое предметная область? Модели данных.

5. Построение ER-модели предметной области.

6. Теория нормализации отношений.

7. Уникальный идентификатор сущности.

8. Классификация и структура АИС

9. Понятие жизненного цикла АИС. Фазы и процессы, модели жизненного цикла АИС.

10. Технология проектирования АИС.

11. Структурный подход к проектированию АИС.

12. Использование CASE – средств при проектировании АИС.

13. SCADA – системы: этапы создания, области применения, функциональные возможности.

Информационные системы.

Информационная система (ИС) - это система, предназначенная для ведения информационной модели, чаще всего - какой-либо области человеческой деятельности. Эта система должна обеспечивать средства для протекания информационных процессов :

хранение

передача

преобразование информации.

Информационной системой называют совокупность взаимосвязанных средств, которые осуществляют хранение и обработку информации, также называют информационно-вычислительными системами. В информационную систему данные поступают от источника информации. Эти данные отправляются на хранение либо претерпевают в системе некоторую обработку и затем передаются потребителю.

Между потребителем и собственно информационной системой может быть установлена обратная связь. В этом случае информационная система называется замкнутой . Канал обратной связи необходим, когда нужно учесть реакцию потребителя на полученную информацию.

Информационная система состоит из источника информации , аппаратной части ИС , программной части ИС , потребителя информации .

Различают 3 класса информационных систем по степени их автоматизации:

Ручные информационные системы - характеризуются отсутствием современных технических средств переработки информации и выполнением всех операций человеком. Например, о деятельности менеджера в фирме, где отсутствуют компьютеры, можно говорить, что он работает с ручной ИС.

Автоматизированные информационные системы (АИС) - наиболее популярный класс ИС. Предполагают участие в процессе обработки информации и человека, и технических средств, причем главная роль отводится компьютеру.

Автоматические информационные системы - выполняют все операции по переработке информации без участия человека, различные роботы. Примером автоматических информационных систем являются некоторые поисковые машины Интернет, например Google, где сбор информации о сайтах осуществляется автоматически поисковым роботом и человеческий фактор не влияет на ранжирование результатов поиска.

Информационно-поисковый язык. Система индексирования. Цель процесса индексирования.

Информационно-поисковый язык, знаковая система, предназначенная для описания (путём индексирования ) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации информационного поиска . Любой абстрактный И.-п. я. состоит из алфавита (списка элементарных символов), правил образования и правил интерпретации. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации - как надлежит понимать эти слова и выражения.

И.-п. я. должен располагать лексико-грамматическими средствами, необходимыми для выражения основного смыслового содержания любого текста и смысла любого информационного запроса по данной отрасли или предмету, быть недвусмысленным (допускать одно истолкование каждой записи), удобным для алгоритмического сопоставления и отождествления (полного или частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов. При разработке конкретного И.-п. я. учитываются специфика отрасли или предмета, для которой этот язык создаётся, особенности текстов, образующих поисковый массив, характер информационных потребностей, для удовлетворения которых создается данная информационно-поисковая система .

В большинстве И.-п. я. основной словарный состав (лексика) задаётся его перечислением и представляет собой фрагмент лексики того или иного естественного языка. Отобранные из естественного языка слова и словосочетания, в совокупности образующие основной словарный состав, служат как бы алфавитом данного И.-п. я. Правила образования в таких И.-п. я. выполняют функцию синтаксиса. В некоторых И.-п. я. основной словарный состав задаётся (полностью или частично) методом порождения, который заключается в том, что для таких И.-п. я. правила образования устанавливают, как из данного алфавита строить слова И.-п. я., а из этих слов - выражения (фразы) и какие из них будут правильно построенными. И.-п. я. отличается от информационного языка и от машинного языка . В середине 20 в. в качестве И.-п. я. широко применяются классификации библиотечно-библиографические и языки дескрипторного типа.

Система индексирования представляет собой большое скопление информации (базу данных), приносимых в нее роботом-посетителем. Эта информация определенным образом структурируется и индексируется, чтобы впоследствии было легче выделить список сайтов по конкретным ключевым словам.

Процесс индексирования включает следующие этапы, которые осуществляют в указанной ниже последовательности:

анализ и определение содержания документа, как объекта индексирования;

выбор понятий, характеризующих содержание документа;

выбор терминов индексирования для обозначения понятий;

формирование поискового образа документа из терминов индексирования.

Перечисленные этапы могут быть объединены в составе технологических процедур при условии надлежащего выполнения каждого из этапов.

1. Поисковый образ документа (ПОД) формируют из выбранных терминов индексирования при помощи грамматических средств информационно-поискового языка (ИПЯ).

2. В процессе индексирования не рекомендуется описывать документ как физический объект (c точки зрения его формы, объема и пр.). Допускается отражать в ПОД подобную информацию, если она позволяет более точно установить соответствие документа информационной потребности пользователя системы.

©2015-2019 сайт
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-04-02

Кристина Загорулько

Дек 21, 2015 | Время чтения: 6 мин

Задача любого сайта - донести до как можно большего количества людей информацию, которую он содержит. Продвижение сайта в поисковых системах (ПС) - наиболее эффективный способ это сделать. Один из этапов продвижения - индексация сайта, т. е. считывание всех данных с сайта, последующая их обработка алгоритмами поисковых систем и занесение результатов в базу данных.

Не зная кухни этого процесса, эффективно продвигать сайт невозможно. В этой статье мы расскажем, что происходит с информацией, собранной с ресурса в недрах ПС и как ее упаковать для лучшего усвоения. То есть расскажем о процессе индексирования и его улучшении.

Индексация сайта - что находится в начале

Если театр начинается с вешалки, то индексирование с того, что роботу поисковой системы необходимо сообщить, что в интернете появился новый ресурс. Сделать это можно двумя способами:

  1. Зарегистрировать сайт в поисковой системе вручную Яндексу (webmaster.yandex.ru/addurl.xml), Google (www.google.com/webmasters/tools/submit-url?hl=ru) и других поисковых системах, если они вас интересуют.
  1. Дать ссылку на сайт со стороннего интернет-ресурса (разумеется, тот уже должен быть зарегистрирован).

Первый способ предпочтительнее, так как в этом случае первая индексация с большой вероятностью произойдет раньше.

Отчего зависит частота индексирования и как ее ускорить

Сейчас в базе данных Яндекса больше триллиона (!) веб-адресов (каждая страница любого сайта имеет свой адрес). Разумеется, проиндексировать всю эту махину за один день - задача нереальная. Поэтому следует понимать, что индексация сайта происходит не каждый день, а с определенной периодичностью. Причем эта периодичность - величина непостоянная и зависящая от ряда факторов. И на практике получается, что одни ресурсы ПС индексируют чуть ли не ежедневно, а для других - поисковый робот редкий гость. Поэтому очень желательно, предпринять ряд действий, чтобы интервал между индексациями уменьшить. Тогда вы эффективнее будете продвигать свой сайт, так как быстрее сможете видеть результаты своих действий на нем и, соответственно, быстрее вносить коррективы.

Что влияет на эту оперативность?

  1. Загруженность сервера, где расположен сайт. Если он загружен множеством сайтов, а его технические характеристики не позволяют оперативно передавать информацию поисковому роботу, то последний будет его посещать реже. Отсюда рекомендация - хотите быстрой индексации, разместите свой интернет-ресурс на качественном хостинге.
  2. Частота обновления веб-страниц и всего сайта в целом. Чем чаще происходят обновления, тем чаще робот будет приходить на такой ресурс. Все вполне логично. Смысл часто приходить туда, где ничего не происходит? Только следует знать один нюанс. Робот будет приходить именно на те страницы, которые часто и обновляются. То есть, если хотите, чтобы оперативно оценивалась информация на главной странице вашего сайта ее и регулярно обновляйте. Самый простой способ - разместить на ней блок новостей.
  3. Посещаемость сайта и его посетителей. То есть, если посещаемость высокая и люди на ресурсе задерживаются долго, совершают внутренние переходы, то интервал между индексациями, безусловно, уменьшится.

Как видите, на все эти три фактора можно влиять в благоприятную для владельца сайта сторону.

Как узнать, что страница в индексе

Это далеко не праздный вопрос и не из серии: «Лучше любая информация, чем неизвестность». Ведь если точно знать, что индексация прошла, а позиции вашего сайта в выдаче не изменились, значить что-то вы делаете не так.

Проверить индексацию сайта можно несколькими способами:

  1. На сервисе Яндекс.Вебмастер («Проверить URL»). Здесь можно узнать:
    • когда произошла последняя индексация;
    • какой документ показывается посетителю в результате поиска;
    • рекомендации по ускорению индексации;
    • если страница отсутствует в поиске, то по каким причинам.
  2. Провести поиск при помощи следующего выражения: url:интересующий url, например, url: moi sairu/contacts
  3. Поиск при помощи оператора site:. Например, записав в поисковую строку site: moi site.ru вы получите список всех страниц вашего сайта, которые были проиндексированы.
  4. Проверить индексацию списка URL в .

Сервис SE Ranking предлагает также инструмент отслеживания выдачи заданного URL в поиске. Так что вы всегда будете знать, не выпала ли интересующая страница из индекса, а также выдается ли нужная страница по конкретному поисковому запросу.

Как управлять поисковым роботом

Поисковая система скачивает информацию с сайта по строго определенному плану. Тут нет места импровизации. А где она берет этот план? Да на самом интернет-ресурсе! То есть вы можете указать ПС, что и как скачивать или не скачивать.

Файл robots.txt

Очень важный файл, в котором можно указать, какие страницы нельзя индексировать. Это очень важно, так как ни в коем случае нельзя позволять ПС считывать личную информацию пользователей: номера телефонов, паспортные данные, если таковые имеются и т. д. В противном случае владельцу сайта могут грозить крупные неприятности. Также, если у вас социальная сеть, особенно посвященная знакомствам, необходимо запретить индексацию страниц, где могут содержаться личные данные пользователей. Например, строка Disallow:/admin запретит роботу просматривать страницы, урл которых начинается со слова admin, а Disallow:/images запретит индексировать картинки.

Обязательно в robots.txt укажите адрес карты сайта sitemap. В этом случае вы будете уверены, что робот увидит все страницы вашего сайта, индексация которых не запрещена.

Типичные ошибки в файле robots.txt

  1. Ошибочный запрет к индексации некоторых страниц сайта.
  2. Код HTTP-ответа отличный от 200. Например, если при запросе страницы с файлом robots.txt поисковый робот получит HTTP-ответ, равный 403 («запрещено»), то он полностью проигнорирует содержимое файла robots.txt, в том числе на запрет индексации определенных страниц.
  3. Наличие кириллических символов в файле. Особенно часто такая ошибка стала появляться, когда появилась возможность записывать урл кириллическими буквами. Например, если в директиве Host (указывает на главное зеркало сайта) написать лютикицветочки.рф, то такая запись будет проигнорирована. В таких случаях необходимо такие урл передавать в юникоде.
  4. Размер файла txt превышает 32 кб.

В завершении по robots.txt заметим, что не обязательно сайт должен его иметь. Для простых одно-двухстраничных интернет ресурсов, например, такой файл будет лишним. Если же у вас он есть, то корректность его содержимого можно проверить на странице Яндекс.Вебмастер - webmaster.yandex.ru/robots.xml. Загружаете файл в специальную форму и видите, какие ошибки в нем есть.

Файл sitemap

В этом файле указывается, какие страницы подлежат индексации. Конечно, указать на них поисковому роботу можно и другими способами. Например, навигацией меню, « », внутренней перелинковкой.

Но, во-первых, если у вас есть лендинг пейдж, на которую можно попасть только по внешней ссылке, то проиндексировать ее можно только с помощью sitemap.

Во-вторых, в sitemap при помощи:

  • тега Можно указать приоритет индексации;
  • тега частоту обновления конкретной страницы.

Эта информация не директивная для робота, но обязательно будет принята им во внимание.

Типичные ошибки в файле sitemap

  1. Размещение sitemap на другом сайте. Часто это бывает, когда используется сервис для генерации такой файла. В этом случае сервис размещает карту вашего сайта у себя.
  2. На странице, где находится карта сайта, установлен редирект.
  3. Критические ошибки внутри файла sitemap. Например, отсутствует строка с указанием кодировки.

Проверить правильность файла sitemap на странице Яндекс.Вебмастер — webmaster.yandex.ru/ sitemaptest.xml.

Во второй части статьи: « Принципы индексирования сайта. Часть 2» мы поговорим о принципах работы с зеркалами, о дублях страниц, об ошибках при использовании HTTP-кодов. И еще раз подчеркнем, что правильная настройка индексации сайта может существенно помочь его продвижению.

Просмотры: 669

Что такое индексирование сайта? Как оно происходит? На эти и другие вопросы вы можете найти ответы в статье. в поисковых системах) называют процесс приобщения информации о сайте к базе данных роботом поисковой машины, которая впоследствии используется для розыска сведений на веб-проектах, прошедших такую процедуру.

Данные о веб-ресурсах чаще всего состоят из ключевых слов, статей, ссылок, документов. Индексироваться также могут аудио, изображения и так далее. Известно, что алгоритм выявления ключевых слов зависим от поискового устройства.

На типы индексируемой информации (flash файлы, javascript) существует некоторая лимитация.

Управление приобщением

Индексирование сайта - сложный процесс. Чтобы им управлять (к примеру, запрещать приобщение той или иной страницы), нужно использовать файл robots.txt и такие предписания, как Allow, Disallow, Crawl-delay, User-agent и другие.

Также для ведения индексации применяют теги и реквизит , скрывающие содержимое ресурса от роботов Google и «Яндекса» (Yahoo применяет тег ).

В поисковой системе Goglle новые сайты индексируются от пары дней до одной недели, а в Яндексе - от одной недели до четырёх.

Вы желаете, чтобы ваш сайт показывался в запросах результатов поисковиков? Тогда он должен быть обработан «Рамблером», «Яндексом», Google, Yahoo и так далее. Вы должны сообщить поисковым машинам (паукам, системам) о существовании вашего веб-узла, и тогда они просканируют его полностью или частично.

Многие сайты не индексируются годами. Информацию, которая на них находится, не видит никто, кроме их владельцев.

Способы обработки

Индексирование сайта может выполняться несколькими способами:

  1. Первым вариантом является ручное добавление. Вам нужно ввести данные своего сайта через особые формы, предлагаемые поисковиками.
  2. Во втором случае робот поисковой машины сам находит ваш веб-узел по ссылкам и индексирует его. Он может разыскать ваш сайт по ссылкам с других ресурсов, которые ведут на ваш проект. Этот способ наиболее эффективен. Если поисковик нашёл сайт таким образом, он считает его значительным.

Сроки

Индексирование сайта происходит не слишком быстро. Сроки разные, от 1-2 недель. Ссылки с авторитетных ресурсов (с великолепным PR и Тиц) значительно ускоряют размещение сайта в базе поисковиков. Сегодня самым медленным считается Google, хотя до 2012 года он мог выполнять эту работу за неделю. К сожалению, всё очень быстро меняется. Известно, что Mail.ru работает с веб-узлами в этой области около полугода.

Индексирование сайта в поисковиках осуществить способен не каждый специалист. На сроки добавления в базу новых страниц уже обработанного поисковиками сайта влияет частота корректировки его контента. Если на ресурсе постоянно появляется свежая информация, система считает его часто обновляемым и полезным для людей. В этом случае её работа ускоряется.

За ходом индексации веб-узла можно следить на особых разделах для веб-мастеров или на поисковиках.

Изменения

Итак, мы уже разобрались, как происходит индексирование сайта. Необходимо отметить, что базы данных поисковиков часто обновляются. Поэтому количество добавленных в них страниц вашего проекта может меняться (как уменьшаться, так и увеличиваться) по следующим причинам:

  • санкции поисковика к веб-узлу;
  • наличие погрешностей на сайте;
  • изменение алгоритмов поисковиков;
  • отвратительный хостинг (недосягаемость сервера, на котором находится проект) и так далее.

Ответы «Яндекса» на обычные вопросы

«Яндекс» - поисковая система, которой пользуются многие пользователи. Она занимает пятое место среди розыскных систем мира по числу обработанных исследовательских запросов. Если вы в неё добавили сайт, он может слишком долго добавляться в базу.

Добавление URL не гарантирует его индексацию. Это лишь один из методов, с помощью которого сообщают роботу системы о том, что появился новый ресурс. Если на сайт отсутствуют ссылки с других веб-узлов или их немного, добавление поможет его быстрее обнаружить.

Если индексация не произошла, нужно проверить, не было ли на сервере сбоев в момент создания ему заявки от робота «Яндекса». Если сервер сообщает об ошибке, робот завершит свою работу и попытается её выполнить в порядке всестороннего обхода. Работники «Яндекса» не могут увеличить скорость добавления страниц в базу поисковика.

Индексирование сайта в «Яндексе» - довольно-таки сложное занятие. Вы не знаете как добавить ресурс в поисковую систему? Если на него имеются ссылки с других веб-узлов, то добавлять специально сайт не требуется - робот его автоматически разыщет и проиндексирует. Если у вас нет таких ссылок, можно использовать форму «Добавить URL», чтобы заявить поисковику о существовании веб-узла.

Необходимо помнить, что добавление URL не гарантирует индексацию вашего творения (или её скорость).

Многим интересно, сколько времени занимает индексирование сайта в «Яндексе». Сотрудники этой компании не дают гарантий и не прогнозируют сроки. Как правило, с тех пор, как робот узнал о сайте, страницы его в поиске появляются через два дня, иногда - через пару недель.

Процесс обработки

«Яндекс» - поисковая система, требующая точности и внимания. Индексация сайта состоит из трёх частей:

  1. Поисковый робот выполняет обход страниц ресурса.
  2. Содержимое (контент) сайта записывается в базу данных (индекс) розыскной системы.
  3. Через 2-4 недели, после обновления базы, можно увидеть результаты. Ваш сайт появится (или не появится) в поисковой выдаче.

Проверка индексации

Как проверить индексацию сайта? Выполнить это можно тремя способами:

  1. Введите наименование своего предприятия в строке поиска (к примеру, «Яндекса») и проверьте каждую ссылку на первой и второй странице. Если вы обнаружите там URL своего детища, значит, робот свою задачу выполнил.
  2. Можно ввести URL своего сайта в розыскной строке. Вы сможете увидеть, сколько интернет-листов показывается, то есть проиндексировано.
  3. Зарегистрируйтесь на страницах веб-мастеров в Mail.ru, «Гугле», «Яндексе». После того как вы пройдёте верификацию сайта, вы сможете увидеть и итоги индексации, и иные сервисы поисковиков, созданные для улучшения работы вашего ресурса.

Почему «Яндекс» отказывает?

Индексирование сайта в Google осуществляется следующим образом: робот в базу данных заносит все страницы сайта, некачественные и качественные, не выбирая. Но в ранжировании участвуют лишь полезные документы. А «Яндекс» весь веб-хлам исключает сразу же. Он может проиндексировать любую страницу, но поисковик со временем ликвидирует весь мусор.

У обеих систем имеется добавочный индекс. И у той, и у другой страницы низкого качества влияют на рейтинг веб-узла в целом. Здесь работает простая философия. Излюбленные ресурсы конкретного пользователя будут занимать более высокие позиции в его выдаче. Зато этот же индивидуум с трудом отыщет сайт, который ему в прошлый раз не понравился.

Именно поэтому сперва необходимо от индексации прикрыть копии веб-документов, проинспектировать наличие пустых страниц и не пускать в выдачу некачественный контент.

Ускорение работы «Яндекса»

Как можно ускорить индексирование сайта в «Яндексе»? Необходимо выполнить следующие шаги:

Промежуточные действия

Что необходимо выполнить, пока веб-страница «Яндексом» не проиндексирована? Отечественный поисковик должен считать сайт первоисточником. Именно поэтому ещё до публикации статьи обязательно необходимо добавить её содержание в форму «Специфичных текстов». В противном случае плагиаторы скопируют запись на свой ресурс и окажутся в базе данных первыми. В итоге признаны авторами будут они.

База данных Google

Запрещение

Что собой представляет запрет индексирования сайта? Вы можете наложить его как на всю страницу, так и на отдельную её часть (ссылку или кусок текста). Фактически существует как глобальный запрет индексации, так и локальный. Как это реализуется?

Рассмотрим запрет добавления в базу поисковика веб-узла в Robots.txt. С помощью файла robots.txt можно исключить индексацию одной страницы или целой рубрики ресурса так:

  1. User-agent: *
  2. Disallow: /kolobok.html
  3. Disallow: /foto/

Первый пункт говорит о том, что инструкции определены для всех ПС, второй указывает на запрет индексации файла kolobok.html, а третий - не разрешает добавление в базу всей начинки папки foto. Если нужно исключить несколько страниц или папок, укажите их все в «Роботсе».

Для того чтобы воспрепятствовать индексации отдельного интернет-листа, можно применить мета-тег robots. Он отличается от robots.txt тем, что даёт указания сразу всем ПС. Этот мета-тег подчиняется общим принципам формата html. Его нужно размещать в заголовке страницы между Запись для запрета, к примеру, может быть написана так: .

Ajax

А как проводит индексирование Ajax-сайтов Yandex? Сегодня технологией Ajax пользуются многие разработчики веб-узлов. Конечно, у неё есть большие возможности. С помощью неё можно создавать быстродействующие и производительные интерактивные веб-страницы.

Однако системы веб-лист «видит» не так, как пользователь и браузер. К примеру, человек смотрит на комфортный интерфейс с подвижно подгружаемыми интернет-листами. Для поискового робота содержимое той же страницы может быть порожним или представленным как остальной статический HTML-контент, для генерации которого скрипты не идут в дело.

Для создания Ajax-сайтов можно применять URL с #, но его робот-поисковик не использует. Обычно часть URL после # отделяется. Это нужно учитывать. Поэтому взамен URL вида http://site.ru/#example он делает заявку главной странице ресурса, размещённой по адресу http://site.ru. Это значит, что контент интернет-листа может не попасть в базу данных. В итоге он не окажется в результатах поиска.

Для усовершенствования индексации Ajax-сайтов «Яндекс» поддержал изменения в поисковом роботе и правилах обработки URL таких веб-узлов. Сегодня веб-мастера могут указать поисковику «Яндекса» на необходимость индексации, создав соответствующую схему в структуре ресурса. Для этого необходимо:

  1. Заменить в URL страниц символ # на #!. Теперь робот поймёт, что он сможет обратиться за HTML-версией наполнения этого интернет-листа.
  2. HTML-версия контента такой страницы должна быть размещена на URL, где #! заменён на?_escaped_fragment_=.