Поисковые системы: состав, функции, принцип работы. Общие принципы работы поисковых систем

По своей сути поисковые системы, каталоги и метапоисковые системы являются специализированными базами данных, в которых хранится информация о других сайтах Internet. От традиционных информационных систем они отличаются тем, что хранят не сами документы, а информацию о документах и ссылки на них. В ответ на запрос пользователя выдается список адресов, где может присутствовать запрашиваемая информация. Обычно поиск производится по словам и фразам, однако в некоторых «продвинутых» системах и каталогах можно составлять весьма сложные запросы на специальном языке.

Для простоты восприятия информации о классификации поисковых систем была составлена следующая схема:

Ранжирование по группам производилось по следующим признакам: форма и способ занесения информации о сайтах и возможности, предоставляемые для нахождения необходимой информации.

В самую обширную зону А входят сайты с примитивными каталогами. Сайты в этих каталогах либо вообще не сортированы, либо сортировка производится по нескольким общим группам.

В каталогах (зона В) информация о сайтах Internet, так же как в подборках, упорядочена по категориям специально разработанного дерева-рубрикатора, но, в отличие от предыдущего случая, в них имеются механизмы поиска информации по запросам. В основную массу каталогов информация заносится авторами сайтов, сообщающими о себе при регистрации необходимые сведения. Как правило, работа поисковых механизмов ограничивается поиском лишь в кратких аннотациях сайтов.

Особого внимания заслуживают современные каталоги (зона С) , отличающиеся расширенной, а иногда и полной индексацией содержимого сайтов и мощными механизмами контекстного поиска в индексных базах.

Основное отличие поисковых систем (зона D) от каталогов - автоматический «робот», или «паук», который постоянно сканирует Internet, ищет в нем новые сайты, накапливает эту информацию в индексных файлах базы данных. Информация в Internet-каталоги, так же как в традиционные библиотечные, заносится либо авторами новых сайтов, либо обслуживающим персоналом каталога. Пользование поисковыми системами и каталогами абсолютно бесплатно, вот почему в настоящее время это самый доступный и демократичный вид информационных ресурсов.

Основные компоненты поисковых систем

Поисковая система состоит из следующих основных компонентов: Spider (паук) - браузероподобная программа, которая скачивает веб-страницы. Crawler (краулер, «путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Indexer (индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Database (база данных) – хранилище скачанных и обработанных страниц. Search engine results engine (система выдачи результатов) – извлекает результаты поиска из базы данных. Web server (веб-сервер) – веб-сервер, который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы. Детальная реализация поисковых механизмов может отличаться друг от друга (например, связка Spider+Crawler+Indexer может быть выполнена в виде единой программы, которая скачивает известные веб-страницы, анализирует их и ищет по ссылкам новые ресурсы), однако всем поисковым системам присущи описанные общие черты. Spider. Паук - это программа, которая скачивает веб-страницы тем же способом, что и браузер пользователя. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т.д.), паук же не имеет никаких визуальных компонент и работает напрямую с html-текстом страницы (вы можете сделать «просмотр html-кода» в вашем браузере, чтобы увидеть «сырой» html-текст). Crawler. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе. Indexer. Индексатор разбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и т.д. Database. База данных - это хранилище всех данных, которые поисковая система скачивает и анализирует. Иногда базу данных называют индексом поисковой системы. Search Engine Results Engine. Система выдачи результатов занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Эта информация является наиболее ценной и интересной для нас – именно с этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче, поэтому в дальнейшем мы подробно рассмотрим все факторы, влияющие на ранжирование результатов.

Всем привет. Прежде чем начинать продвигать сайт в поисковых системах необходимо понять принципы работы этих самых систем. Вернемся к основам и узнаем каким же образом работает поисковая система.

Принцип работы поисковых систем

Любая поисковая система состоит из следующих компонентов:

Spider (паук)-программа которая скачивает все веб-страницы сайта. В чем-то она похожа на обыкновенный браузер, только работает она напрямую с html-кодом страницы. Ее основная задача найти как можно больше информации на сайте, которая в дальнейшем будет обрабатываться другими алгоритмами поисковой системы.

Crawler (краулер)-программа, которая проходит по всем ссылкам, которые она находит на странице. Она определяет, куда дальше должен идти паук, и находит новые документы, которые еще не известны поисковой системе. В том случае, если есть , то он проходит по всем ссылкам найденным в ней, определяя какие именно страницы нужно проиндексировать.

Indexer (индексатор)-разбивает страницу скачанную пауком на составляющие, анализирует их и заносит в базу данных. Все это называется одним словом «индексация». Существует несколько способов для того, чтобы ускорить .

Database (база данных)-место где хранятся скачанные и обработанные страницы.

Web server (веб-сервер)-сервер, осуществляющий взаимодействие между пользователем и всеми остальными компонентами поисковой системы. Ее Вы видите каждый раз, когда заходите на страницу поиска.

Search engine results engine (система выдачи)-это самая главная часть любой поисковой системы, её ядро, определяющее принцип ее работы. Каждый вопрос, который пользователь задает поисковой системе, она анализирует, и, после этого, находит в индексе документ, который полностью на этот вопрос отвечает.

Основные принципы построения выдачи поисковых систем

Для того, чтобы решить какой документ больше всего подходит для ответа на запрос пользователя система выдачи анализирует:

  • Заголовок страницы. Заголовок страницы это текст, расположенный в теге . Заголовок должен как можно ближе отображать содержание страницы. В том случае, если в заголовке страницы встречаются ключевые слова из запроса, поисковая система считает, что документ соответствует запросу, и у появляются хорошие шансы попасть в выдачу поисковой системы.</li> </ul><ul><li>Плотность ключевых слов на странице. Поисковая система также следит за количеством употреблений слов из ключевого запроса на странице. Для того, чтобы страница отвечала на запрос и попала в выдачу, необходимо, чтобы слова из поискового запроса встречались на странице в определенной концентрации.</li> </ul><ul><li>Употребление ключевых слов в подзаголовках. Слова из поискового запроса должны встречаться в подзаголовках документа.</li> </ul><ul><li>Внешние и внутренние ссылки на документ. Это так называемые ссылочные факторы ранжирования. Если на документ ссылаются с других страниц сайта, а также с других сайтов, это сигнал для поисковой системы о том, что эта страница отвечает запросу. При этом слова из запросов должны встречаться в якорях ссылок. Это очень важно!</li> </ul><ul><li>Поведенческие факторы. Были введены в поисковые алгоритмы недавно. В настоящий момент активно развиваются. Основной смысл в том, что поисковая система оценивает поведение пользователей, пришедших на страницу, и по нему судит о качестве информации, представленной на сайте. К примеру, если очень много людей перейдя на страницу сразу же уходит с нее, и продолжает искать информацию на других сайтах поисковая система считает, что данная страница не имеет большой ценности и понижает ее в выдаче по данному ключевому слову.</li> </ul><p>Разумеется я рассказал не всех факторах ранжирования поисковых систем. В реальности их намного больше. Я перечислил только самые основные. Подробнее о том, как продвигать сайты в поисковых системах ты можешь узнать на страницах моего сайта. Так что не забывай подписываться на</p> <p><u>Поисковая система включает в себя такие компоненты: </u></p> <p><b>Spider </b> (“паук”) – эта программа скачивает веб-страницы точно так же, как и пользовательский браузер. Но! Браузер показывает всю информацию, которая имеется на странице (графическую, текстовую и т.д.), тогда как паук не обладает никакими визуальными компонентами и работает сразу с html-текстом.</p> <p><b>Indexer </b> (индексатор) – индексатор занимается разбором страницы на составляющие, затем анализирует их. Он выделяет и анализирует разные компоненты страницы: текст, заголовки, стилевые и структурные особенности, html-тэги и прочее.</p> <p><b>Search Engine Results Engine </b> – это система выдачи результатов. В ее задачи входит решение того, насколько возможные страницы удовлетворяют запрос пользователя, а также, в каком порядке отсортировать результаты поиска. Этот процесс осуществляется согласно алгоритму ранжирования поисковой системы. Такая информация наиболее ценна для оптимизатора, именно с этим компонентом следует взаимодействовать при попытке повысить позиции сайта в выдаче результатов поиска.</p> <p><b>Crawler </b> – этот компонент выделяет все ссылки, имеющиеся на странице. В его задачу входит определение последующего пути. Вычисление этого пути основывается на ссылках или исходя из заданного заранее ряда адресов. Crawler следует по найденным ссылкам и так осуществляет поиск новых документов, которые еще неизвестны поисковой системе.</p> <p><b>Database </b> – это база данных, в ней хранятся все данные, которые скачивает и анализирует поисковая система. Базу данных могут называть и индексом поисковой системы.</p> <p><b>Web server </b> – на сервере обычно присутствует html-страница с полем ввода, где пользователи могут задать интересующий их поисковый термин. Веб-сервер тоже отвечает за результаты, выдаваемые пользователю, в виде html-страницы.</p> <p><b>Индексация сайта </b> означает, что поисковый робот посетил ваш сайт, проанализировал его и занес информацию в базу данных поисковой системы. Прежде чем сайт появится в результатах поиска, он должен быть проиндексирован поисковой системой.</p> <p>Если некоторая страница занесена в <i>индекс поисковика </i>, то она может быть показана в результатах поиска. Если страница в индексе отсутствует, то поисковая система ничего не знает о ней, и, следовательно, никак не может использовать информацию с этой страницы. Большинство сайтов среднего размера (то есть содержащих несколько десятков или сотен страниц) обычно не испытывают никаких проблем с правильной индексацией поисковыми системами. Однако, существует ряд моментов, которые стоит учитывать при работе над сайтом.</p> <br><br><p><i>Поисковая система может узнать о вновь созданном сайте двумя путями </i>:</p> <p>Ручное добавление адреса сайта через соответствующую форму поисковой системы. В этом случае вы сами сообщаете поисковой системе о новом сайте и его адрес попадает в очередь на индексацию. Добавлять следует лишь главную страницу сайта, остальные будут найдены поисковым роботом по ссылкам;</p> <p>Предоставить поисковому роботу самостоятельно найти ваш сайт. Если на ваш новый ресурс есть хотя бы одна внешняя ссылка с других ресурсов, уже проиндексированных поисковой системой, то поисковый робот в короткие сроки сам посетит и проиндексирует ваш сайт. В большинстве случаев рекомендуется использовать именно этот вариант, то есть получить несколько внешних ссылок на сайт и просто дождаться прихода робота. Ручное добавление сайта может даже удлинить время ожидания робота. <br> Время необходимое для индексации сайта составляет, как правило, от 2-3 дней до 2 недель, в зависимости от поисковой системы. Быстрее всех индексирует сайты поисковая система Google.</p> <p>Базы данных поисковых систем постоянно обновляются, записи в базе могут подвергаться изменениям, исчезать и появляться снова, поэтому число проиндексированных страниц вашего сайта может периодически меняться. <br> Одной из наиболее частых причин исчезновения страницы из индекса является недоступность сервера, то есть поисковый робот при попытке индексации сайта не смог получить доступ к нему. После восстановления работоспособности сервера сайт должен появиться в индексе снова через некоторое время.</p> <p><b>8. Релевантность сайта поисковому запросу. </b>внутренние факторы ранжирования.</p> <p><b>Релевантность </b>(лат.relevo- поднимать,облегчать) – степень соответствия найденной информации по отношению к запросу в поисковой системе.</p> <p><u>Содержательная релевантность: </u> поисковые системы для оценки релевантности найденных документов в базовом варианте используют TF-IDF-метод. Суть его в том, что релевантность документа будет выше, в том случае, если слово или словосочетание из запроса как можно чаще встречается в документе (параметр TF) и при этом, как можно реже это же слово или словосочетание встречается в базе данных поисковой систем (параметр IDF).</p> <br><br><p><b><u>Формальная релевантность: </u> соответствие, определяемое путем сравнения образа поискового запроса с поисковым образом документа по определенному алгоритму. </b></p> <p><u>На релевантность сайта влияют следующие факторы: </u></p> <p>Наличие ключевых слов или фраз в теге title, мета-описание;</p> <p>Наличие ключевых слов в заголовках и подзаголовках, теги h1...h6 ;</p> <p>Наличие ключей в атрибуте alt.</p> <p>Количество и качество входящих ссылок;</p> <p>Плотность ключевых слов в основном тексте на странице;</p> <p>Популярность и релевантность ссылающихся сайтов.</p> <p> – это факторы, которые относятся к структуре сайтов и находятся под контролем веб-мастера, не зависят от таких внешних условий, как изменение алгоритма поисковых систем или введение ими новых правил индексации. Формируются с созданием сайта и оказывают непосредственное влияние на позиции страниц в поисковых выдачах и вес ключевых слов.</p> <p>Текстовое оформление web-страниц (контент)</p> <p>Структура сайта - настройки</p> <p>Преднамеренный обман поисковиков</p> <p><b>Внутренние факторы ранжирования сайтов </b>Факторы, влияющие на положение сайта в выдаче поисковых запросов, можно разделить на внутренние (текст, оформление, мета-теги и проч.) и внешние (ссылочная популярность).</p> <p><b>Внутренние факторы ранжирования </b> целиком и полностью подконтрольны владельцу сайта. От того насколько умело ими воспользовался веб-мастер, во многом зависит поисковая релевантность сайта и, как следствие, приток посетителей с поисковых систем</p> <p><b>Текстовое оформление: </b>Текста на странице должно быть в меру. Оптимальным вариантом считается 500-1000 слов. Ключевые фразы должны встречаться в тексте несколько раз - примерно 3-4 раза. Плотность ключевых слов должна быть в пределах 3-4%. При меньшем проценте снижается вероятность попадания в Топ10, при большем - повышается вероятность попасть в "бан" поисковика. Ключевые слова и фразы по возможности должны располагаться как можно ближе к началу html-страницы. Обязательно ключевая фраза (или хотя бы слово) должна присутствовать в теле тега TITLE. В тексте ссылок старайтесь использовать ключевые слова и фразы. Желательно использовать ключевые слова в тегах изображений ALT. Не помешает прописать ключевые фразы и слова в мета-тегах DESCRIPTION, KEYWORDS.</p> <p><b>Структура сайта: </b>число страниц сайта - чем больше, тем лучше. Необходимо постоянно обновлять контент сайта, добавлять новые страницы. Использовать в навигационных меню ключевые слова. Если сайт относится к англоязычной аудитории, использовать ключевые слова в названии html-файла. При небольшом количестве страниц желательно их размещать в корневом каталоге. Одна страница - одна ключевая фраза. Не стоит оптимизировать одну страницу сразу под несколько ключевых фраз. Главная страница должна быть оптимизирована под основную ключевую фразу.</p> <p><b>Ошибки оптимизации: </b>не желательно использовать в дизайне сайта графический заголовок. Верхушка сайта - самое ценное место для того, чтобы размещать ключевые фразы и слова. Поисковые машины "не понимают" графику. По той же причине не желательно использовать графическое меню, скрипты в навигации по сайту. Поисковые машины не индексируют скрипты, не использовать редиректы. Использование скрытого текста позволяет наполнить страницу нужными ключевыми словами без нарушения логики и дизайна страницы. Такой текст невидим для посетителей, однако прекрасно читается поисковыми роботами. Использование таких «серых» методов оптимизации может привести к бану сайта - то есть принудительному исключению сайта из индекса поисковой системы. Однопиксельные ссылки - графические изображения‐ссылки размером 1*1 пиксель (то есть фактически невидимых посетителю) также воспринимается поисковыми системами как попытка обмана и может привести к бану сайта.</p> <p>Поисковые системы (ПС) уже приличное время являются обязательной частью интернета. Сегодня они громадные и сложнейшие механизмы, которые представляют собой не только инструмент для нахождения любой необходимой информации, но и довольно увлекательные сферы для бизнеса. </p> <br> Многие пользователи поиска никогда не думали о принципах их работы, о способах обработки пользовательских запросов, о том, как построены и функционируют данные системы. Данный материал поможет людям, которые занимаются оптимизацией и , понять устройство и основные функции поисковых машин. <h2>Функции и понятие ПС</h2> <b>Поисковая система </b> – это аппаратно-программный комплекс, который предназначен для осуществления функции поиска в интернете, и реагирующий на пользовательский запрос который обычно задают в виде какой-либо текстовой фразы (или точнее поискового запроса), выдачей ссылочного списка на информационные источники, осуществляющейся по релевантности. Самые распространенные и крупные системы поиска: Google, Bing, Yahoo, Baidu. В Рунете – Яндекс, Mail.Ru, Рамблер. <p>Рассмотрим поподробнее само значение запроса для поиска, взяв для примера систему Яндекс. </p><p>Запрос обязан быть сформулирован пользователем в полном соответствии с предметом его поиска, максимально просто и кратко. К примеру, мы желаем найти информацию в данном поисковике: «как выбрать автомобиль для себя». Чтобы сделать это, открываем главную страницу и вводим запрос для поиска «как выбрать авто». Потом наши функции сводятся к тому, чтобы зайти по предоставленным ссылкам на информационные источники в сети. </p><p> <br><img src='https://i2.wp.com/uniofweb.ru/upload/medialibrary/6d6/yandex-auto.png' width="100%" loading=lazy><br></p> <br> Но даже действуя таким образом, можно и не получить необходимую нам информацию. Если мы получили подобный отрицательный результат, нужно просто переформировать свой запрос, или же в базе поиска действительно нет никакой полезной информации по данному виду запроса (такое вполне возможно при заданных «узких» параметров запроса, как, к примеру, «как выбрать автомобиль в Анадыри»). <p>Самая основная задача каждой поисковой системы – доставить людям именно тот вид информации, который им нужен. А приучить пользователей создавать «правильный» вид запросов к поисковым системам, то есть фразы, которые будут соответствовать их принципам работы, практически, невозможно. </p><p>Именно поэтому специалисты-разработчики поисковиков делают такие принципы и алгоритмы их работы, которые бы давали пользователям находить интересующие их сведения. Это означает, что система, должна «думать» так же, как мыслит человек при поиске необходимой информации в интернете. </p><p>Когда он вводит свой запрос в поисковую машину, он желает найти то, что ему надо, как можно проще и быстрее. Получив результат, пользователь составляет свою оценку работе системы, руководствуясь несколькими критериями. Получилось ли у него найти нужную информацию? Если нет, то сколько раз ему пришлось переформатировать текст запроса, чтобы найти ее? Насколько актуальная информация была им получена? Как быстро поисковая система обработала его запрос? Насколько удобно были предоставлены поисковые результаты? Был ли нужный результат первым, или находился на 30-ом месте? Сколько «мусора» (ненужной информации) было найдено вместе с полезными сведениями? Найдется ли актуальная для него информация, при использовании ПС, через неделю, либо через месяц? </p><p> <br><img src='https://i1.wp.com/uniofweb.ru/upload/medialibrary/ceb/rangirovanie.png' width="100%" loading=lazy><br></p> <br> Для того чтобы получить правильные ответы на подобные вопросы, разработчики поиска постоянно улучшают принципы ранжирования и его алгоритмы, добавляют им новые возможности и функции и любыми средствами пытаются сделать быстрее работу системы. <h2>Основные характеристики поисковых систем</h2> Обозначим главные характеристики поиска: <h3>Полнота.</h3> Полнота является одной из главнейших характеристик поиска, она представляет собой отношение цифры найденных по запросу информационных документов к их общему числу в интернете, относящихся к данному запросу. Например, в сети есть 100 страниц имеющих словосочетание «как выбрать авто», а по такому же запросу было отобрано всего 60 из общего количества, то в данном случае полнота поиска составит 0,6. Понятно, что чем полнее сам поиск, тем больше вероятность, что пользователь найдет именно тот документ, который ему необходим, конечно, если он вообще существует. <h3>Точность.</h3> Еще одна основная функция поисковой системы – точность. Она определяет степень соответствия запросу пользователя найденных страниц в Сети. К примеру, если по ключевой фразе «как выбрать автомобиль» найдется сотня документов, в половине из них содержится данное словосочетание, а в остальных просто есть в наличии такие слова (как грамотно выбрать автомагнитолу, и установить ее в автомобиль»), то поисковая точность равна 50/100 = 0,5. <p>Чем поиск точнее, тем скорее пользователь найдет необходимую ему информацию, тем меньше разнообразного «мусора» будет встречаться среди результатов, тем меньше найденных документов будут не соответствовать смыслу запроса. </p><h3>Актуальность.</h3> Это значимая составляющая поиска, которую характеризует время, проходящее с момента опубликования информации в интернете до занесения ее в индексную базу поисковика. <p>К примеру, на следующий день после возникновения информации о выходе нового iPad, множество пользователей обратилась к поиску с соответствующими видами запросов. В большинстве случаев информация об этой новости уже доступна в поиске, хотя времени с момента ее появления прошло очень мало. Это происходит благодаря наличию у крупных поисковых систем «быстрой базы», которая обновляется несколько раз за день. </p><h3>Скорость поиска.</h3> Такая функция как скорость поиска теснейшим образом связана с так называемой «устойчивостью к нагрузкам». Ежесекундно к поиску обращается огромное количество людей, подобная загруженность требует значительного сокращения времени для обработки одного запроса. Тут интересы, как поисковой системы, так и пользователя целиком совпадают: посетитель хочет получить результаты как можно быстрее, а поисковая система должна отработать его запрос тоже максимально быстро, чтобы не притормозить обработку последующих запросов. <h3>Наглядность.</h3> Наглядное представление результатов является важнейшим элементом удобства поиска. По множеству запросов поисковая система находит тысячи, а в некоторых случаях и миллионы разных документов. Вследствие нечеткости составления ключевых фраз для поиска или его не точности, даже самые первые результаты запроса не всегда имеют только нужные сведения. <p>Это значит, что человеку часто приходится осуществлять собственный поиск среди предоставленных результатов. Разнообразные компоненты страниц выдачи ПС помогают ориентироваться в поисковых результатах. </p><h2>История развития поисковых систем</h2> Когда интернет только начал развиваться, число его постоянных пользователей было небольшим, и объем информации для доступа был сравнительно невеликим. В основном доступ к этой сети имели лишь специалисты научно-исследовательских сфер. В то время, задача нахождения информации не была столь актуальна как сейчас. <p>Одним из самых первых методов организации широкого доступа к ресурсам информации стало создание каталогов сайтов, причем ссылки на них начали группировать по тематике. Таким первым проектом стал ресурс Yahoo.com, который открылся весной 1994-ого года. Впоследствии когда количество сайтов в Yahoo-каталоге существенно увеличилось, была добавлена опция поиска необходимых сведений по каталогу. Это еще не было в полной мере поисковой системой, так как область такого поиска была ограничена только сайтами, входящими в данный каталог, а не абсолютно всеми ресурсами в интернете. Каталоги ссылок весьма широко использовались раньше, однако в настоящее время, практически в полной мере утратили свою популярность. </p><p>Ведь даже сегодняшние, громадные по своим объемам каталоги имеют информацию о незначительно части сайтов в интернете. Самый известный и большой каталог в мире имеет информацию о пяти миллионах сайтов, когда база Google содержит информацию о более чем 25 миллиардов страниц. </p><p> <br><img src='https://i2.wp.com/uniofweb.ru/upload/medialibrary/d6d/dmoz.jpg' width="100%" loading=lazy><br></p> <br> Самой первой настоящей поисковой системой стала WebCrawler, возникшая еще в 1994-ом году. <p>В следующем году появились AltaVista и Lycos. Причем первая была лидером по поиску информации очень длительное время. </p><p> <br><img src='https://i2.wp.com/uniofweb.ru/upload/medialibrary/e9a/altavista.png' width="100%" loading=lazy><br></p> <br> В 1997-ом году Сергей Брин вместе с Ларри Пейджем создал машину поисковую Google как исследовательский проект в Стэндфордском университете. Сегодня именно Google, самая востребованная и популярная поисковая система в мире. <p> <br><img src='https://i1.wp.com/uniofweb.ru/upload/medialibrary/773/Sergey-Brin-and-Larry-Page.jpg' width="100%" loading=lazy><br></p> <br> В сентябре 1997-ом году была анонсирована (официально) ПС Yandex, которая в настоящий момент является самой популярной системой поиска в Рунете. <p> <br><img src='https://i2.wp.com/uniofweb.ru/upload/medialibrary/24c/yandex.jpg' width="100%" loading=lazy><br></p> <br> По данным на<b> сентябрь 2015 года </b>, доли поисковых систем в мире распределены следующим образом: <ul><li>Google - 69,24 %; </li> <li>Bing - 12,26 %;</li> <li>Yahoo! - 9,19 %;</li> <li>Baidu - 6,48 %;</li> <li>AOL - 1,11 %;</li> <li>Ask - 0,23 %;</li> <li>Excite - 0,00 %</li> </ul><p> <br><img src='https://i2.wp.com/uniofweb.ru/upload/medialibrary/528/search.png' width="100%" loading=lazy></p><p>По данным на <b>декабрь 2016 года </b>, доли поисковых систем в Рунете: </p><ul><li>Яндекс - 48,40%</li> <li>Google - 45,10%</li> <li>Search.Mail.ru - 5,70%</li> <li>Rambler - 0,40%</li> <li>Bing - 0,30%</li> <li>Yahoo - 0,10%</li> </ul><p><img src='https://i0.wp.com/uniofweb.ru/upload/medialibrary/e7d/search-runet.png' width="100%" loading=lazy></p> <h2>Принципы работы поисковой системы</h2> В России главной системой поиска является Яндекс, затем Google, а потом Поиск@Mail.ru. Все большие системы поиска имеют свою структуру, которая весьма отличается от других. Но все-таки можно выделить общие для всех поисковиков основные элементы. <h3>Модуль индексирования.</h3> Данный компонент состоит из трех программ-роботов: <p><b>Spider </b> (по англ. паук) – программа которая предназначена для того чтобы скачивать веб-страницы. «Паук» скачивает определенную страницу, одновременно извлекая из нее все ссылки. Скачивается код html практически с каждой страницы. Для этого роботы используют HTTP-протоколы. </p><p> <br><img src='https://i0.wp.com/uniofweb.ru/upload/medialibrary/a70/spiders.png' width="100%" loading=lazy><br></p> <br> «Паук» функционирует следующим образом. Робот передает запрос на сервер “get/path/document” и иные команды запроса HTTP. В ответ программа-робот получает поток текста, который содержит информацию служебного вида и, естественно, сам документ. <ul><li>URL скаченной страницы;</li> <li>дата, когда осуществлялось скачивание страницы;</li> <li>заголовок http-ответа сервера;</li> <li>html-код, «тела» страницы.</li> </ul><b>Crawler </b> («путешествующий» паук). Данная программа автоматически заходит на все ссылки, которые найдены на странице, а также выделяет их. Его задача – определиться, куда в дальнейшем должен заходить паук, основываясь на этих ссылках или исходя из заданного списка адресов. <p><b>Indexer </b> (робот-индексатор) – это программа, анализирующая страницы, которые скачали пауки. </p><p> <br><img src='https://i2.wp.com/uniofweb.ru/upload/medialibrary/5c3/indexing.png' width="100%" loading=lazy></p> <br> Индексатор полностью разбирает страницу на составные элементы и проводит их анализ, применяя свои морфологические и лексические виды алгоритмов. <p>Анализ проводится над разнообразными частями страницы, такими как заголовки, текст, ссылки, стилевые и структурные особенности, теги html и др. </p><p>Таким образом, модуль индексирования дает возможность проходить по ссылкам заданного количества ресурсов, скачивать страницы, извлекать ссылочную массу на новые страницы из полученных документов и делать подробный их анализ. </p><h3>База данных</h3> <b>База данных </b> (или индекс поисковика) - комплекс хранения данных, массив информации в котором сохраняются определенным образом переделанные параметры каждого обработанного модулем индексации и скачанного документа. <h3>Поисковый сервер</h3> Это самый важный элемент всей системы, потому что от алгоритмов, лежащих в основе ее функциональности, прямо зависит скорость и, конечно же, качество поиска. <p>Поисковый сервер работает следующим образом: </p><ul><li>Запрос, который идет от пользователя подвергается морфологическому анализу. Информационное окружение любого документа, имеющегося в базе, генерируется (оно и будет в дальнейшем отображаться как сниппет, т.е. информационное поле текста соответствующего данному запросу).</li> <li>Полученные данные передают как входные параметры специализированному модулю ранжирования. Они обрабатываются по всем документам, и в итоге для каждого такого документа рассчитывается свой рейтинг, который характеризует релевантность такого документа запросу пользователя, и иных составляющих.</li> <li>В зависимости от условий заданных пользователем этот рейтинг вполне может быть подкорректирован дополнительными.</li> <li>Затем генерируется сам сниппет, т.е. для любого найденного документа из соответствующей таблицы извлекают заголовок, аннотацию, наиболее отвечающую запросу, и ссылка на этот документ, при этом найденные словоформы и слова подсвечивают.</li> <li>Результаты полученного поиска передаются осуществившему его человеку в виде страницы, на которую выдают поисковые результаты (SERP).</li> </ul> Все эти элементы тесно связаны между собой и функционируют, взаимодействуя, образовывая отчетливый, но достаточно непростой механизм функционирования ПС, требующий громадных затрат ресурсов. <p>Уже давно стали неотъемлемой частью российского Интернета. Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса.</p><p>Большинство пользователей поисковых систем никогда не задумывались (либо задумывались, но не нашли ответа) о принципе работы поисковых систем, о схеме обрабатки запросов пользователей, о том, из чего эти системы состоят и как функционируют…</p><p>Данный мастер-класс призван дать ответ на вопрос о том, как работают поисковые системы. Однако, Вы не найдете здесь факторов, влияющих на ранжирование документов. И тем более не стоит рассчитывать на подробное объяснение алгоритма работы Яндекса. Его, по словам Ильи Сегаловича, - директора по технологиям и разработке поисковой машины «Яндекс», можно узнать, лишь «под пыткой» самого Ильи Сегаловича…</p><p><b>2. Понятие и функции поисковой системы </b></p><p>Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: <a target="_blank" href="http://www.google.com">«Google»</a> , «Yahoo» , «MSN» . В русском Интернете это – «Яндекс» , «Рамблер» , «Апорт» .</p><p>Рассмотрим подробнее понятие поискового запроса на примере поисковой системы «Яндекс». Поисковый запрос должен быть сформулирован пользователем в соответствии с тем, что он хочет найти, максимально кратко и просто. Допустим, мы хотим найти информацию в «Яндексе» о том, как выбрать автомобиль. Для этого, открываем главную страницу «Яндекса», и вводим текст поискового запроса «как выбрать автомобиль». Далее, наша задача сводится к тому, чтобы открыть предоставленные по нашему запросу ссылки на источники информации в Интернет. Однако, вполне можно и не найти нужную нам информацию. Если таковое произошло, то либо нужно перефразировать свой запрос, либо в базе поисковой системе действительно нет никакой актуальной информации по нашему запросу (такое может быть при задании очень «узких» запросов, как, например «как выбрать автомобиль в Архангельске»)</p><p>Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию.</p><p>Это означает, поисковая система должна «думать» так же, как думает пользователь при поиске информации. Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось перефразировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или же сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Найдется ли нужная информация, при обращении к поисковой системе, скажем, через неделю, или через месяц? </p><p>Для того, чтобы удовлетворить ответами все эти вопросы, разработчики поисковых машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции и возможности, всячески пытаются ускорить работу системы.</p><p><b>3. Основные характеристики поисковой системы </b></p><p>Опишем основные характеристики поисковых систем:</p><ul><li><i>Полнота </i><p>Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.</p></li><li><i>Точность </i><p>Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.</p></li><li><i>Актуальность </i><p>Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.</p></li><li><i>Скорость поиска </i><p>Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.</p></li><li><i>Наглядность </i></li> </ul><p><b>4. Краткая история развития поисковых систем </b><br></p><p>В начальный период развития Интернет, число его пользователей было невелико, а объем доступной информации сравнительно небольшим. В большинстве своем, доступ к сети Интернет имели лишь сотрудники научно-исследовательской сферы. В это время задача поиска информации в Интернете не была столь актуальной, как в настоящее время.</p><p>Одним из первых способов организации доступа к информационным ресурсам сети стало создание открытых каталогов сайтов, ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com, открывшийся весной 1994 года. После того, как количество сайтов в каталоге значительно увеличилось, была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой, так как поисковая область была ограничена только ресурсами, присутствующими в каталоге, а не всеми Интернет ресурсами.</p><p>Каталоги ссылок широко использовались ранее, однако практически полностью утратили свою популярность в настоящее время. Так как даже современные, огромные по своему объему каталоги, содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ (его еще называют Open Directory Project) содержит информацию о 5 миллионах ресурсов, тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов.</p><p>В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в сети Интернет.</p><p>В 1997 году Сергей Брин и Ларри Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google - самая популярная поисковая система в мире!</p><p>В сентябре 1997 года была официально анонсирована поисковая система Yandex, являющаяся самой популярной в русскоязычном Интернете.</p><p>В настоящее время существуют три основные поисковые системы (международные) – Google, Yahoo и , имеющие собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих насчитывается большое количество) использует в том или ином виде результаты трех перечисленных. Например, поиск AOL (search.aol.com) использует базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.</p><p><b>5. Состав и принципы работы поисковой системы </b></p><p>В России основной поисковой системой является «Яндекс», далее - Rambler.ru, Google.ru, Aport.ru, Mail.ru. Причем, на данный момент, Mail.ru использует механизм и базу поиска «Яндекса».</p><p>Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.</p><p><b><b>Модуль индексирования </b> </b></p><p>Модуль индексирования состоит из трех вспомогательных программ (роботов):</p><p>Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.</p><ul><li>URL страницы</li><li>дата, когда страница была скачана</li><li>http-заголовок ответа сервера</li><li>тело страницы (html-код)</li> </ul><p>Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.</p><p>Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.</p><p>Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.</p><p><b><b>База данных </b> </b></p><p>База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.</p><p><b><b>Поисковый сервер </b> </b></p><p>Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.</p><p>Поисковый сервер работает следующим образом:</p><ul><li>Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде , то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).</li><li>Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.</li><li>В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).</li><li>Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.</li><li>Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.</li> </ul><p>Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.</p><p><b>6. Заключение </b></p><p>Теперь подытожим все вышесказанное.</p><ul><li>Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут.</li><li>Основные характеристики поисковых систем: <ol><li>Полнота</li><li>Точность</li><li>Актуальность</li><li>Скорость поиска</li><li>Наглядность</li> </ol></li><li>Первой полноценной поисковой системой стал проект WebCrawler, вышедший в свет в 1994 году.</li><li>В состав поисковой системы входят компоненты: <ol><li>Модуль индексирования</li><li>База данных</li><li>Поисковый сервер</li> </ol></li> </ul><p>Надеемся, наш мастер-класс позволит Вам поближе ознакомиться с понятием ПС, лучше узнать основные функции, характеристики и принцип работы поисковых систем.</p> <script>document.write("<img style='display:none;' src='//counter.yadro.ru/hit;artfast_after?t44.1;r"+ escape(document.referrer)+((typeof(screen)=="undefined")?"": ";s"+screen.width+"*"+screen.height+"*"+(screen.colorDepth? screen.colorDepth:screen.pixelDepth))+";u"+escape(document.URL)+";h"+escape(document.title.substring(0,150))+ ";"+Math.random()+ "border='0' width='1' height='1' loading=lazy>");</script> </div> <div class="col-sm-4"> <aside> <p class="h2 bold"> Реклама </p> <div class="line"></div> <div id="vagize2" style="height:500px;width:300px;" align="center"></div> <div class="subscribe block"> <p class="h2 bold"> Подпишитесь на новости </p> <div class="line"></div> <form class="form-horizontal form" action="/" method="post" target="popupwindow"> <div class="group"> <div class="input"> <input type="text" name="subscribe_email" class="form-control" placeholder="Введите e-mail" /> <div class="helper"></div> </div> </div> <div class="group"> <input type="submit" class="btn btn-base btn-big" value="Подписаться на новости" /> </div> </form> </div> <div class="adv block"> <div class="adv_track" data-id="aside"> <div class="adv_block adsense_3"> </div> </div> </div> </aside> </div> </div> </article> <script type='text/javascript' src='https://erfa.ru/wp-content/plugins/akismet/_inc/form.js?ver=3.0.3'></script> <script type='text/javascript' src='https://erfa.ru/wp-content/plugins/contact-form-7/includes/js/jquery.form.min.js?ver=3.51.0-2014.06.20'></script> <script type='text/javascript' src='https://erfa.ru/wp-content/plugins/contact-form-7/includes/js/scripts.js?ver=4.0.2'></script> <script type='text/javascript' src='https://erfa.ru/wp-content/plugins/light/js/jquery.fancybox.pack.js?ver=4.3.14'></script> <script type='text/javascript' src='https://erfa.ru/wp-content/plugins/light/js/light.js?ver=4.3.14'></script> <footer> <div class="footer"> <div class="row"> <div class="menu"> <nav class="navbar navbar-moto-footer"> <div class="row"> <div class="container-fluid"> <div class="navbar-header"> <button type="button" class="navbar-toggle collapsed" data-toggle="collapse" data-target="#bottom_menu" aria-expanded="false"> <span class="sr-only">Toggle navigation</span> <span class="icon-bar"></span> <span class="icon-bar"></span> <span class="icon-bar"></span> </button> </div> <div class="collapse navbar-collapse" id="bottom_menu"> <ul id="menu-footer" class="nav navbar-nav navbar-first"> <li><a href="/category/ntv-plus/">НТВ плюс</a></li> <li><a href="/category/tricolor/">Триколор</a></li> <li><a href="/category/smart-tv/">Смарт ТВ</a></li> <li><a href="/category/tv/">Телевизор</a></li> </ul> </div> </div> </div> </nav> </div> <div class="to_top"> <div class="top_btn"> <i class="fa fa-angle-up"></i> </div> </div> </div> <div class="row"> <div class="col-sm-6"> © 2024 <span class="bold">erfa.ru</span> - Все о телевидении. </div> <div class="col-sm-6 text-right social_block" itemscope itemtype="http://schema.org/Organization"> <link itemprop="url" href="/" /> <a itemprop="sameAs" href="https://www.facebook.com/sharer/sharer.php?u=https://erfa.ru/poiskovye-sistemy-sostav-funkcii-princip-raboty-obshchie-principy-raboty.html"> <i class="fa fa-facebook"></i> </a> <a itemprop="sameAs" href="https://vk.com/share.php?url=https://erfa.ru/poiskovye-sistemy-sostav-funkcii-princip-raboty-obshchie-principy-raboty.html"> <i class="fa fa-vk"></i> </a> <a itemprop="sameAs" href="https://www.twitter.com/share?url=https://erfa.ru/poiskovye-sistemy-sostav-funkcii-princip-raboty-obshchie-principy-raboty.html"> <i class="fa fa-twitter"></i> </a> <a itemprop="sameAs" href="https://connect.ok.ru/offer?url=https://erfa.ru/poiskovye-sistemy-sostav-funkcii-princip-raboty-obshchie-principy-raboty.html"> <i class="fa fa-odnoklassniki"></i> </a> <a itemprop="sameAs" href=""> <i class="fa fa-google-plus"></i> </a> </div> </div> </div> </footer> </div> </div> </div> </body> </html> </div> </div>