Crawl delay robots txt битрикс. Highload-блог о программировании и интернет-бизнесе. SEO инструменты: Управление мета-тегами PRO

Многие сталкиваются с проблемами неправильного индексирования сайта поисковиками. В этой статье я объясню как создать правильный robots.txt для Битрикс чтобы избежать ошибок индексирования.

Что такое robots.txt и для чего он нужен?

Robots.txt - это текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем (информация Яндекса).
В основном он нужен чтобы закрыть от индексации страницы и файлы, которые поисковикам индексировать и, следовательно, добавлять в поисковую выдачу не нужно.

Обычно это технические файлы и страницы, панели администрирования, кабинеты пользователя и дублирующаяся информация, например поиск вашего сайта и др.

Создание базового robots.txt для Битрикс

Частая ошибка начинающих кроется в ручном составлении этого файла. Это делать не нужно.
В Битриксе уже есть модуль, отвечающий за файл robots.txt. Его можно найти на странице «Маркетинг -> Поисковая оптимизация -> Настройка robots.txt» .
На этой странице есть кнопка для создания базового набора правил под систему Битрикс. Воспользуйтесь ей, чтобы создать все стандартные правила:

После генерации карты сайта путь к ней автоматически добавится в robots.txt.

После этого у вас уже будет хороший базовый набор правил. А дальше уже следует исходить из рекомендаций SEO-специалиста и закрывать (кнопкой «Запретить файл/папку») необходимые страницы. Обычно это страницы поиска, личные кабинеты и другие.

И не забывайте, что вы можете обратиться к нам за

Время чтения: 7 минут(ы)


Почти каждый проект, который приходит к нам на аудит либо продвижение, имеет некорректный файл robots.txt, а часто он вовсе отсутствует. Так происходит, потому что при создании файла все руководствуются своей фантазией, а не правилами. Давайте разберем, как правильно составить этот файл, чтобы поисковые роботы эффективно с ним работали.

Зачем нужна настройка robots.txt?

Robots.txt - это файл, размещенный в корневом каталоге сайта, который сообщает роботам поисковых систем, к каким разделам и страницам сайта они могут получить доступ, а к каким нет.

Настройка robots.txt - важная часть в выдаче поисковых систем, правильно настроенный robots также увеличивает производительность сайта. Отсутствие Robots.txt не остановит поисковые системы сканировать и индексировать сайт, но если этого файла у вас нет, у вас могут появиться две проблемы:

    Поисковый робот будет считывать весь сайт, что «подорвет» краулинговый бюджет. Краулинговый бюджет - это число страниц, которые поисковый робот способен обойти за определенный промежуток времени.

    Без файла robots, поисковик получит доступ к черновым и скрытым страницам, к сотням страниц, используемых для администрирования CMS. Он их проиндексирует, а когда дело дойдет до нужных страниц, на которых представлен непосредственный контент для посетителей, «закончится» краулинговый бюджет.

    В индекс может попасть страница входа на сайт, другие ресурсы администратора, поэтому злоумышленник сможет легко их отследить и провести ddos атаку или взломать сайт.

Как поисковые роботы видят сайт с robots.txt и без него:


Синтаксис robots.txt

Прежде чем начать разбирать синтаксис и настраивать robots.txt, посмотрим на то, как должен выглядеть «идеальный файл»:


Но не стоит сразу же его применять. Для каждого сайта чаще всего необходимы свои настройки, так как у всех у нас разная структура сайта, разные CMS. Разберем каждую директиву по порядку.

User-agent

User-agent - определяет поискового робота, который обязан следовать описанным в файле инструкциям. Если необходимо обратиться сразу ко всем, то используется значок *. Также можно обратиться к определенному поисковому роботу. Например, Яндекс и Google:


С помощью этой директивы, робот понимает какие файлы и папки индексировать запрещено. Если вы хотите, чтобы весь ваш сайт был открыт для индексации оставьте значение Disallow пустым. Чтобы скрыть весь контент на сайте после Disallow поставьте “/”.

Мы можем запретить доступ к определенной папке, файлу или расширению файла. В нашем примере, мы обращаемся ко всем поисковым роботам, закрываем доступ к папке bitrix, search и расширению pdf.


Allow

Allow принудительно открывает для индексирования страницы и разделы сайта. На примере выше мы обращаемся к поисковому роботу Google, закрываем доступ к папке bitrix, search и расширению pdf. Но в папке bitrix мы принудительно открываем 3 папки для индексирования: components, js, tools.


Host - зеркало сайта

Зеркало сайта - это дубликат основного сайта. Зеркала используются для самых разных целей: смена адреса, безопасность, снижение нагрузки на сервер и т. д.

Host - одно из самых важных правил. Если прописано данное правило, то робот поймет, какое из зеркал сайта стоит учитывать для индексации. Данная директива необходима для роботов Яндекса и Mail.ru. Другие роботы это правило будут игнорировать. Host прописывается только один раз!

Для протоколов «https://» и «http://», синтаксис в файле robots.txt будет разный.

Sitemap - карта сайта

Карта сайта - это форма навигации по сайту, которая используется для информирования поисковых систем о новых страницах. С помощью директивы sitemap, мы «насильно» показываем роботу, где расположена карта.


Символы в robots.txt

Символы, применяемые в файле: «/, *, $, #».


Проверка работоспособности после настройки robots.txt

После того как вы разместили Robots.txt на своем сайте, вам необходимо добавить и проверить его в вебмастере Яндекса и Google.

Проверка Яндекса:

  1. Перейдите по ссылке .
  2. Выберите: Настройка индексирования - Анализ robots.txt.

Проверка Google:

  1. Перейдите по ссылке .
  2. Выберите: Сканирование - Инструмент проверки файла robots.txt.

Таким образом вы сможете проверить свой robots.txt на ошибки и внести необходимые настройки, если потребуется.

  1. Содержимое файла необходимо писать прописными буквами.
  2. В директиве Disallow нужно указывать только один файл или директорию.
  3. Строка «User-agent» не должна быть пустой.
  4. User-agent всегда должна идти перед Disallow.
  5. Не стоит забывать прописывать слэш, если нужно запретить индексацию директории.
  6. Перед загрузкой файла на сервер, обязательно нужно проверить его на наличие синтаксических и орфографических ошибок.

Успехов вам!

Видеообзор 3 методов создания и настройки файла Robots.txt

Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

1C Bitrix - самый популярный коммерческий движок. Он широко используется во многих студиях, хотя идеальным его не назовешь. И если говорить о SEO-оптимизации, то здесь надо быть предельно внимательным.

Правильный robots.txt для 1C Bitrix

В новых версиях разработчики CMS изначально заложили robots.txt, который способен решить почти все проблемы с дублями страниц. Если у вас не обновлялась версия, то сравните и залейте новый robots.

Также внимательней нужно подойти к вопросу роботс, если ваш проект в настоящий момент дорабатывается программистами.

User-agent: * Disallow: /bitrix/ Disallow: /search/ Allow: /search/map.php Disallow: /club/search/ Disallow: /club/group/search/ Disallow: /club/forum/search/ Disallow: /communication/forum/search/ Disallow: /communication/blog/search.php Disallow: /club/gallery/tags/ Disallow: /examples/my-components/ Disallow: /examples/download/download_private/ Disallow: /auth/ Disallow: /auth.php Disallow: /personal/ Disallow: /communication/forum/user/ Disallow: /e-store/paid/detail.php Disallow: /e-store/affiliates/ Disallow: /club/$ Disallow: /club/messages/ Disallow: /club/log/ Disallow: /content/board/my/ Disallow: /content/links/my/ Disallow: /*/search/ Disallow: /*PAGE_NAME=search Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*/slide_show/ Disallow: /*/gallery/*order=* Disallow: /*?print= Disallow: /*&print= Disallow: /*register=yes Disallow: /*forgot_password=yes Disallow: /*change_password=yes Disallow: /*login=yes Disallow: /*logout=yes Disallow: /*auth=yes Disallow: /*action=ADD_TO_COMPARE_LIST Disallow: /*action=DELETE_FROM_COMPARE_LIST Disallow: /*action=ADD2BASKET Disallow: /*action=BUY Disallow: /*print_course=Y Disallow: /*bitrix_*= Disallow: /*backurl=* Disallow: /*BACKURL=* Disallow: /*back_url=* Disallow: /*BACK_URL=* Disallow: /*back_url_admin=* Disallow: /*index.php$

Host: www.site.ru Sitemap: http://www.site.ru/sitemap.xml

Начальная SEO оптимизация сайта на 1С Битрикс

В 1С Битрикс есть SEO модуль, который идет уже в тарифе “Старт”. Данный модуль имеет очень большие возможности, которые удовлетворят все потребности seo специалистов при начальной оптимизации сайта.

Его возможности:

  • общее ссылочное ранжирование;
  • цитирование;
  • количество ссылок;
  • поисковые слова;
  • индексация поисковиками.

SEO модуль + Веб-аналитика

Инструменты для поисковой оптимизации по страницам:

  1. представляется вся информация, которая нужна пользователю для модификации страницы;
  2. в публичной части выводится базовая информация по контенту страницы;
  3. отображается специальная информация о странице: частота индексации поисковиками, запросы, которые приводят на эту страницу, дополнительная статистическая информация;
  4. дается наглядная оценка результативности работы страницы;
  5. возможность тут же вызвать необходимые диалоги и произвести изменения на странице.

Инструмент для поисковой оптимизации по сайту:

  1. отображается вся информация, необходимая для модификации сайта;
  2. базовая информация по содержимому сайта выводится в публичной его части;
  3. применительно ко всему сайту выводится: общее ссылочное ранжирование, цитирование, количество ссылок, поисковые слова, индексация поисковиками;
  4. наглядная оценка результативности работы сайта;
  5. возможность тут же вызвать необходимые диалоги и произвести изменения на сайте.

1С-Битрикс: Marketplace

Также в Битрикс имеется свой Маркетплейс, где есть несколько модулей для SEO оптимизации проекта. Они дублируют функции друг друга, так что выбирайте по цене и функциям.

Простое управление мета-тегами для SEO

Бесплатный

Модуль, который позволяет добавить уникальные SEO-данные (title, description, keywords) на любую страницу сайта, включая элементы каталога.

SEO-инструменты

Платный

  • Управление ЧПУ сайта на одной странице.
  • Возможность переопределения заголовков, и мета-тегов страниц.
  • Возможность установки редиректов.
  • Тестирование OpenGraph-тегов.
  • Последний заход реального бота Гугла или Яндекса (отложенная проверка валидности бота по его IP-адресу).
  • Список переходов на ваши страницы, поисковый трафик
  • Подсчет количества лайков к вашим страницам, сторонним сервисом

SEO инструменты: Управление мета-тегами PRO

Платный

Инструмент для автоматической генерации мета тэгов title, description, keywords, а также заголовка H1 для ЛЮБЫХ страниц сайта.

  • использование правил и шаблонов;
  • применение правила с учетом таргетинга;
  • возможность настройки проекта на ЛЮБОЕ количество ключей;
  • централизованное управление мета-тегами на любых проектах;
  • оперативный контроль состояния мета-тегов на любой странице проекта.

Инструменты SEO специалиста

Платный

Модуль позволяет:

  • Устанавливать мета-теги (title, keywords, description).
  • Принудительно менять H1 (заголовок страницы), устанавливаемый любыми компонентами на странице.
  • Устанавливать признак канонического адреса.
  • Устанавливать до трех SEO-текстов в любое место страницы с использованием визуального редактора или без него.
  • Многосайтовость.
  • Редактировать все вышеуказанное как "с лица" сайта, так и из админки.
  • Устанавливать и использовать модуль на редакции Битрикса "Первый сайт".

ASEO редактор-оптимизатор

Платный

Модуль позволяет задать уникальные SEO данные (title, description, keywords) и изменить контент для HTML-блоков на любой странице сайта, имеющей свой URL, либо для определенного шаблона URL на основе GET-параметров.

SeoONE: комплексная поисковая оптимизация и анализ

Платный

  1. Настройка "URL без параметров".
  2. Настройка "META-данные страниц".
  3. "Статичные" - здесь вы сможете легко задать уникальные meta-данные (keywords и description) для страницы, а также уникальный заголовок браузера и заголовок страницы (обычно h1).
  4. "Динамические" - эта настройка аналогична предыдущей. Отличие заключается лишь в том, что она создается для динамически генерируемых страниц (например, для каталога товаров).
  5. Настройка "Подмена адресов" позволяет задать вторичный URL для страницы.
  6. Настройка "Экспресс-анализ". На этой странице вы сможете добавить неограниченное число сайтов для анализа.

ЧПУризатор (выставляем символьный код)

Платный

Модуль позволяет выставить на сайте символьные коды для элементов и разделов в автоматическом режиме.

Linemedia: SEO блоки на сайте

Платный

Предоставляет компонент, который позволяет добавить несколько SEO-блоков текста на любую страницу, установить meta-информацию о странице.

Ссылка на разделы и элементы инфоблоков

Платный

С помощью данного модуля в стандартном визуальном редакторе появляется возможность добавлять и редактировать ссылки на элементы/разделы инфоблоков.

Веб-аналитика в 1C Bitrix: Яндекс Метрика и Google Analytics

Существует несколько вариантов размещения счетчиков в cms:

Вариант № 1. Разместить код счетчика bitrix/templates/имя шаблона/headers.php после тега .

Вариант № 2. Использовать для Яндекс Метрики специальный плагин .

Вариант № 3. В Битрикс есть свой модуль веб-аналитики. Конечно же, он не позволит создавать собственные отчеты, делать сигментации и так далее, но для простого использования следить за статистикой - вполне себе инструмент.

Яндекс Вебмастер и Google webmaster в 1C Bitrix

Да, чтобы добавить сайт в сервис Вебмастер (как в Гугл, так и в Яндекс) существуют встроенные решения, но мы настойчиво рекомендуем напрямую работать с этими сервисами.

Потому, что:

  • там вы сможете увидеть намного больше данных;
  • вы будете уверенны, что данные актуальны (насколько это возможно) и не искажены;
  • если сервис выпустит обновление, вы сразу сможете его увидеть и использовать (в случае работы с плагином, придется ждать обновлений).

Если вы только создаете сайт и задумались о том, насколько 1C Bitrix подходит для продвижения в поисковых системах и нет ли в нем каких-то проблем, то беспокоиться не нужно. Движок является лидером среди платных cms на рынке и уже очень давно, все seo специалисты (я не только про нашу студию говорю) уже не раз сталкивались с Битриксом и у всех есть опыт.

На 1C Bitrix не отличается от продвижения на других cms или самописных движках. Различия можно увидеть лишь в инструментах для оптимизации, о которых мы написали выше.

Но стоит помнить о том, что инструменты сами по себе не продвинут ваш сайт. Здесь нужны специалисты, которые правильно их настроят.

Кстати, у нас полно статей-инструкций, в которых много практических советов с историей многолетней практики. Конечно, мы думали над тем, чтобы наладить тематическую рассылку, но пока не успеваем. Так что удобней всего

Битрикс является одной из самых распространенных систем администрирования в российском сегменте интернета. С учетом того, что на этой CMS, с одной стороны, нередко делают интернет-магазины и в достаточной степени нагруженные сайты, а с другой стороны, битрикс оказывается не самой быстрой системой, составление правильного файла robots.txt становится еще более актуальной задачей. Если поисковый робот индексирует только то, что нужно для продвижения, это помогает убрать лишнюю нагрузку на сайт. Как и в случае истории с , в интернете почти в каждой статье присутствуют ошибки. Такие случае я укажу в самом конце статьи, чтобы было понимание, почему такие команды прописывать не нужно.

Более подробно о составлении robots.txt и значении всех его директив я писал . Ниже я не буду подробно останавливаться на значении каждого правила. Ограничусь тем, что кратко прокомментирую что для чего необходимо.

Правильный Robots.txt для Bitrix

Код для Robots, который прописан ниже, является базовым, универсальным для любого сайта на битриксе. В то же время, нужно понимать, что у вашего сайта могут быть свои индивидуальные особенности, и этот файл потребуется скорректировать в вашем конкретном случае.

User-agent: * # правила для всех роботов Disallow: /cgi-bin # папка на хостинге Disallow: /bitrix/ # папка с системными файлами битрикса Disallow: *bitrix_*= # GET-запросы битрикса Disallow: /local/ # папка с системными файлами битрикса Disallow: /*index.php$ # дубли страниц index.php Disallow: /auth/ # авторизация Disallow: *auth= # авторизация Disallow: /personal/ # личный кабинет Disallow: *register= # регистрация Disallow: *forgot_password= # забыли пароль Disallow: *change_password= # изменить пароль Disallow: *login= # логин Disallow: *logout= # выход Disallow: */search/ # поиск Disallow: *action= # действия Disallow: *print= # печать Disallow: *?new=Y # новая страница Disallow: *?edit= # редактирование Disallow: *?preview= # предпросмотр Disallow: *backurl= # трекбеки Disallow: *back_url= # трекбеки Disallow: *back_url_admin= # трекбеки Disallow: *captcha # каптча Disallow: */feed # все фиды Disallow: */rss # rss фид Disallow: *?FILTER*= # здесь и ниже различные популярные параметры фильтров Disallow: *?ei= Disallow: *?p= Disallow: *?q= Disallow: *?tags= Disallow: *B_ORDER= Disallow: *BRAND= Disallow: *CLEAR_CACHE= Disallow: *ELEMENT_ID= Disallow: *price_from= Disallow: *price_to= Disallow: *PROPERTY_TYPE= Disallow: *PROPERTY_WIDTH= Disallow: *PROPERTY_HEIGHT= Disallow: *PROPERTY_DIA= Disallow: *PROPERTY_OPENING_COUNT= Disallow: *PROPERTY_SELL_TYPE= Disallow: *PROPERTY_MAIN_TYPE= Disallow: *PROPERTY_PRICE[*]= Disallow: *S_LAST= Disallow: *SECTION_ID= Disallow: *SECTION[*]= Disallow: *SHOWALL= Disallow: *SHOW_ALL= Disallow: *SHOWBY= Disallow: *SORT= Disallow: *SPHRASE_ID= Disallow: *TYPE= Disallow: *utm*= # ссылки с utm-метками Disallow: *openstat= # ссылки с метками openstat Disallow: *from= # ссылки с метками from Allow: */upload/ # открываем папку с файлами uploads Allow: /bitrix/*.js # здесь и далее открываем для индексации скрипты Allow: /bitrix/*.css Allow: /local/*.js Allow: /local/*.css Allow: /local/*.jpg Allow: /local/*.jpeg Allow: /local/*.png Allow: /local/*.gif # Укажите один или несколько файлов Sitemap Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS # то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал # Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают. Host: www.site.ru

  1. Закрывать от индексации страницы пагинации
    Правило Disallow: *?PAGEN_1= является ошибкой. Страницы пагинации должны индексироваться. Но на таких страницах обязательно должен быть прописан .
  2. Закрывать файлы изображений и файлов для скачивания (DOC, DOCX, XLS, XLSX, PDF, PPT, PPTS и др.)
    Это делать не нужно. Если у вас есть правило Disallow: /upload/ , удалите его.
  3. Закрывать страницы тегов и категорий
    Если ваш сайт действительно имеет такую структуру, что на этих страницах контент дублируется и в них нет особой ценности, то лучше закрыть. Однако нередко продвижение ресурса осуществляется в том числе за счет страниц категорий и тегирования. В этом случае можно потерять часть трафика.
  4. Прописать Crawl-Delay
    Модное правило. Однако его нужно указывать только тогда, когда действительно есть необходимость ограничить посещение роботами вашего сайта. Если сайт небольшой и посещения не создают значительной нагрузки на сервер, то ограничивать время «чтобы было» будет не самой разумной затеей.

Сдача готового сайта на «Битриксе» - полбеды. Как правило, всё самое интересное начинается после его первой индексации поисковыми роботами Google и Яндекс, когда в поисковую выдачу может попасть много ненужной для пользователей информации: от «технического мусора» до той фотографии с новогоднего корпоратива.

Держись неизвестный SEO-шник, держись горе-программист, а ведь нужно-то было всего лишь составить правильный robots.txt для Битрикса .

Для справки : robots.txt – это файл, расположенный в корне сайта и ограничивающий поисковых роботов в доступе к его определённым разделам и страницам.

Robots.txt для корпоративных сайтов и сайтов-визиток

Любимая фраза начинающих копирайтеров «каждый проект индивидуален» лучше всего подходит для нашей ситуации. Исключение составляют лишь стандартные директивы для robots.txt: User-agent; Disallow, Host и Sitemap. Если хотите – это обязательный минимум.

Всё остальное в вопросах закрытия и перекрытия – на Ваше усмотрение. Несмотря на то, что «Битрикс» - это коробочное решение, директивы сделанных на нём проектов могут сильно отличаться друг от друга. Вопрос в структуре и функционале отдельно взятого сайта.

Представим, что у вас есть корпоративный сайт на «Битриксе» со стандартным набором разделов: «О компании», «Услуги», «Проекты», «Контакты», «Новости». Если контент на таком сайте уникальный, то нужно работать над закрытием технической части проекта.

1. Закрыть от индексации папку /bitrix и /cgi-bin . Чисто техническая информация (CSS, шаблоны, капчи), которая никому не нужна, кроме ругающегося в панели веб-мастеров GoogleBot’a. Можете смело закрывать её. Алгоритм действий следующий: Disallow: /example/

2. Папка /search также не интересна ни поисковикам, ни пользователям. Закрыв её, вы обезопасите себя в выдаче от дублей страниц, повторяющихся тегов и тайтлов.

3. При составлении robots.txt на «Битриксе» иногда забывают о закрытии форм авторизации и PHP-аутентификации на сайте. Речь идёт о

/auth/
/auth.php

4. Если на вашем сайте есть возможность распечатки каких-либо материалов: будь то карты местности или счёта на оплату, не забудьте закрыть в файле robots.txt следующие директории:

/*?print=
/*&print=

5. «Битрикс» бережно хранит всю историю Вашего сайта: успешные регистрации пользователей, записи об успешной смене и восстановлении паролей. Правда, сомневаемся, что это будет интересно поисковым роботам.

/*register=yes
/*forgot_password=yes
/*change_password=yes
/*login=yes
/*logout=yes
/*auth=yes

6. Представьте, вы просматриваете на сайте фотоальбом, открываете одну, вторую, третью фотографии, но на четвёртой решаете вернуться на шаг назад. В адресной строке появится вот что-то типа такого ругательства: ?back_url_ =%2Fbitrix%2F%2F. Убирается оно опять же изменением файла robots.txt в корне CMS «1С-Bitrix».

/*BACKURL=*
/*back_url=*
/*BACK_URL=*
/*back_url_admin=*

Таким образом, мы страхуем открытую часть (видна пользователям) и закрытую (видна администраторам CMS Битрикс).

7. Папка /upload. В ней «Битрикс» хранит картинки и видео с сайта. Если контент уникальный, то закрывать папку не нужно. Ведь проиндексированные картинки и видео – дополнительный источник трафика. Другое дело, когда в /upload хранится конфиденциальная информация или неуникальный контент.


Robots.txt на Битрикс для интернет-магазинов

Основа та же, что и для корпоративных сайтов, но с несколькими поправками.

1. В отличие от небольшого сайта компании, в интернет-магазине, как правило, не менее ста страниц. Страницы паджинации, отвечающие за переход пользователя с одной карточки товара на другую, засоряют поисковые системы. Чем больше страниц, тем больше «мусора».

/*?PAGEN

2. Запрет индексации действий пользователей и администраторов сайта. Следы фильтрации, сравнения товаров, добавления товаров в корзину также должны быть скрыты от глаз поискового робота.

/*?count
/*?action
/*?set_filter=*

3. Наконец, UTM-метки. Закрыть к ним доступ можно следующим образом:

/*openstat=
/*utm_source=