в SEO

Делаем правильный robots.txt ( + разные CMS)

БесполезноНе очень как-тоСреднеПолезноОчень полезно (6 голосов, средняя оценка: 4,17 максимум из 5)

Одним из главных технических моментов продвижения любого сайта является его индексирование. Для определения нужных для индекса страниц используется файл robots.txt, который лежит в корне сайта и содержит директивы для поисковых систем.

Содержание

Правильный robots.txt поможет избежать 95% проблем с ускорением индексации сайта и дублями страниц.

Что такое robots.txt?

— Технический файл в корне сайта, который указывает определенным роботам поисковых систем на необходимость индексации (запрета от индексации) страниц и разделов сайта.

Синтаксис robots.txt позволяет разделять роботов и указывать различные правила для них.

Требования к файлу роботс

  • файл должен называться robots.txt (все буквы в нижнем регистре);
  • кодировка файла — Unix (utf-8)
  • размещение файла в корне сайта.

Содержимое файла

Структурно файл robots.txt состоит из двух записей (они нечувствительны к регистру):

  1. User-agent
  2. Disallow

При этом некоторые поисковики поддерживают дополнительные записи (директивы robots.txt):

  • Яндекс поддерживает директиву «Host» — которая определяет основное зеркало сайта

Любая запись может встречаться сколько угодно раз в зависимости от количества скрываемых (открываемых) разделов.

Формат строки файла robots.txt:

Директива:[пробел]значение

Для корректности роботс необходимо, чтобы хотя бы одна директива Disallow была после каждого указания User-agent.

Если robots.txt полностью пуст, то это значит, что весь сайт открыт для индексации.

Директива User-agent

User-agent содержит название поискового робота. В рамках директивы можно указать отдельным роботам какие страницы индексировать, а какие — нет.

Примеры:

  • User-agent: * — означает, что директива действует для всех роботов
  • User-agent: Yandex — означает, что директива действует для робота Яндекса
  • User-agent: Google — означает, что директива действует для робота Гугла

Узнать название робота поисковой машины достаточно просто:

  • через раздел помощи поисковой системы;
  • через логи веб-сервера (при обращении к файлу). Подробнее будет в видеоролике.

Директива Disallow

Disallow содержит правила, которые указывают роботу из User-agent, какие страницы, файлы, каталоги запрещены для индексации

Примеры:

  • Disallow: — разрешает всё для индексации
  • Disallow: / — запрещает сайт к индексации полностью
  • Disallow: /user.htm — запрещает индексировать страницу user.htm
  • Disallow: /user/ — запрещает индексировать каталог user и все его содержимое

Схожие разделы можно закрыть от индексации одной директивой. Для этого прописываем повторяющуюся часть их названия без закрывающего слеша

  • Disallow: /user — запрещает индексировать каталог user и все его содержимое, а также любые другие страницы и каталоги, в которые входит этот набор символов. Например: user.html, users/, usermanager.php и т.д.

Директива Allow

Allow используется, чтобы выделить из запрещенных к индексации (через Disallow) элементов те, которые нужно индексировать.

Например для Disallow: /forum/:

  • Allow: /forum/page1.html — открывает индексацию страницы page1.html

Директива Sitemap

Директива sitemap в файле robots.txt указывает поисковым роботам на расположение XML карты сайта для её дальнейшего индексирования.

Например:

  • Sitemap: http://site.ru/sitemap.xml

Директива Host

Host используется Яндексом для определения основного зеркала сайта (с www или без www индексировать сайт). Также для высоконагруженных проектов часто бывает полезным сделать дубль ресурса под другим адресом.

Наример www.site.ru – основное зеркало:

  • Host: www.site.ru

Директива Crawl-delay

Используется Яндексом для настройки промежутков (секунд) между итерациями по индексации. Иногда помогает от перегрузок.

Например:

  • Crawl-delay: 3 — указание роботу, что на следующую страницу нужно переходить через три секунды.

Комментарии в роботс

Комментарии начинаются с символа «#». Теоретически можно ставить комментарий после значения директивы, но надежнее размещать их на новой строчке.

Пример:

  • #запрещаем индексировать /cgi-bin/
    Disallow: /cgi-bin/

Как проверить корректность robots.txt

Это можно сделать в Яндекс Вебмастере в разделе «Настройка индексирования» — «Анлиз robots.txt».

В этот раздел подгружается файл с вашего сервера. Вы можете в список url добавить интересующие вас страницы и получить ответ индексируются они или нет. Тут же можно написать и новые директивы, после чего скопировать результат в файл на сервере.

Подробнее смотрите в видеоролике

Robots.txt для различных CMS

В этом разделе приведу типовые файлы роботс для наиболее популярных CMS. Конечно, вам нужно проверить значения на корректность для конкретного вашего проекта, а не бездумно копировать 1 в 1

Robots.txt для wordpress

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
 
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Host: site.ru
Sitemap: http://site.ru/sitemap.xml
 
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
 
User-agent: YandexImages
Allow: /wp-content/uploads/

Robots.txt для Joomla

User-agent: *
 Disallow: /administrator/
 Disallow: /cache/
 Disallow: /includes/
 Disallow: /installation/
 Disallow: /language/
 Disallow: /libraries/
 Disallow: /media/
 Disallow: /modules/
 Disallow: /plugins/
 Disallow: /templates/
 Disallow: /tmp/
 Disallow: /xmlrpc/
 Sitemap: http://путь к вашей карте XML формата
User-agent: Yandex
 Disallow: /administrator/
 Disallow: /cache/
 Disallow: /includes/
 Disallow: /installation/
 Disallow: /language/
 Disallow: /libraries/
 Disallow: /media/
 Disallow: /modules/
 Disallow: /plugins/
 Disallow: /templates/
 Disallow: /tmp/
 Disallow: /xmlrpc/
 Host: vash_sait.ru
 Sitemap: http://путь к вашей карте XML формата

Robots.txt для DLE (Data Life Engine)

Disallow: /*print
Disallow: /user/
Disallow: /favorites/
Disallow: /cache/
Disallow: /cgi-bin/
Disallow: /engine/
Disallow: /language/
Disallow: /templates/
Disallow: /uploads/
Disallow: /backup/
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /?do=lastcomments
Disallow: /statistics.html
Disallow: /index.php?do=pm
Disallow: /index.php?do=search
Disallow: /index.php?do=register
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=stats
Disallow: /index.php?do=addnews
Disallow: /index.php?subaction=newposts
Sitemap: http://VASH_SITE.ru/sitemap.xml
User-agent: Yandex
Disallow: /*print
Disallow: /user/
Disallow: /favorites/
Disallow: /cache/
Disallow: /cgi-bin/
Disallow: /engine/
Disallow: /language/
Disallow: /templates/
Disallow: /uploads/
Disallow: /backup/
Disallow: /2011
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /?do=lastcomments
Disallow: /statistics.html
Disallow: /index.php?do=pm
Disallow: /index.php?do=search
Disallow: /index.php?do=register
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=stats
Disallow: /index.php?do=addnews
Disallow: /index.php?subaction=newposts
Sitemap: http://VASH_SITE.ru/sitemap.xml
Host: VASH_SITE.ru

Robots.txt для битрикс

User-agent:*
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*?action=
Disallow: /*action=ADD_TO_COMPARE_LIST
Disallow: /*action=DELETE_FROM_COMPARE_LIST
Disallow: /*action=ADD2BASKET
Disallow: /*action=BUY
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*?COURSE_ID=
Disallow: /*?PAGEN
Disallow: /*PAGEN
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*PAGE_NAME=search
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*SHOWALL
Disallow: /*show_all=
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Robots.txt для modx

User-agent: *
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /install/
Disallow: /manager/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Robots.txt для opencart

User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: /wishlist
Disallow: /login
Disallow: /index.php?route=product/manufacturer
Disallow: /index.php?route=product/compare
Disallow: /index.php?route=product/category
 
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Удачного дня!

БесполезноНе очень как-тоСреднеПолезноОчень полезно (6 голосов, средняя оценка: 4,17 максимум из 5)

Хотите задать вопрос или заказать услугу? Пишите!

Ваше имя (обязательно)

Ваш e-mail (обязательно)

Суть вопроса

Сообщение

Гарантирован ответ в течение 1 часа в рабочее время!

Понравилась статья? Поделись ею с друзьями!

в SEO | 11 января 2016 | 716 Слов |

Оставить комментарий

Комментарии

  1. Спасибо, Эдуард! Добавлю твой блог к себе в закладки. )
    Для WP я бы открыл еще вот эти директории:
    Allow: /wp-includes/css/
    Allow: /wp-includes/js/
    Allow: /wp-includes/images/
    Allow: /wp-content/themes/*.css
    Allow: /wp-content/themes/*.js
    Allow: /wp-content/plugins/*.css
    Allow: /wp-content/plugins/*.js
    Allow: /wp-content/uploads/*.css
    Allow: /wp-content/uploads/*.js

    Для Joomla:

    Allow: /templates/*.css
    Allow: /templates/*.js
    Allow: /templates/*.png
    Allow: /templates/*.gif
    Allow: /templates/*.ttf
    Allow: /templates/*.svg
    Allow: /templates/*.woff
    Allow: /components/*.css
    Allow: /components/*.js
    Allow: /media/*.js
    Allow: /media/*.css
    Allow: /plugins/*.css
    Allow: /plugins/*.js

    Плюс во избежании индексации всякого рода шлака и статических страниц добавляю:
    Disallow: /*?*
    Disallow: /*?