кнопка наверх

Как составить файл robots.txt для WordPress

robots wordpressВ статье о том, как ускорить индексацию сайта, одним из способов было: настроить правильный robots.txt для WordPress. Об этом я сейчас подробно расскажу, ведь он нужен не только для ускорения индексации.

Статья будет небольшая, но если вам совсем лень читать про создание robots.txt для wordpress, можете скачать его сразу и залить на свой хостинг, только подставьте адрес своего сайта. Статья о том, как загружать файлы на сайт вам в этом поможет.

Зачем нужен robots.txt

Итак, robots.txt – служебный файл, предназначенный для поисковых роботов и показывающий им, какие файлы, папки, разделы сайта следует индексировать, а какие нет. Закрытые от индексации в роботсе статьи никогда не окажутся в индексе поисковых систем.

Очень важно скрыть от индексирования все ненужные файлы и папки (программную часть движка и прочее), чтобы поисковик не тратил на них силы, а то устанет и до самого важного не дойдет! 🙂

Если у сайта имеются поддомены, для каждого из них формируется отдельный robots.txt.

Яндекс строго следует правилам файла robots.txt, а вот Google нет. Он запросто может проиндексировать запрещенные страницы и выводить их в поиске, особенно если на эту страницу ведут ссылки. В панели вебмастера обеих поисковых систем есть инструмент проверки файла robots.txt, которая показывает, правильно ли он работает: 
роботс для вордпресс

Где находится robots.txt WordPress

Этот файл должен находиться в корневом каталоге вашего сайта. Попасть туда, чтобы загрузить вновь отредактированный файл, можно по ftp, используя Total Commander, например. Можно просмотреть содержимое роботса в браузере, набрав в адресной строке: http://адрес_сайта/robots.txt.

Правильный robots.txt для WordPress

А вот и он, код самого правильного файла роботс. Скопируйте его в свой robots.txt и на этом можно закончить. Если вы любознательны, продолжайте чтение и узнайте, что значит каждая строчка файла.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
 
User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: ваш_сайт.ru
 
Sitemap: http://ваш_сайт.ru /sitemap.xml.gz
Sitemap: http://ваш_сайт.ru /sitemap.xml

Перейдем к подробному рассмотрению значения этих строк.

  • «User-agent: *» означает, что правила, приведенные ниже, будут действовать для всех поисковиков. Во второй части файла мы прописываем правило специально для Яндекса: «User-agent: Yandex».
  • «Allow:» — разрешено индексировать. В варианте роботса для вордпресс мы это не используем.
  • «Disallow:» — запрещено индексировать.
  • «Host: ваш_сайт.ru» — обязательно нужно указать основное зеркало. Ваш сайт открывается по двум адресам: с www и без www. Но в итоге происходит редирект на один из адресов (у меня на блоге без www) – это и есть основное зеркало, которое нужно указать здесь. Эта строчка может быть расположена в любой части файла.
  • «Sitemap:» — ссылка на XML-карту сайта. Если файлов с XML-картами несколько, пропишите путь к каждому из них.
  • Регулярные выражения: звездочка * - означает произвольную последовательность символов.

Очень подробно о директивах robots.txt написано в помощи Яндекса, поэтому если что-то не понятно, попробуйте прочитать там.

Если на вашем сайте не настроены ЧПУ, то вышеприведенный файл роботс для вордпресс вам не подойдет, воспользуйтесь следующим:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
Host: ваш_сайт.ru
Sitemap: http://ваш_сайт/sitemap.xml.gz
Sitemap: http://ваш_сайт/sitemap.xml

После загрузки завершения настройки robots.txt WordPress обязательно проверьте его работу в вебмастерах поисковиков (об этом было написано выше). В ближайшее время я планирую написать еще несколько постов о продвижении блога, поэтому подписывайтесь на RSS, чтобы быть в курсе.


1 звезда2 звезды3 звезды4 звезды5 звезд (13 оценок, среднее: 3,69 из 5)
Загрузка...
like
Понравилось?
Подпишитесь на блог и получайте новые статьи!
Добавляйтесь в соц. сетях:
  1. deoline:

    Слышал, что есть wordpress плагин robots.txt, который позволяет автоматически настроить робот в соответствии со страницами блога, что-нибудь можете о нем рассказать?

    Ответить
    • Анна:

      К сожалению, о таком плагине я не знаю. Да и вообще я являюсь ярым противником плагинов — если можно обойтись без них, значит нужно обходиться.

      Ответить
      • СЕРГЕЙ:

        Разделяю вашу позицию, меньше плагинов — быстрее грузится сайт.

        Ответить
        • Петр:

          И теряется гибкость.

          Захардкодил, а потом если вдруг надо тему сменить или просто выпилить или поменять функционал — это все превращается в ад.

          И далеко не все плагины тормозят сайт, по крайней мере часто не больше, че захардкоживание каких-либо вещей

          Ответить
  2. Евгений:

    А по какой причине robots.txt на вашем сайте имеет вид отличный от рекомендованного в этой статье?

    Ответить
  3. fuad:

    всем привет как запретить индексацию виджетов?они очень мешают

    Ответить
  4. Lina:

    Если сами не уверенны в правильности составления Robots.txt можно воспользоваться онлайн-сервисами типа mediasova (автоматическая генерация файла)

    Ответить
  5. Alx:

    Подскажите пожалуйста, уже с ума сошел — при проверке на вебмастере яндекса, вместо роботса закачивается код страницы... в чем может быть проблема?

    Ответить
    • Анна:

      С таким не сталкивалась. А на самом деле как ваш роботс выглядит?

      Ответить
      • Alx:

        да самый обычный роботс:

        User-agent: *

        Disallow: /wp-admin

        Disallow: /wp-includes

        Disallow: /wp-content/plugins

        Disallow: /wp-content/cache

        Disallow: /wp-content/themes

        Disallow: /trackback

        Disallow: */trackback

        Disallow: */*/trackback

        Disallow: */*/feed/*/

        Disallow: */feed

        Disallow: /*?*

        Disallow: /tag

        User-agent: Yandex

        Disallow: /wp-admin

        Disallow: /wp-includes

        Disallow: /wp-content/plugins

        Disallow: /wp-content/cache

        Disallow: /wp-content/themes

        Disallow: /trackback

        Disallow: */trackback

        Disallow: */*/trackback

        Disallow: */*/feed/*/

        Disallow: */feed

        Disallow: /*?*

        Disallow: /tag

        Host: Foto-stor.ru

        Ответить
        • Анна:

          а вот и нет. если в браузере ввести адрес вашего роботса, то никакого роботса не открывается, значит виноват не Яндекс, а что-то вы не так сделали. может это как-то связано с заглушкой, которая висит на сайте, вы как ее сделали?

          Ответить
          • Alx:

            ух ты, да, в самом деле, отключил заглушку (она была в настройках темы WP) яндекс смог найти робота, но как то странно — не то загрузил, что в роботе. вот скрин (

            yadi.sk/i/FdXkBqcxf24QP

            Ответить
            • Анна:

              не знаю, у меня по-прежнему не получается открыть его на вашем сайте.

              Ответить
              • Alx:

                а можете сейчас попробовать? я отключил «на реконструкции» ))

  6. Анна:

    а вы что сами не умеете вводить адрес в адресную строку?) открылся, он точно такой же, как и в вебмастере! значит вы этот полный код куда-то не туда скопировали.

    Ответить
    • Alx:

      умею ) у меня получилось, код в яндексе проверке робота не выдает )) но и полное содержание то что стоит в роботе то же не считывает )

      Ответить
      • Оля:

        Добрый день! Как вы решили вашу проблему с роботсом? А то у меня тоже самое роботс не загружается.

        В настройках вордпресса галка «Попросить поисковые системы не индексировать сайт» не установлена.

        Ответить
  7. Иван:

    А разве стоит tag запрещать к индексации?

    Ответить
    • Анна:

      А почему нет? В них нет никакой важно и тем более уникальной информации, значит роботу это смотреть не нужно.

      Ответить
  8. Алексей:

    Анна, здравствуйте!

    У меня вопрос: на последней версии вордпресс нет папки — trackback, wp-content/cache, cgi-bin

    Их все равно указать? Или пропустить лучше?

    Ответить
  9. Сергей К.:

    Здравствуйте, Анна!

    Вопрос, на который не могу найти ответ. Был бы благодарен за Ваше мнение. Мой сайт — не блог, а сайт небольшого агентства недвижимости.

    Сайт на WordPress с ЧПУ, я подкорректировал robots согласно рекомендациям, а также примерам на различных сайтах. Наряду с прочими директивами имеются и вот эти:

    Disallow: /wp-includes/

    Disallow: /wp-content/plugins/

    Disallow: /wp-content/themes/

    Проверяю мои страницы в webmaster Гугла в разделе «Посмотреть как Googlebot». При таком robors на страницах отображаются только тексты, то есть сайт выглядит как полу-фабрикат. А фотографии, дизайн, элементы оформления, таблицы и т.д. не видны. Указывается, что блокировка этих элементов происходит из-за директив:

    Disallow: /wp-includes/

    Disallow: /wp-content/plugins/

    Disallow: /wp-content/themes/

    В этой связи вопрос. Так и должно быть, что сайт выглядит для поисковиков усеченным? Или всё же он будет понижен в результатах выдачи поисковиков из-за того, что он выглядит в их глазах ущербным? Если последнее верно, то что нужно сделать, чтобы исправить ситуацию?

    Сергей К.

    Ответить
    • Анна:

      Эта статья немного устарела, я уже переделала свой роботс, можете посмотреть pro-wordpress.ru/robots.txt. Нельзя закрывать папку с темой от поисковиков, так они не видят дизайна и стилей.

      Ответить
      • Вячеслав:

        Анна, приветствую вас!

        Посмотрел ваш новый роботс, и появился вопросик: у вас получается так, что закрыты комментарии от индексации на сайте или же только дубли коментов? У себя на сайте я пока не закрывал комменты в роботсе, но хотелось бы чтобы закрыть только дубли.

        Если я сделаю вот так: Disallow: */comments/ этого будет достаточно? Или же надо еще добавить и вот это — Disallow: /wp-comments

        Ну а так, ваш роботс понравился. Только что впервые увидел не стандартное положение колонок, которые начинаются с User-agent: Yandex, а не так — User-agent: * который идет следом, вторым, а не первым. А если все оставить как есть, только что эту колонку поставить в начало — User-agent: * Или же в этом нет никакой разницы?

        Ответить
      • Марина:

        Подскажите, пожалуйста, а почему у вас дважды указана директива Host?

        Ответить
  10. Алексей:

    Анна,добрый день.

    Я запутался какой robots.txt вставлять в вордпресс.

    Который в статье или в вашем последнем комментарии?

    User-agent: *

    Disallow: /wp-login.php

    Disallow: /wp-register.php

    Disallow: /xmlrpc.php

    Disallow: /template.html

    Disallow: /wp-admin

    Disallow: /wp-includes

    Disallow: /?s=

    Host: pro-wordpress.ru

    Sitemap: pro-wordpress.ru/sitemap.xml.gz

    Sitemap: pro-wordpress.ru/sitemap.xml

    User-agent: Googlebot-Image

    Allow: /wp-content/uploads/

    User-agent: YandexImages

    Allow: /wp-content/uploads/

    Ответить
    • Анна:

      В комментарии.

      Ответить
      • Сурикат:

        А нельзя было в статье поправить? Устарела она... Что за люди.

        Ответить
  11. Алексей:

    Как открыть для индексации только главную страницу сайта, а остальные все закрыть?

    Ответить
  12. Наталья:

    Здравствуйте, где-то прочитала, что от ПС особенно от Google лучше вообще ничего системного не закрывать, толькоо дубли, что Вы по этому поводу думаете?

    Ответить
  13. Tolik:

    Здравствуйте, скажите, не будет ли ошибкой добавить в robots.txt для вордпресс: Disallow: /*.php

    Ответить
    • Евгений:

      Этого делать ни в коем случае нельзя.

      Ответить
  14. Елена:

    Вот лапушка, спасибо!

    Ответить
  15. Валерий:

    Здравствуйте, на сайте создаются отдельные страницы с картинкой из записи, подскажите пожалуйста, что можно сделать, чтобы такого не происходило?

    Ответить
  16. Евгений:

    WordPress 4.4.2 самостоятельно (без плагинов) создает ответ на запрос о robots.txt с директивами:

    User-agent: *

    Disallow: /wp-admin/

    Allow: /wp-admin/admin-ajax.php

    Вопрос, где скрипт создания, как изменить, дополнить созданный автоматический ответ robots.txt или стоит создать свой robots.txt уже как файл и поместить его в корень сайта?

    Ответить
  17. maloir:

    Здравствуйте подскажите пожалуйста у меня повылазили страницы 404 такого типа в Яндекс веб мастер:

    Что это такое и можно ли как то закрыть их от индексации? и еще если можно вопрос в веб мастере в графе: «Документ содержит мета-тег noindex» так же появилось много страниц с такими адресами:

    почему они закрыты и как их открыть? Надеюсь я правильно вам все объяснил, так как сам ни как не разбираюсь во всем этом. Надеюсь на ваш ответ.

    Ответить
  18. Циничный Админ:

    Данный роботс не совсем коректно будет работать под гуглом, яндекс его скушает и не подавится... а вот гоша будет ругаться и поднять в выдаче гугла сайт с таким роботсом будет проблематично. Афтору советовал бы переписать заголовок статьи «Праивильный robots.txt под ПС Яндекс».

    Ответить
  19. Onisifor:

    А мэйл.ру ругается на некоторые директивы:

    Disallow: */trackback

    Disallow: */*/trackback

    Disallow: */*/feed/*/

    Disallow: */feed

    «Url должен быть указан относительно корня сайта»

    Ответить
  20. Татьяна:

    Здравствуйте! Подскажите, пожалуйста. В корневом каталоге нет файла robots.txt? А через браузер выходит такая картинка:

    User-agent: *

    Disallow: /wp-admin/

    Allow: /wp-admin/admin-ajax.php

    Что это значит? Надо самой создать и загрузить? Сайт поставлен в очередь на индексацию на Яндексе.

    Спасибо.

    Ответить
    • Игорь:

      Нужно залезть в папку wp-includes -> functions.php и найти вот такую строчку кода

      function do_robots () ...с нее начинается ф-ция создания файла robots.txt

      Ответить
      • Artyhomes:

        Если создать файл robots.txt в корневой директории — функция do_robots () не отрабатывает и поисковики видят ваш файл robots.txt

        Ответить
  21. Татьяна:

    Анна, здравствуйте. У меня такая вот проблема: 3 сайта, на всех 3 сайтах одинаковая проблема — яндекс сообщает, что некоторые страницы (не все) url запрещён к индексированию тегом noindex.

    Уже все перепроверила на 100 000 рядов. Ничего не могу понять. Все 3 сайта на вордпресс и стоит плагин All in One SEO Pack.

    Вот мой роботс.

    User-agent: Yandex

    Allow: /

    Disallow: /wp-

    Disallow: */trackback/

    Disallow: */comments/

    Disallow: /tag

    Disallow: /archive

    Disallow: /?s=

    Sitemap: http:// автоэлектрик-иркутск.рф/sitemap.xml

    Host: http:// автоэлектрик-иркутск.рф

    User-agent: *

    Allow: /

    Disallow: /wp-

    Disallow: */trackback/

    Disallow: */comments/

    Disallow: /tag

    Disallow: /archive

    Disallow: /?s=

    Sitemap: http:// автоэлектрик-иркутск.рф/sitemap.xml

    Подскажите, пожалуйста, в чем проблема?

    Ответить
  22. Руслан:

    Ребята, не закрывайте для гугл бота /wp-content/themes и /wp-content/themes он перестает видеть адаптивность страниц из-за блокировки файлов CSS. проверьте сами в серчь-консолях, хотя чндекс по прежнему видит их адаптивными

    Ответить
Ваш комментарий: