Как составить файл robots.txt для WordPress
В статье о том, как ускорить индексацию сайта, одним из способов было: настроить правильный robots.txt для WordPress. Об этом я сейчас подробно расскажу, ведь он нужен не только для ускорения индексации.
Статья будет небольшая, но если вам совсем лень читать про создание robots.txt для wordpress, можете скачать его сразу и залить на свой хостинг, только подставьте адрес своего сайта. Статья о том, как загружать файлы на сайт вам в этом поможет.
Зачем нужен robots.txt
Итак, robots.txt – служебный файл, предназначенный для поисковых роботов и показывающий им, какие файлы, папки, разделы сайта следует индексировать, а какие нет. Закрытые от индексации в роботсе статьи никогда не окажутся в индексе поисковых систем.
Очень важно скрыть от индексирования все ненужные файлы и папки (программную часть движка и прочее), чтобы поисковик не тратил на них силы, а то устанет и до самого важного не дойдет! 🙂
Если у сайта имеются поддомены, для каждого из них формируется отдельный robots.txt.
Яндекс строго следует правилам файла robots.txt, а вот Google нет. Он запросто может проиндексировать запрещенные страницы и выводить их в поиске, особенно если на эту страницу ведут ссылки. В панели вебмастера обеих поисковых систем есть инструмент проверки файла robots.txt, которая показывает, правильно ли он работает:
Где находится robots.txt WordPress
Этот файл должен находиться в корневом каталоге вашего сайта. Попасть туда, чтобы загрузить вновь отредактированный файл, можно по ftp, используя Total Commander, например. Можно просмотреть содержимое роботса в браузере, набрав в адресной строке: https://адрес_сайта/robots.txt.
Правильный robots.txt для WordPress
А вот и он, код самого правильного файла роботс. Скопируйте его в свой robots.txt и на этом можно закончить. Если вы любознательны, продолжайте чтение и узнайте, что значит каждая строчка файла.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 | User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /tag User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /tag Host: ваш_сайт.ru Sitemap: http://ваш_сайт.ru /sitemap.xml.gz Sitemap: http://ваш_сайт.ru /sitemap.xml |
Перейдем к подробному рассмотрению значения этих строк.
- «User-agent: *» означает, что правила, приведенные ниже, будут действовать для всех поисковиков. Во второй части файла мы прописываем правило специально для Яндекса: «User-agent: Yandex».
- «Allow:» — разрешено индексировать. В варианте роботса для вордпресс мы это не используем.
- «Disallow:» — запрещено индексировать.
- «Host: ваш_сайт.ru» — обязательно нужно указать основное зеркало. Ваш сайт открывается по двум адресам: с www и без www. Но в итоге происходит редирект на один из адресов (у меня на блоге без www) – это и есть основное зеркало, которое нужно указать здесь. Эта строчка может быть расположена в любой части файла.
- «Sitemap:» — ссылка на XML-карту сайта. Если файлов с XML-картами несколько, пропишите путь к каждому из них.
- Регулярные выражения: звездочка * - означает произвольную последовательность символов.
Очень подробно о директивах robots.txt написано в помощи Яндекса, поэтому если что-то не понятно, попробуйте прочитать там.
Если на вашем сайте не настроены ЧПУ, то вышеприведенный файл роботс для вордпресс вам не подойдет, воспользуйтесь следующим:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 | User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /tag User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /tag Host: ваш_сайт.ru Sitemap: http://ваш_сайт/sitemap.xml.gz Sitemap: http://ваш_сайт/sitemap.xml |
После загрузки завершения настройки robots.txt WordPress обязательно проверьте его работу в вебмастерах поисковиков (об этом было написано выше). В ближайшее время я планирую написать еще несколько постов о продвижении блога, поэтому подписывайтесь на RSS, чтобы быть в курсе.
Слышал, что есть wordpress плагин robots.txt, который позволяет автоматически настроить робот в соответствии со страницами блога, что-нибудь можете о нем рассказать?
К сожалению, о таком плагине я не знаю. Да и вообще я являюсь ярым противником плагинов — если можно обойтись без них, значит нужно обходиться.
Разделяю вашу позицию, меньше плагинов — быстрее грузится сайт.
И теряется гибкость.
Захардкодил, а потом если вдруг надо тему сменить или просто выпилить или поменять функционал — это все превращается в ад.
И далеко не все плагины тормозят сайт, по крайней мере часто не больше, че захардкоживание каких-либо вещей
А по какой причине robots.txt на вашем сайте имеет вид отличный от рекомендованного в этой статье?
По причине появления этой статьи. Пока руки не дошли переписать статью о роботсе.
всем привет как запретить индексацию виджетов?они очень мешают
Читайте статью о том, как закрыть код от индексации с помощью тегов noindex.
Если сами не уверенны в правильности составления Robots.txt можно воспользоваться онлайн-сервисами типа mediasova (автоматическая генерация файла)
Подскажите пожалуйста, уже с ума сошел — при проверке на вебмастере яндекса, вместо роботса закачивается код страницы... в чем может быть проблема?
С таким не сталкивалась. А на самом деле как ваш роботс выглядит?
да самый обычный роботс:
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: Foto-stor.ru
а вот и нет. если в браузере ввести адрес вашего роботса, то никакого роботса не открывается, значит виноват не Яндекс, а что-то вы не так сделали. может это как-то связано с заглушкой, которая висит на сайте, вы как ее сделали?
ух ты, да, в самом деле, отключил заглушку (она была в настройках темы WP) яндекс смог найти робота, но как то странно — не то загрузил, что в роботе. вот скрин (
не знаю, у меня по-прежнему не получается открыть его на вашем сайте.
а можете сейчас попробовать? я отключил «на реконструкции» ))
а вы что сами не умеете вводить адрес в адресную строку?) открылся, он точно такой же, как и в вебмастере! значит вы этот полный код куда-то не туда скопировали.
умею ) у меня получилось, код в яндексе проверке робота не выдает )) но и полное содержание то что стоит в роботе то же не считывает )
Добрый день! Как вы решили вашу проблему с роботсом? А то у меня тоже самое роботс не загружается.
В настройках вордпресса галка «Попросить поисковые системы не индексировать сайт» не установлена.
А разве стоит tag запрещать к индексации?
А почему нет? В них нет никакой важно и тем более уникальной информации, значит роботу это смотреть не нужно.
Анна, здравствуйте!
У меня вопрос: на последней версии вордпресс нет папки — trackback, wp-content/cache, cgi-bin
Их все равно указать? Или пропустить лучше?
Здравствуйте, Анна!
Вопрос, на который не могу найти ответ. Был бы благодарен за Ваше мнение. Мой сайт — не блог, а сайт небольшого агентства недвижимости.
Сайт на WordPress с ЧПУ, я подкорректировал robots согласно рекомендациям, а также примерам на различных сайтах. Наряду с прочими директивами имеются и вот эти:
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Проверяю мои страницы в webmaster Гугла в разделе «Посмотреть как Googlebot». При таком robors на страницах отображаются только тексты, то есть сайт выглядит как полу-фабрикат. А фотографии, дизайн, элементы оформления, таблицы и т.д. не видны. Указывается, что блокировка этих элементов происходит из-за директив:
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
В этой связи вопрос. Так и должно быть, что сайт выглядит для поисковиков усеченным? Или всё же он будет понижен в результатах выдачи поисковиков из-за того, что он выглядит в их глазах ущербным? Если последнее верно, то что нужно сделать, чтобы исправить ситуацию?
Сергей К.
Эта статья немного устарела, я уже переделала свой роботс, можете посмотреть pro-wordpress.ru/robots.txt. Нельзя закрывать папку с темой от поисковиков, так они не видят дизайна и стилей.
Анна, приветствую вас!
Посмотрел ваш новый роботс, и появился вопросик: у вас получается так, что закрыты комментарии от индексации на сайте или же только дубли коментов? У себя на сайте я пока не закрывал комменты в роботсе, но хотелось бы чтобы закрыть только дубли.
Если я сделаю вот так: Disallow: */comments/ этого будет достаточно? Или же надо еще добавить и вот это — Disallow: /wp-comments
Ну а так, ваш роботс понравился. Только что впервые увидел не стандартное положение колонок, которые начинаются с User-agent: Yandex, а не так — User-agent: * который идет следом, вторым, а не первым. А если все оставить как есть, только что эту колонку поставить в начало — User-agent: * Или же в этом нет никакой разницы?
Подскажите, пожалуйста, а почему у вас дважды указана директива Host?
Анна,добрый день.
Я запутался какой robots.txt вставлять в вордпресс.
Который в статье или в вашем последнем комментарии?
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /?s=
Host: pro-wordpress.ru
Sitemap: pro-wordpress.ru/sitemap.xml.gz
Sitemap: pro-wordpress.ru/sitemap.xml
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
В комментарии.
А нельзя было в статье поправить? Устарела она... Что за люди.
Как открыть для индексации только главную страницу сайта, а остальные все закрыть?
Здравствуйте, где-то прочитала, что от ПС особенно от Google лучше вообще ничего системного не закрывать, толькоо дубли, что Вы по этому поводу думаете?
Здравствуйте, скажите, не будет ли ошибкой добавить в robots.txt для вордпресс: Disallow: /*.php
Этого делать ни в коем случае нельзя.
Вот лапушка, спасибо!
Здравствуйте, на сайте создаются отдельные страницы с картинкой из записи, подскажите пожалуйста, что можно сделать, чтобы такого не происходило?
WordPress 4.4.2 самостоятельно (без плагинов) создает ответ на запрос о robots.txt с директивами:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Вопрос, где скрипт создания, как изменить, дополнить созданный автоматический ответ robots.txt или стоит создать свой robots.txt уже как файл и поместить его в корень сайта?
Здравствуйте подскажите пожалуйста у меня повылазили страницы 404 такого типа в Яндекс веб мастер:
Что это такое и можно ли как то закрыть их от индексации? и еще если можно вопрос в веб мастере в графе: «Документ содержит мета-тег noindex» так же появилось много страниц с такими адресами:
почему они закрыты и как их открыть? Надеюсь я правильно вам все объяснил, так как сам ни как не разбираюсь во всем этом. Надеюсь на ваш ответ.
Данный роботс не совсем коректно будет работать под гуглом, яндекс его скушает и не подавится... а вот гоша будет ругаться и поднять в выдаче гугла сайт с таким роботсом будет проблематично. Афтору советовал бы переписать заголовок статьи «Праивильный robots.txt под ПС Яндекс».
А мэйл.ру ругается на некоторые директивы:
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
«Url должен быть указан относительно корня сайта»
Здравствуйте! Подскажите, пожалуйста. В корневом каталоге нет файла robots.txt? А через браузер выходит такая картинка:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Что это значит? Надо самой создать и загрузить? Сайт поставлен в очередь на индексацию на Яндексе.
Спасибо.
Нужно залезть в папку wp-includes -> functions.php и найти вот такую строчку кода
function do_robots () ...с нее начинается ф-ция создания файла robots.txt
Если создать файл robots.txt в корневой директории — функция do_robots () не отрабатывает и поисковики видят ваш файл robots.txt
Анна, здравствуйте. У меня такая вот проблема: 3 сайта, на всех 3 сайтах одинаковая проблема — яндекс сообщает, что некоторые страницы (не все) url запрещён к индексированию тегом noindex.
Уже все перепроверила на 100 000 рядов. Ничего не могу понять. Все 3 сайта на вордпресс и стоит плагин All in One SEO Pack.
Вот мой роботс.
User-agent: Yandex
Allow: /
Disallow: /wp-
Disallow: */trackback/
Disallow: */comments/
Disallow: /tag
Disallow: /archive
Disallow: /?s=
Sitemap: https:// автоэлектрик-иркутск.рф/sitemap.xml
Host: https:// автоэлектрик-иркутск.рф
User-agent: *
Allow: /
Disallow: /wp-
Disallow: */trackback/
Disallow: */comments/
Disallow: /tag
Disallow: /archive
Disallow: /?s=
Sitemap: https:// автоэлектрик-иркутск.рф/sitemap.xml
Подскажите, пожалуйста, в чем проблема?
Ребята, не закрывайте для гугл бота /wp-content/themes и /wp-content/themes он перестает видеть адаптивность страниц из-за блокировки файлов CSS. проверьте сами в серчь-консолях, хотя чндекс по прежнему видит их адаптивными
Доброго времени суток. Помогите мне пожалуйста. Правльно ли я настроил файл роботс.
chudesnyjdomik. ru/robots.txt
За ранее благодарен за ответ