кнопка наверх

Как найти дубликаты страниц на блоге WordPress?

дубли страницДоброго времени суток!

Дубликаты страниц, или дубли — одна из тех проблем, о которой не подозревают многие вебмастера. Из-за такой ошибки, некоторые полезные WordPress-блоги теряют позиции по ряду запросов, и порою их владельцы даже не догадываются об этом. Каждый видит в статистике, что посещаемость веб-страницы упала, но разыскать и исправить ошибку могут не все. В этой статье пойдет речь о том, как найти дубли страниц сайта.

Что такое дубликаты страниц?

Дубли – это две и больше страниц с одинаковым контентом, но разными адресами. Существует понятие полных и частичных дублей. Если полные — это стопроцентный дублированный контент исходной (канонической) страницы, то частичным дублем может стать страница, повторяющая ее отдельные элементы. Причины появления дублей могут быть разными. Это могут быть ошибки вебмастера при составлении или изменении шаблона сайта. Но чаще всего дубли возникают автоматически из-за специфики работы движков, таких как WordPress и Joomla. О том, почему это происходит, и как с этим справляться я расскажу ниже. Очень важно понимать, что вебсайты с такими повторениями могут попасть под фильтры поисковых систем и понижаться в выдаче, поэтому дублей стоит избегать.

Как проверить сайт на дубли страниц?

Практика показывает, что отечественный поисковик Яндекс относится к дублям не так строго, как зарубежный Гугл. Однако и он не оставляет такие ошибки вебмастеров без внимания, поэтому для начала нужно разобраться с тем, как найти дубликаты страниц.

Во-первых, нам нужно определить, какое количество страниц нашего сайта находится в индексе поисковых систем. Для этого воспользуемся функцией site:my-site.ru, где вместо my-site.ru вам нужно подставить свой url. Покажу, как это работает на примере своего блога. Начнем с Яндекса. Вводим в строку поиска site:pro-wordpress.ru

dubli-stranic1

Как видим, Яндекс нашел 196 проиндексированных страниц. Теперь проделаем то же самое с Google.

дубли гугл

Мы получили 1400 страниц в общем индексе Гугл. Кроме основных страниц, участвующих в ранжировании, сюда попадают так называемые «сопли». Это дубли, либо малозначимые страницы. Чтобы проверить основной индекс в Google, нужно ввести другой оператор: site:pro-wordpress.ru/&

дули гугл

Итого в основном индексе 165 страниц. Как видим, у моего блога есть проблема с количеством дублей. Чтобы их увидеть, нужно перейти на последнюю страницу общей выдачи и нажать «показать скрытые результаты».

поиск дублей в гугле

Снова перейдя в конец выдачи, вы увидите примерно такое:

оператор site

Это и есть те самые дубли, в данном случае replycom. Такой тип дублей в WordPress создается при появлении комментариев на странице. Есть множество разных видов дублей, их названия и способы борьбы с ними, будут описаны в следующей статье.

Наверняка у вас возник вопрос, почему в Яндексе мы не увидели такого количества дублей, как в Google. Все дело в том, что в файле robots.txt (кто не знает что это, читайте «Правильный robots.txt для WordPress») на блоге стоит запрет на индексацию подобных дублей с помощью директивы Disallow (подробнее об этом в следующем посте). Для Яндекса этого достаточно, но Гугл работает по своим алгоритмам и все равно учитывает эти страницы. Но их контент он не показывает, говорит, что «Описание веб-страницы недоступно из-за ограничений в файле robots.txt».

Проверка на дубли страниц по отрывку текста, по категориям дублей

Кроме вышеописанного способа, вы можете проверять отдельные страницы сайта на наличие дублей. Для этого в окне поиска Яндекс и Google, можно указать отрывок текста страницы, после которого употребить все тот же site:my-site.ru. Например, такой текст с одной из моих страничек: «Eye Dropper — это дополнение позволяет быстро узнать цвет элемента, чем-то напоминает пипетку в Photoshop». Его вставляем в поиск Гугл, а после через пробел site:my-site

Eye Dropper

Google не нашел дублей это страницы. Для Яндекса проделываем то же самое, только текст страницы берем в кавычки «».

Кроме фрагментов текста, вы можете вставлять ключевые фразы, по которым, к примеру, у вас снизились позиции.

Есть другой вариант такой же проверки через расширенный поиск. Для Яндекса — yandex.ru/advanced.html.

расширенный поиск яндекса

Вводим тот же текст, url сайта и жмем «Найти». Получим такой же результат, как и с оператором site:my-site.

Либо такой поиск можно осуществить, нажав кнопку настроек в правой части окна Яндекс.

яндекс поиск дублей

Для Гугла есть такая же функция расширенного поиска.

гугл поиск дублей

Теперь посмотрим, как можно выявить группу дублей одной категории. Возьмем, к примеру, группу tag.

поиск дублей tag

И увидим на странице выдачи по данному запросу следующее:

найти дубли в гугле

А если попросить Гугл вывести скрытые результаты, дублей группы tag станет больше.

Как вы успели заметить, дубликатов страниц создается очень много и наша задача – предотвратить их попадание в индекс поисковиков.

Поиск дублей страниц сайта: дополнительные способы

Кроме ручных способов, есть также возможность автоматически проверить сайт на дубли страниц.

Например, это программа Xenu, предназначенная для технического аудита сайта. Кроме дубликатов страниц, она выявляет битые ссылки. Это не единственная программа для решения таких задач, но наиболее распространенная.

Также в поиске дублей страниц помогает Google Webmaster, здесь можно выявить страницы с повторяющимися мета-тегами:

Google Webmaster мета-теги

Тут вы посмотрите список урлов с одинаковыми тайтлами или описанием. Часть из них может оказаться дублями.

На сегодня все. Теперь вы знаете, как найти дубликаты страниц. В следующей статье мы подробно разберем, как предотвратить их появление и удалить имеющиеся дубли.


1 звезда2 звезды3 звезды4 звезды5 звезд (5 оценок, среднее: 4,20 из 5)
Загрузка...
like
Понравилось?
Подпишитесь на блог и получайте новые статьи!
Добавляйтесь в соц. сетях:
  1. Диана:

    Анна, здравствуйте. Подскажите, пожалуйста. Когда я проверяю свой блог в гугле на наличие дублей по запросу site:privleki-chudo.ru, вижу, что некоторые ссылки ведут на блог, но выдают ошибку 404, например privleki-chudo.ru/vse-stati-bloga-2, или вообще на пустую несуществующую страницу privleki-chudo.ru/glavnaya-2

    Что с этим делать? Что настроено неправильно?

    Ответить
  2. Максим:

    Здравствуйте, Анна

    Если сайт имеет 15000 страниц у меня доска объявлений razmestitobyavlenie подскажите, пожалуйста, существует программа для поиска дублей страниц на сайте. Очень актуально для доски объявлений.

    Ответить
  3. Оксана:

    Здравствуйте! У меня есть вопрос по дублям. Если задать поиск дублей в гугле site:vmiremusiki.ru tag, то гугл выдает страницы со статьями. Такая же ситуация с site:vmiremusiki.ru category — страницы со статьями. Не подскажете, что сделала не правильно? Заранее спасибо за совет)

    Ответить
  4. Роман:

    Мне по этому запросу site:toursector.org.ua/& также показывает 1700 (в Гугл), хотя страниц меньше, Яша показывает 1200. Но беда в том что Гугл не показывает конец списка, на 26 странице заканчивается ...

    Ответить
Ваш комментарий: