Как обнаружить дубли страниц на сайте

17 января 2022, 12:58

Дубли — это страницы сайта с одинаковым или практически полностью совпадающим контентом. Наличие таких страниц может негативно сказаться на взаимодействии сайта с поисковой системой.

Чем вредны дубли?

Негативные последствия от дублей могут быть такими:

Замедление индексирования нужных страниц. Если на сайте много одинаковых страниц, робот будет посещать их все отдельно друг от друга. Это может повлиять на скорость обхода нужных страниц, ведь потребуется больше времени, чтобы посетить именно нужные страницы.
Затруднение интерпретации данных веб-аналитики. Страница из группы дублей выбирается поисковой системой автоматически, и этот выбор может меняться. Это значит, что адрес страницы-дубля в поиске может меняться с обновлениями поисковой базы, что может повлиять на страницу в поиске (например, узнаваемость ссылки пользователями) и затруднит сбор статистики.

Если на сайте есть одинаковые страницы, они признаются дублями, и в поиске тогда будет показываться по запросу только одна страница. Но адрес этой страницы в выдаче может меняться по очень большому числу факторов. Данные изменения могут затруднить сбор аналитики и повлиять на поисковую выдачу.

Как могут появиться дубли?

Дубли могут появиться на сайт в результате:

Автоматической генерации. Например, CMS сайта создает ссылки не только с ЧПУ, но и техническим адресом: https://site.ru/noviy-tovar и https://site.ru/id279382.
Некорректных настроек. К примеру, при неправильно настроенных относительных ссылках на сайте могут появляться ссылки по адресам, которых физически не существует, и они отдают такой же контент, как и нужные страницы сайта. Или на сайте не настроена отдача HTTP-кода ответа 404 для недоступных страниц — от них приходит «заглушка» с сообщением об ошибке, но они остаются доступными для индексирования.
Ссылок с незначащими GET-параметрами. Зачастую GET-параметры не добавляют никакого контента на страницу, а используются, к примеру, для подсчета статистики по переходам — из какой-нибудь определенной социальной сети. Такие ссылки тоже могут быть признаны дублями (и недавно мы добавили специальное уведомление для таких ссылок, подробнее посмотреть можно тут).
Ссылок со слешем на конце и без. Для поисковой системы сайты https://site.ru/page и https://site.ru/pages/ — это разные страницы (исключение составляет только главная страница, между https://site.ru/ и https://site.ru разницы нет).

Как обнаружить дубли

Теперь находить одинаковые страницы стало проще: в разделе «Диагностика» появилось специальное уведомление, которое расскажет про большую долю дублей на вашем сайте. Алерт появляется с небольшой задержкой в 2-3 дня — это обусловлено тем, что на сбор достаточного количества данных и их обработку требуется время. С этим может быть связано появление в нем исправленных страниц. Подписываться на оповещения не нужно, уведомление появится само.

А если вы хотите найти дубли вручную, перейдите в Вебмастер, во вкладке «Индексирование» откройте «Страницы в поиске», нажмите на «Исключённые» в правой части страницы. Прокрутите вниз, в правом нижнем углу вы увидите опцию «Скачать таблицу». Выберите подходящий формат и загрузите архив. Откройте скачанный файл: у страниц-дублей будет статус DUPLICATE.

Обратите внимание, что ссылки на сайте с одинаковым контентом не всегда признаются дублирующими. Это может быть связано с тем, что поисковая система еще не успела проиндексировать дубли, или на момент их индексирования содержимое несколько различалось. Такое бывает, если страницы, к примеру, динамически обновляют часть контента, из-за чего поисковая система каждый раз получает немного разные версии, хотя по факту содержимое очень похоже. Например, когда на странице есть лента похожих товаров, которая постоянно обновляется. Если вы точно знаете, что такие страницы являются дублями, то необходимо оставить в поиске только нужные страницы.

Как оставить в поиске нужную страницу в зависимости от ситуации

В случае с «мусорными» страницами воспользуйтесь одним из способов:

Добавьте в файл robots.txt директиву Disallow, чтобы запретить индексирование страницы-дубля;
Если вы не можете ограничить такие ссылки в robots.txt, запретите их индексирование при помощи мета-тега noindex. Тогда поисковой робот сможет исключить страницы из базы по мере их переобхода;
Если такой возможности нет, можно настроить HTTP-код ответа 403/404/410. Данный метод менее предпочтителен, так как показатели недоступных страниц не будут учитываться, и если где-то на сайте или в поиске еще есть ссылки на такие страницы, пользователь попадет на недоступную ссылку.

В случае со страницами-дублями воспользуйтесь одним из способов:

Для дублей с незначащими GET-параметрами рекомендуем добавить в файл robots.txt директиву Clean-param. Директива Clean-param — межсекционная. Это означает, что она будет обрабатываться в любом месте файла robots.txt. Указывать ее для роботов Яндекса при помощи User-Agent: Yandex не требуется. Но если вы хотите указать директивы именно для наших роботов, убедитесь, что для User-Agent: Yandex указаны и все остальные директивы — Disallow и Allow. Если в robots.txt будет указана директива User-Agent: Yandex, наш робот будет следовать указаниям только для этой директивы, а User-Agent: * будет проигнорирован;
Вы можете установить редирект с HTTP-кодом 301 с одной дублирующей страницы на другую. В этом случае в поиске будет участвовать цель установленного редиректа. Укажите предпочитаемый (канонический) адрес страницы, который будет участвовать в поиске;
Также можно использовать атрибут rel=«canonical». При работе с атрибутом rel=«canonical» стоит учитывать, что если содержимое дублей имеет некоторые отличия или очень часто обновляется, то такие страницы все равно могут попасть в поиск из-за различий в этом содержимом. В этом случае рекомендуем использовать другие предложенные варианты.

Для страниц со слешем на конце и без рекомендуем использовать редирект 301. Можно выбрать в качестве доступной как ссылку со слешем, так и без него — для индексирования разницы никакой нет.

В случае с важными контентыми страницами для их индексирования и представления в поиске важно использовать:

Файлы Sitemap;
Метрику;
Установку счётчика;
Настройку обхода страниц роботами.

Подробные рекомендации о работе со страницами-дублями читайте в Справке.

P. S. Подписывайтесь на наши каналы
Блог Яндекса для Вебмастеров
Канал Яндекса о продвижении сайтов на YouTube
Канал для владельцев сайтов в Яндекс.Дзен

66 комментариев

Авторизуйтесь, чтобы оставить комментарий

strip2seo

17 января 2022, 14:21

> во вкладке «Индексирование» откройте «Страницы в поиске», нажмите на «Исключённые» в правой части страницы. Прокрутите вниз, в правом нижнем углу вы увидите опцию «Скачать таблицу».

Скачал, смотрю. На графике за сегодня 4 дубля, а в скачанной таблице всего одна строка со значением DUPLICATE. Где ошибка?

И что такое статус LOW_DEMAND - это малополезные?

platon

Сотрудник Яндекса17 января 2022, 17:59

strip2seo,

чтобы мы могли более детально разобраться, напишите нам, пожалуйста, непосредственно из формы обратной связи сервиса Яндекс.Вебмастер.
--
Пожалуйста, оцените наш ответ

Александр

17 января 2022, 15:44

"...но и техническим адресом: https://site.ru/noviy-tovar и https://site.ru/id279382" - рекомендуется убирать гиперссылки на 503 страницы так как это затрудняет работу поискового робота :-)

Обновлено 17 января 2022, 15:44

Тарас Житников

17 января 2022, 17:56

Жаль, что в панели Яндекс.Вебмастера нельзя обнаружить эти страницы, а только путем скачивания файла(( Это не всегда удобно. Добавьте, пожалуйста, свойство "дублирование" в "статус url" - так будет удобней обнаруживать дубликаты страниц. Заранее благодарю.

strip2seo

17 января 2022, 19:30

Тарас Житников,

Мне вот тоже непонятно, почему в разделе «Страницы в поиске», при выборе блока "Исключенные страницы" нельзя в фильтре https://prnt.sc/26espm5 увидеть эти дубли?

platon

Сотрудник Яндекса18 января 2022, 15:27

Тарас Житников,

спасибо, что проявляете интерес к нашей работе! В Вебмастере уже реализована такая функциональность.
--
Пожалуйста, оцените наш ответ

Александр Большаков

18 января 2022, 08:36

Гугл ругается на директиву Clean-param в роботсе. Как быть?

platon

Сотрудник Яндекса18 января 2022, 14:25

Александр Большаков,

алгоритмы работы другой поисковой системы, к сожалению, прокомментировать затрудняемся. Как вариант, вы можете указать директиву для User-Agent: Yandex, тогда другие поисковые системы не должны ее как-то использовать. При этом обратите внимание, что для User-Agent: Yandex нужно продублировать все запрещающие и разрешающие директивы.
Мы со своей стороны изучаем вопрос с ситуацией, но какое-либо решение может занять время.
--
Пожалуйста, оцените наш ответ

Обновлено 18 января 2022, 14:26

Centeres124

18 января 2022, 10:40

Здравствуйте, ранее были дубли url и url, поставил редирект и указал канонические страницы, как скоро произойдет обновление, понимаю, что после апа, но возможно есть какие -либо временные рамки? Сейчас в важных страница url подсвечиваются желтым. Спасибо

platon

Сотрудник Яндекса18 января 2022, 15:31

Centeres124,

обычно обновления поисковой базы происходят с частотой 5-6 раз в неделю.
В целом же, по мере переобхода роботом страниц он отследит внесенные изменения, и с обновлениями поисковых баз информация обновится на поиске и в Вебмастере. Обычно этот процесс занимает около нескольких недель, однако спрогнозировать точное время не представляется возможным, поскольку робот посещает все страницы в соответствии с политиками планирования, самостоятельно выбирая страницы к обходу.
Рекомендации о том, как помочь роботу с индексированием сайта, вы можете прочитать на странице Справки. Чтобы ускорить индексирование отдельных страниц сайта, вы можете использовать инструмент «Переобход страниц» в Яндекс.Вебмастере. Добавленные через этот сервис страницы будут обновлены в поиске в течение недели.
--
Пожалуйста, оцените наш ответ

Вячеслав Севостьянов

18 января 2022, 11:57

Вроде поиск и директ столько баблища приносят, а нормальный кабинет и коммандер, в сравнении с ads editor и search console, сделать не могут... странно. Это, как снаружи мерседес, а внутри девятка.

Скрестим пальцы, что работы хотя бы в планах...

mebelaleks55

18 января 2022, 17:01

Добрый день! Постоянно в Вебмастере стала появляться такая ошибка:
!.Найдены страницы-дубли с GET-параметрами.
2.Обнаружены ошибки в файлах Sitemap - ошибка висит с 14.09.2021 г.
Сам ничего в этом не понимаю и не умею делать. Программиста нет. Прошу вашей помощи. Помогите пожалуйста избавиться от данных ошибок.
С уважением Алексей Вовченко.

platon

Сотрудник Яндекса19 января 2022, 19:22

mebelaleks55,

чтобы мы могли более детально разобраться в вашем вопросе, напишите нам, пожалуйста, непосредственно из формы обратной связи сервиса Яндекс.Вебмастер.
--
Пожалуйста, оцените наш ответ

maricahce@gmail.com

25 января 2022, 13:29

А тем временеи, пока яндес нагибает вебмастеров, суд нагнул яндекс.... за дубли на полтора миллиарда

https://pr-cy.ru/news/p/9172-yandeks-vyplatit-15-mlrd-rubley-po-delu-o-koldunshchikakh?

Фома

28 января 2022, 02:12

maricahce@gmail.com,

1.5 миллиарда - легко.

МОСКВА, 20 июн - РИА Новости. "Яндекс" успешно конкурирует на российском рынке с компанией Google не без поддержки государства, заявил президент РФ Владимир Путин.

merry.toys

29 января 2022, 11:10

Директива Clean-param внесена в robots.txt с августа 2021, но регулярно Яндекс.Вебмастер жалуется на одни и те же дубли, которые закрыты в robots.txt. В тикетах обещают всё проверить, исправить. Исправляют, а через некоторое время появляется отчёт с теми же самыми дублями, закрытыми в robots.txt. Возможно, ваши специалисты что-то не учитывают из-за чего это происходит? Не может же разработчик несколько раз совершать одну и ту же ошибку?

История тикетов с одним и тем же параметром в Clean-param:
22012520232466898 25.01.2022
21122110212522096 21.12.2021
21092115330279523 21.09.2021
21090309434478859 03.09.2021

Обновлено 29 января 2022, 11:11

Ann-Oreshka

6 февраля 2022, 10:24

Мда. Яндекс через строку сообщает вебмастерам, что надо работать "для людей", но всё, что им анонсировано за последние несколько лет, конкретно заставляет админов заниматься исключительно ублажением робота :(. Помогите бедному роботу решить кто тут дубль, сообщите бедному роботу о новом контенте тремя разными способами....
Между тем из ВМ исчезает важнейший инструмент - "Оригинальные тексты"
А ведь это - основа основ создания контента для людей, чтобы владельцы, наконец, платили креативщикам контента и иллюстраций, а не ублажителям ботов. Сейчас же они просто вынуждены все деньги тратить на ботов, а контент многократно пи... пардон, парсить.
И это в то время, когда Гугл потратил многаденег на патенты, которые, в частности, будут опознавать автора и без граватара, то есть сделают кражу бессмысленной.
А от яндекса невозможно добиться даже минимальной помощи в борьбе с пиратством.
Ваше слово, товарищ Яндекс?

platon

Сотрудник Яндекса6 февраля 2022, 16:29

Ann-Oreshka,

традиционно мы не раскрываем внутреннее устройство процессов и алгоритмов. Поисковый робот регулярно имеет дело с очень разными по качеству страницами и текстами. Полезный сигнал, который удаётся извлечь, используется в поиске. Хотим заметить, что уникальность - далеко не единственная мера ценности контента. Текущие процессы и алгоритмы оценки качества и оригинальности контента не требуют дополнительных данных от вебмастеров.
--
Пожалуйста, оцените наш ответ

Ann-Oreshka

17 февраля 2022, 22:29

platon,

Ответ - единица с минусом. Было предложено а) либо ДЕЙСТВИТЕЛЬНО работать для ЛЮДЕЙ, а не для своего бота б) либо уж не врать. А ваш ответ - набор бессмысленных фраз не по существу.
===традиционно мы не раскрываем внутреннее устройство процессов и алгоритмов. = а вас кто-то просил?
====Поисковый робот регулярно имеет дело с очень разными по качеству страницами и текстами. - Да что вы говорите???
===Полезный сигнал, который удаётся извлечь, используется в поиске. - Да что вы говорите???
===Хотим заметить, что уникальность - далеко не единственная мера ценности контента. - А кто-то утверждал, что "единственная"???
===Текущие процессы и алгоритмы оценки качества и оригинальности контента не требуют дополнительных данных от вебмастеров. - ??? Да ладна! А кто без конца рождает "дополнения", чтобы помочь оценить дубли и третьим способом "сообщить о новом контенте"? (при том что боты лезут туда, где все закрыто и заколочено, в первые же четверть часа)
ИТОГО: Несколько бессмысленных фраз и ни одного ответа по существу - почему яндекс убрал оригинальные тексты? Не потому ли, что они все стырены на дзене? Ах, да! Он же принял "меморандум" о пиратском контенте!!! Но по факту это просто уничтожение конкурентов кинопоиску, увы, увы...

Andrey

31 мая 2022, 08:30

Ann-Oreshka,

Точно подмечено! Согласен со всеми пунктами. Кстати, добавлю, ублажение робота яндекс, это для тех кто любит садо-мазо.... 10 лет пытался настроить яндекс, толку 0. Плюнул давно на это.

naildirect

6 февраля 2022, 20:15

Когда уже начнете бороться с накруткой ПФ?
Вот за 1 день люди в топ Яндекса любые запросы задвигают - https://t.me/altblogru/299

sherman-saransk

7 февраля 2022, 12:32

naildirect,

Да им все равно. Тут стараешься, развиваешь проекты кропотливо и приходят вот такие с накруткой в топе за 1 сутки! И как вот после этого работать, а, Яндекс??

mila.yagodckina

14 марта 2022, 06:01

На сайте есть оригинальная страница:
https://site.ru/ritual-graf/filter/type_photo-is-angely/apply/
И есть её дубль:
https://site.ru/ritual-graf/filter/type_photo-is-angely/apply/angelok-6.html
У страниц одинаковые SEO данные, но разное содержимое.
Как избавиться от дубля - прописать ему 301 редирект, или rel="canonical", или ещё что.
Спасибо за помощь.

platon

Сотрудник Яндекса14 марта 2022, 13:22