Блог Яндекса для вебмастеров

Как обнаружить дубли страниц на сайте

Дубли — это страницы сайта с одинаковым или практически полностью совпадающим контентом. Наличие таких страниц может негативно сказаться на взаимодействии сайта с поисковой системой.

Чем вредны дубли?

Негативные последствия от дублей могут быть такими:

  • Замедление индексирования нужных страниц. Если на сайте много одинаковых страниц, робот будет посещать их все отдельно друг от друга. Это может повлиять на скорость обхода нужных страниц, ведь потребуется больше времени, чтобы посетить именно нужные страницы.
  • Затруднение интерпретации данных веб-аналитики. Страница из группы дублей выбирается поисковой системой автоматически, и этот выбор может меняться. Это значит, что адрес страницы-дубля в поиске может меняться с обновлениями поисковой базы, что может повлиять на страницу в поиске (например, узнаваемость ссылки пользователями) и затруднит сбор статистики.

Если на сайте есть одинаковые страницы, они признаются дублями, и в поиске тогда будет показываться по запросу только одна страница. Но адрес этой страницы в выдаче может меняться по очень большому числу факторов. Данные изменения могут затруднить сбор аналитики и повлиять на поисковую выдачу.

Как могут появиться дубли?

Дубли могут появиться на сайт в результате:

  • Автоматической генерации. Например, CMS сайта создает ссылки не только с ЧПУ, но и техническим адресом: https://site.ru/noviy-tovar и https://site.ru/id279382.
  • Некорректных настроек. К примеру, при неправильно настроенных относительных ссылках на сайте могут появляться ссылки по адресам, которых физически не существует, и они отдают такой же контент, как и нужные страницы сайта. Или на сайте не настроена отдача HTTP-кода ответа 404 для недоступных страниц — от них приходит «заглушка» с сообщением об ошибке, но они остаются доступными для индексирования.
  • Ссылок с незначащими GET-параметрами. Зачастую GET-параметры не добавляют никакого контента на страницу, а используются, к примеру, для подсчета статистики по переходам — из какой-нибудь определенной социальной сети. Такие ссылки тоже могут быть признаны дублями (и недавно мы добавили специальное уведомление для таких ссылок, подробнее посмотреть можно тут).
  • Ссылок со слешем на конце и без. Для поисковой системы сайты https://site.ru/page и https://site.ru/pages/ — это разные страницы (исключение составляет только главная страница, между https://site.ru/ и https://site.ru разницы нет).

Как обнаружить дубли

Теперь находить одинаковые страницы стало проще: в разделе «Диагностика» появилось специальное уведомление, которое расскажет про большую долю дублей на вашем сайте. Алерт появляется с небольшой задержкой в 2-3 дня — это обусловлено тем, что на сбор достаточного количества данных и их обработку требуется время. С этим может быть связано появление в нем исправленных страниц. Подписываться на оповещения не нужно, уведомление появится само.

А если вы хотите найти дубли вручную, перейдите в Вебмастер, во вкладке «Индексирование» откройте «Страницы в поиске», нажмите на «Исключённые» в правой части страницы. Прокрутите вниз, в правом нижнем углу вы увидите опцию «Скачать таблицу». Выберите подходящий формат и загрузите архив. Откройте скачанный файл: у страниц-дублей будет статус DUPLICATE.

Обратите внимание, что ссылки на сайте с одинаковым контентом не всегда признаются дублирующими. Это может быть связано с тем, что поисковая система еще не успела проиндексировать дубли, или на момент их индексирования содержимое несколько различалось. Такое бывает, если страницы, к примеру, динамически обновляют часть контента, из-за чего поисковая система каждый раз получает немного разные версии, хотя по факту содержимое очень похоже. Например, когда на странице есть лента похожих товаров, которая постоянно обновляется. Если вы точно знаете, что такие страницы являются дублями, то необходимо оставить в поиске только нужные страницы.

Как оставить в поиске нужную страницу в зависимости от ситуации

В случае с «мусорными» страницами воспользуйтесь одним из способов:

  1.  Добавьте в файл robots.txt директиву Disallow, чтобы запретить индексирование страницы-дубля;
  2.  Если вы не можете ограничить такие ссылки в robots.txt, запретите их индексирование при помощи мета-тега noindex. Тогда поисковой робот сможет исключить страницы из базы по мере их переобхода;
  3.  Если такой возможности нет, можно настроить HTTP-код ответа 403/404/410. Данный метод менее предпочтителен, так как показатели недоступных страниц не будут учитываться, и если где-то на сайте или в поиске еще есть ссылки на такие страницы, пользователь попадет на недоступную ссылку.

В случае со страницами-дублями воспользуйтесь одним из способов:

  1.  Для дублей с незначащими GET-параметрами рекомендуем добавить в файл robots.txt директиву Clean-param. Директива Clean-param — межсекционная. Это означает, что она будет обрабатываться в любом месте файла robots.txt. Указывать ее для роботов Яндекса при помощи User-Agent: Yandex не требуется. Но если вы хотите указать директивы именно для наших роботов, убедитесь, что для User-Agent: Yandex указаны и все остальные директивы — Disallow и Allow. Если в robots.txt будет указана директива User-Agent: Yandex, наш робот будет следовать указаниям только для этой директивы, а User-Agent: * будет проигнорирован;
  2.  Вы можете установить редирект с HTTP-кодом 301 с одной дублирующей страницы на другую. В этом случае в поиске будет участвовать цель установленного редиректа. Укажите предпочитаемый (канонический) адрес страницы, который будет участвовать в поиске;
  3.  Также можно использовать атрибут rel=«canonical». При работе с атрибутом rel=«canonical» стоит учитывать, что если содержимое дублей имеет некоторые отличия или очень часто обновляется, то такие страницы все равно могут попасть в поиск из-за различий в этом содержимом. В этом случае рекомендуем использовать другие предложенные варианты.

Для страниц со слешем на конце и без рекомендуем использовать редирект 301. Можно выбрать в качестве доступной как ссылку со слешем, так и без него — для индексирования разницы никакой нет.

В случае с важными контентыми страницами для их индексирования и представления в поиске важно использовать:

  1.  Файлы Sitemap;
  2.  Метрику;
  3.  Установку счётчика;
  4.  Настройку обхода страниц роботами.

Подробные рекомендации о работе со страницами-дублями читайте в Справке.

P. S. Подписывайтесь на наши каналы
Блог Яндекса для Вебмастеров
Канал Яндекса о продвижении сайтов на YouTube
Канал для владельцев сайтов в Яндекс.Дзен

66 комментариев
> во вкладке «Индексирование» откройте «Страницы в поиске», нажмите на «Исключённые» в правой части страницы. Прокрутите вниз, в правом нижнем углу вы увидите опцию «Скачать таблицу».


Скачал, смотрю. На графике за сегодня 4 дубля, а в скачанной таблице всего одна строка со значением DUPLICATE. Где ошибка?

И что такое статус LOW_DEMAND - это малополезные?
platon
Сотрудник Яндекса17 января 2022, 17:59
strip2seo,
чтобы мы могли более детально разобраться, напишите нам, пожалуйста, непосредственно из формы обратной связи сервиса Яндекс.Вебмастер.
--
Пожалуйста, оцените наш ответ
Александр
17 января 2022, 15:44
"...но и техническим адресом: https://site.ru/noviy-tovar и https://site.ru/id279382" - рекомендуется убирать гиперссылки на 503 страницы так как это затрудняет работу поискового робота :-)
Обновлено 17 января 2022, 15:44
Тарас Житников
17 января 2022, 17:56
Жаль, что в панели Яндекс.Вебмастера нельзя обнаружить эти страницы, а только путем скачивания файла(( Это не всегда удобно. Добавьте, пожалуйста, свойство "дублирование" в "статус url" - так будет удобней обнаруживать дубликаты страниц. Заранее благодарю.
Тарас Житников,
Мне вот тоже непонятно, почему в разделе «Страницы в поиске», при выборе блока "Исключенные страницы" нельзя в фильтре https://prnt.sc/26espm5 увидеть эти дубли?
platon
Сотрудник Яндекса18 января 2022, 15:27
Тарас Житников,
спасибо, что проявляете интерес к нашей работе! В Вебмастере уже реализована такая функциональность.
--
Пожалуйста, оцените наш ответ
Александр Большаков
18 января 2022, 08:36
Гугл ругается на директиву Clean-param в роботсе. Как быть?
platon
Сотрудник Яндекса18 января 2022, 14:25
Александр Большаков,
алгоритмы работы другой поисковой системы, к сожалению, прокомментировать затрудняемся. Как вариант, вы можете указать директиву для User-Agent: Yandex, тогда другие поисковые системы не должны ее как-то использовать. При этом обратите внимание, что для User-Agent: Yandex нужно продублировать все запрещающие и разрешающие директивы.
Мы со своей стороны изучаем вопрос с ситуацией, но какое-либо решение может занять время.
--
Пожалуйста, оцените наш ответ
Обновлено 18 января 2022, 14:26
Здравствуйте, ранее были дубли url и url, поставил редирект и указал канонические страницы, как скоро произойдет обновление, понимаю, что после апа, но возможно есть какие -либо временные рамки? Сейчас в важных страница url подсвечиваются желтым. Спасибо
platon
Сотрудник Яндекса18 января 2022, 15:31
Centeres124,
обычно обновления поисковой базы происходят с частотой 5-6 раз в неделю.
В целом же, по мере переобхода роботом страниц он отследит внесенные изменения, и с обновлениями поисковых баз информация обновится на поиске и в Вебмастере. Обычно этот процесс занимает около нескольких недель, однако спрогнозировать точное время не представляется возможным, поскольку робот посещает все страницы в соответствии с политиками планирования, самостоятельно выбирая страницы к обходу.
Рекомендации о том, как помочь роботу с индексированием сайта, вы можете прочитать на странице Справки. Чтобы ускорить индексирование отдельных страниц сайта, вы можете использовать инструмент «Переобход страниц» в Яндекс.Вебмастере. Добавленные через этот сервис страницы будут обновлены в поиске в течение недели.
--
Пожалуйста, оцените наш ответ
Вячеслав Севостьянов
18 января 2022, 11:57
Вроде поиск  и директ столько баблища приносят, а нормальный кабинет и коммандер, в сравнении с ads editor и search console, сделать не могут... странно. Это, как снаружи мерседес, а внутри девятка.


Скрестим пальцы, что работы хотя бы в планах...
Добрый день! Постоянно в Вебмастере стала появляться такая ошибка: 
!.Найдены страницы-дубли с GET-параметрами. 
2.Обнаружены ошибки в файлах Sitemap - ошибка висит с 14.09.2021 г.
Сам ничего в этом не понимаю и не умею делать. Программиста нет. Прошу вашей помощи. Помогите пожалуйста избавиться от данных ошибок.
С уважением Алексей Вовченко.
platon
Сотрудник Яндекса19 января 2022, 19:22
mebelaleks55,
чтобы мы могли более детально разобраться в вашем вопросе, напишите нам, пожалуйста, непосредственно из формы обратной связи сервиса Яндекс.Вебмастер.
--
Пожалуйста, оцените наш ответ
maricahce@gmail.com
25 января 2022, 13:29
А тем временеи, пока яндес нагибает вебмастеров, суд нагнул яндекс.... за дубли на полтора миллиарда


https://pr-cy.ru/news/p/9172-yandeks-vyplatit-15-mlrd-rubley-po-delu-o-koldunshchikakh?
maricahce@gmail.com,
1.5 миллиарда - легко. 

МОСКВА, 20 июн - РИА Новости. "Яндекс" успешно конкурирует на российском рынке с компанией Google не без поддержки государства, заявил президент РФ Владимир Путин.

Директива Clean-param внесена в robots.txt с августа 2021, но регулярно Яндекс.Вебмастер жалуется на одни и те же дубли, которые закрыты в robots.txt. В тикетах обещают всё проверить, исправить. Исправляют, а через некоторое время появляется отчёт с теми же самыми дублями, закрытыми в robots.txt. Возможно, ваши специалисты что-то не учитывают из-за чего это происходит? Не может же разработчик несколько раз совершать одну и ту же ошибку?

История тикетов с одним и тем же параметром в Clean-param:
22012520232466898 25.01.2022
21122110212522096 21.12.2021
21092115330279523 21.09.2021
21090309434478859 03.09.2021
Обновлено 29 января 2022, 11:11
Мда. Яндекс через строку сообщает вебмастерам, что надо работать "для людей", но всё, что им анонсировано за последние несколько лет, конкретно заставляет админов заниматься исключительно ублажением робота :(. Помогите бедному роботу решить кто тут дубль, сообщите бедному роботу о новом контенте тремя разными способами....
Между тем из ВМ исчезает важнейший инструмент - "Оригинальные тексты"
А ведь это - основа основ создания контента для людей, чтобы владельцы, наконец, платили креативщикам контента и иллюстраций, а не ублажителям ботов. Сейчас же они просто вынуждены все деньги тратить на ботов, а контент многократно пи... пардон, парсить.
И это в то время, когда Гугл потратил многаденег на патенты, которые, в частности, будут опознавать автора и без граватара, то есть сделают кражу бессмысленной. 
А от яндекса невозможно добиться даже минимальной помощи в борьбе с пиратством. 
Ваше слово, товарищ Яндекс?
platon
Сотрудник Яндекса6 февраля 2022, 16:29
Ann-Oreshka,
традиционно мы не раскрываем внутреннее устройство процессов и алгоритмов. Поисковый робот регулярно имеет дело с очень разными по качеству страницами и текстами. Полезный сигнал, который удаётся извлечь, используется в поиске. Хотим заметить, что уникальность - далеко не единственная мера ценности контента. Текущие процессы и алгоритмы оценки качества и оригинальности контента не требуют дополнительных данных от вебмастеров.
--
Пожалуйста, оцените наш ответ
platon,
Ответ - единица с минусом. Было предложено а) либо ДЕЙСТВИТЕЛЬНО работать для ЛЮДЕЙ, а не для своего бота б) либо уж не врать. А ваш ответ - набор бессмысленных фраз не по существу.
===традиционно мы не раскрываем внутреннее устройство процессов и алгоритмов. = а вас кто-то просил?
====Поисковый робот регулярно имеет дело с очень разными по качеству страницами и текстами. - Да что вы говорите???
===Полезный сигнал, который удаётся извлечь, используется в поиске. - Да что вы говорите???
===Хотим заметить, что уникальность - далеко не единственная мера ценности контента. -  А кто-то утверждал, что "единственная"???
===Текущие процессы и алгоритмы оценки качества и оригинальности контента не требуют дополнительных данных от вебмастеров. - ??? Да ладна! А кто без конца рождает "дополнения", чтобы помочь оценить дубли и третьим способом "сообщить о новом контенте"? (при том что боты лезут туда, где все закрыто и заколочено, в первые же четверть часа)
ИТОГО: Несколько бессмысленных фраз и ни одного ответа по существу - почему яндекс убрал оригинальные тексты? Не потому ли, что они все стырены на дзене? Ах, да! Он же принял "меморандум" о пиратском контенте!!! Но по факту это просто уничтожение конкурентов кинопоиску, увы, увы...

Ann-Oreshka,
Точно подмечено! Согласен со всеми пунктами. Кстати, добавлю,  ублажение робота яндекс, это для тех кто любит садо-мазо....  10 лет пытался настроить яндекс, толку 0. Плюнул давно на это. 
Когда уже начнете бороться с накруткой ПФ?
Вот за 1 день люди в топ Яндекса любые запросы задвигают - https://t.me/altblogru/299


naildirect,
Да им все равно. Тут стараешься, развиваешь проекты кропотливо и приходят вот такие с накруткой в топе за 1 сутки! И как вот после этого работать, а, Яндекс??
На сайте есть оригинальная страница:
https://site.ru/ritual-graf/filter/type_photo-is-angely/apply/
И есть её дубль:
https://site.ru/ritual-graf/filter/type_photo-is-angely/apply/angelok-6.html
У страниц одинаковые SEO данные, но разное содержимое.
Как избавиться от дубля - прописать ему 301 редирект, или rel="canonical", или ещё что.
Спасибо за помощь.
platon
Сотрудник Яндекса14 марта 2022, 13:22
mila.yagodckina,
в данной ситуации, поскольку контент страниц различается, а их url-адреса не содержат GET-параметров, мы рекомендуем использовать именно 301 перенаправление.
--
Пожалуйста, оцените наш ответ 


Таких дублей, где вложение "apply" размещено в середине УРЛ, много, например,
https://site.ru/ritual-graf/filter/type_photo-is-angely/apply/angelok-6.html
https://site.ru/ritual-graf/filter/type_photo-is-angely/apply/angel-cadilo.html
Как им прописать запрет к индексации в robots.txt ? Сайт на битриксе.

Спасибо.
platon
Сотрудник Яндекса14 марта 2022, 13:33
mila.yagodckina,
если вы хотите, чтобы страницы вида https://site.ru/ritual-graf/filter/type_photo-is-angely/apply/angel-cadilo.html были запрещены для индексирования, а, например, страница https://site.ru/ritual-graf/filter/type_photo-is-angely/apply/ была разрешена, то можете использовать, например, следующие директивы в файле robots.txt:
Disallow: */apply/
Allow: */apply/$


Запросы к запрещенным страницам прекратятся в течение суток после добавления запрета, а в течение нескольких недель такие страницы будут исключены из базы поиска.


Подробнее о файле robots.txt вы можете прочитать на странице нашей Справки ( https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html ). Рекомендую вам также воспользоваться инструментом проверки файла robots.txt ( https://webmaster.yandex.ru/tools/robotstxt/ ). Непосредственно в инструменте вы можете корректировать указания и проверять, запрещены или разрешены необходимые вам страницы к индексированию.
--
Пожалуйста, оцените наш ответ 
Обновлено 14 марта 2022, 13:35
Есть два правила:
Disallow: /personal/
Disallow: /news-news/
Чем можно объяснить такое несоответствие:
Первое правило запрещает индексирование
страниц, в корне урл которых, /personal/
Например, такая страница закрыта.
https://site.ru/personal/cart/
А второе правило не запрещает индексирование
страниц, в корне урл которых, /news-news/
Например, такая страница не закрыта.
https://site.ru/news-news/katalog-koelga.html
И чтобы её закрыть, пришлось прописать такое правило:
Disallow: /news-news
Спасибо за помощь
platon
Сотрудник Яндекса22 марта 2022, 18:18
mila.yagodckina,
такая ситуация может возникать в случае, например, если на сайте есть директивы Allow, которые разрешают индексирование страниц этого раздела. В случае противоречий между разрешающей и запрещающей директивой приоритет отдается разрешающей. Более подробно можно сказать только после анализа файла самого сайта. Если вы хотите, чтобы мы посмотрели подробнее, обратитесь, пожалуйста, в поддержку с самими директивами.


Написать обращение можно, к примеру, со страницы:
https://yandex.ru/support/webmaster/robot-workings/allow-disallow.html
--
Пожалуйста, оцените наш ответ 
Страницы пагинации, например,
/soputka/?PAGEN_1=2
если я правильно понимаю, запрещены к индексированию правилом
Disallow: /*?
Вопрос
Надо ли этим страницам дополнительно проставлять
rel="canonical" на первую страницу?
Как правильно работать со страницами пагинации,
чтобы и дублей не было и чтобы они пользу приносили.
Спасибо.
platon
Сотрудник Яндекса24 марта 2022, 11:15
mila.yagodckina,
мы не рекомендуем использовать полные запреты на индексирование, например, при помощи директивы Disallow в robots.txt или при помощи мета-тега noindex для таких страниц, поскольку в этом случае их показатели не смогут учитываться для нужных в выдаче страниц.


В целом, если страницы пагинации содержат контент, который может быть интересен и полезен пользователям в выдаче, его стоит оставить доступным.


Если же вы уверены, что такие ссылки не нужны, вы можете ограничить их индексирование при помощи директивы Clean-param в файле robots.txt формата:
Clean-param: PAGEN_1
Тогда поисковая система будет знать, что эти ссылки должны индексироваться по «чистым» адресам. Это позволит эффективно передать показатели страниц с незначащими get-параметрами основным страницам. Атрибут же rel="canonical" вполне можно использовать в дополнение к директиве Clean-param, это не вызовет никаких сложностей.


Подробнее о файле robots.txt вы можете прочитать на странице нашей Справки [ https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html ]. Рекомендую вам также воспользоваться инструментом проверки файла robots.txt [ https://webmaster.yandex.ru/tools/robotstxt/ ]. Непосредственно в инструменте вы можете корректировать указания и проверять, запрещены или разрешены необходимые вам страницы к индексированию.
--
Пожалуйста, оцените наш ответ 
Обновлено 24 марта 2022, 11:18
Страницы пагинации, например,
/soputka/?PAGEN_1=2
если я правильно понимаю, запрещены к индексированию правилом
Disallow: /*?
Вопрос:
Какие бы я правила не прописывала, это правило запрещает индексирование страниц  с GET параметрами, в том числе и страниц пагинации. Что надо сделать, чтобы это правило не распространялось на страницы пагинации? Спасибо.



platon
Сотрудник Яндекса24 марта 2022, 16:58
mila.yagodckina,
чтобы страницы вида /soputka/?PAGEN_1 могли индексироваться и участвовать в поиске, вы можете, например, использовать следующие директивы в robots.txt:
Disallow: /*?
Allow:*?PAGEN_1
--
Пожалуйста, оцените наш ответ 
Для страниц с Элемент не найден/Раздел не найден настроена ошибка 404.
Сервер выдаёт ошибку 404, а на страницах по прежнему
Элемент не найден/Раздел не найден
Как такое может быть?  Спасибо.
platon
Сотрудник Яндекса27 марта 2022, 17:40
mila.yagodckina,
вопрос настройки http-кода ответа и содержимого страниц сайта находится вне нашей компетенции, поэтому рекомендую вам обратиться к администратору вашего сайта или хостинг-провайдеру. Однако замечу, что содержимое страниц не зависит от http-кода ответа. То есть страница, отвечающая кодом 404, вполне может отдавать содержимое "Элемент не найден/Раздел не найден".
--
Пожалуйста, оцените наш ответ 
Странице (дубль) прописала ноиндекс, нофоллов. В выдаче её больше нет. Можно такую страницу удалить с сайта?

И если ДА, то как это сделать, чтобы от неё не осталось и следа? Спасибо за помощь.
platon
Сотрудник Яндекса30 марта 2022, 16:31
mila.yagodckina,
при наличии мета-тега noindex в коде страниц робот будет знать, что индексировать их не нужно, и не будет к ним обращаться. А если на страницы не ведут внешние ссылки, со временем информация о них будет удалена из Яндекс Вебмастера.
По вопросу же доступности самой страницы не сайте рекомендую обратиться к администратору вашего сайта или хостинг-провайдеру, поскольку этот вопрос вне нашей компетенции.
--
Пожалуйста, оцените наш ответ 
ersch.alexandr2015
24 апреля 2022, 10:15
Про дубли. Раньше  яндекс не индексировал неканонические теперь  вовсю зачем то в индекс попадают неканонические, к примеру  бывшие амр страницы. Ему кажется почему то что  там больше инфлюормации, а как там может быть больше инфы, везде все одинаково. Каниктикол  укзан  верно. Диссалов, если ставить директиву, то надо еще что то  после нее ставить?  Получаются  дубли, при этом вебмастер ничего  плохого на сайте не делал
platon
Сотрудник Яндекса25 апреля 2022, 16:29
ersch.alexandr2015,
неканонические страницы действительно могут в некоторых случаях участвовать в поиске. Подробнее об этом вы можете прочитать здесь: https://webmaster.yandex.ru/blog/nekanonicheskie-stranitsy-v-poiske . Если вы хотите быть уверены, что страницы не попадут в поиск, то действительно можете использовать запрет в файле robots.txt. При корректно настроенном запрете со временем такие страницы будут исключены из поиска без каких-либо дополнительных настроек.
--
Пожалуйста, оцените наш ответ 
Что делать со страницей "Элемент/Раздел не найден", если сервер отвечает 200 OK ?
Спасибо.
platon
Сотрудник Яндекса29 апреля 2022, 09:23
mila.yagodckina,
для несуществующих или удаленных страниц мы рекомендуем настраивать http-код ответа 404, чтобы они не индексировались и не попадали в поиск. Если сделать это невозможно, в качестве альтернативного варианта вы можете, например, настроить редирект на страницу с ответом 404, которая будет отображаться для пользователей при переходе по таким ссылкам. Если и это сделать не получится, можете запретить индексирование таких страниц в файле robots.txt сайта или при помощи мета-тега robots, чтобы исключить их появление в поиске.
--
Пожалуйста, оцените наш ответ 
Тут есть и другая проблема, которая увы является уникальной именно для Яндекса, это мультиязычные сайты с языковыми версиями на поддоменах. Несмотря на настройку языковых атрибутов и т.п. эта проблема на Яндексе до сих пор не побеждена. Для примера, мультиязычный сайт, при вводе запроса на английском или немецком находит сразу, но русскоязычную версию не находит вообще, полный игнор. В Вебмастере все в зеленом цвете, никаких ошибок, проверено и мобильными  тестами и валидатором, везде, все ОК. Гугл и Бинг русскую версию прекрасно видят и индексируют, по запросам она выпадает в результатах поиска, Яндекс упорно видеть не желает.    
platon
Сотрудник Яндекса2 мая 2022, 12:27
Роман,
чтобы мы могли более детально разобраться, напишите нам, пожалуйста, непосредственно из формы обратной связи сервиса Яндекс.Вебмастер.
--
Пожалуйста, оцените наш ответ 
mila.yagodckina
5 мая 2022, 13:12
Сайт на битриксе. Почему одна и та же (по всем показателям) страница
выводится по разным адресам? Что делать со страницей-дублем?
Пример:
Оригинал и дубль
https://site.ru/sovety/
https://site.ru/sovety/286-skan-photo/
Спасибо.
platon
Сотрудник Яндекса6 мая 2022, 10:04
mila.yagodckina,
с вопросом индексирования страниц-дублей я рекомендую вам обратиться к администратору сайта или сервера, на котором он находится. Указать же поисковой системе, по какому адресу в этом случае страница должна участвовать в поиске, можно, например, при помощи атрибута rel="canonical" с указанием на нужную страницу или редиректа со страницы-дубля на страницу, которая должна участвовать в поиске.
--
Пожалуйста, оцените наш ответ 
mila.yagodckina
6 мая 2022, 13:14
Научите, пожалуйста, как в файле robots.txt прописать запрет (массово) для индексации страниц с такими адресами:
Например,
есть так:
https://site.ru/catalog/Listok.html
надо так:
https://site.ru/catalog/listok.html


И с такими (в корне "/price-base-from-"):
Например,
https://site.ru/catalog/filter/price-base-from-45000-to-65000/material-is-granit/form_pam-is-vertikalnye/apply/
https://site.ru/soputka/filter/price-base-from-2091-to-8000/type_soput-is-skorbyashchie/apply/
Спасибо.
platon
Сотрудник Яндекса7 мая 2022, 04:07
mila.yagodckina,
для запрета страниц вида https://site.ru/catalog/Listok.html можно использовать, например, директиву вида Disallow: /catalog/L (ссылки с символами в нижнем регистре при этом останутся доступными). Для страниц, содержащих в адресах «/price-base-from-» подойдет директива Disallow: */price-base-from- .
Советую при составлении директив использовать наш инструмент проверки файла robots.txt . В нем вы можете редактировать директивы и проверять, запрещены или разрешены нужные вам страницы.
--
Пожалуйста, оцените наш ответ 
Обновлено 7 мая 2022, 04:07
mila.yagodckina
7 мая 2022, 23:26
Я правильно поняла,  что такое правило:

Disallow: /catalog/L
будет запрещать и такие страницы:
https://site.ru/catalog/Brigada.html
platon
Сотрудник Яндекса9 мая 2022, 22:14
mila.yagodckina,
ссылки вида https://site.ru/catalog/Brigada.html не попадут под действие этого правила. Вы можете убедиться в этом при помощи инструмента анализа robots.txt.
--
Пожалуйста, оцените наш ответ
mila.yagodckina
10 мая 2022, 06:37
А как же тогда одним правилом закрыть для индексирования
все страницы, в адресах которых встречается разный регистр?
Спасибо!
platon
Сотрудник Яндекса11 мая 2022, 12:25
mila.yagodckina,
к сожалению на данный момент закрыть для индексации все страницы одним правилом не получится. Если какие-либо страницы с символами в верхнем регистре должны быть запрещены для индексирования, для них следует использовать отдельную запрещающую директиву в robots.txt.
--
Пожалуйста, оцените наш ответ 
mila.yagodckina
8 мая 2022, 11:57
Уточните, пожалуйста, правило
Disallow:
запрещает сканирование или индексацию. Или это одно и то же?
Спасибо.
platon
Сотрудник Яндекса10 мая 2022, 00:56
mila.yagodckina,
директива Disallow запрещает индексирующему роботу посещать страницы, а значит, он не сможет их сканировать или индексировать, то есть получить их содержимое и как-либо его обработать.
--
Пожалуйста, оцените наш ответ
mila.yagodckina
11 мая 2022, 17:37
У нас сайт на битриксе. Научите, пожалуйста, как закрыть от индексации все порты на сервере. Спасибо.
platon
Сотрудник Яндекса12 мая 2022, 04:08
mila.yagodckina,
этот вопрос выходит за рамки нашей компетенции. Вам стоит обратиться в службу поддержки Битрикс или к разработчику вашего сайта.
--
Пожалуйста, оцените наш ответ 
Обновлено 12 мая 2022, 04:09
mila.yagodckina
18 мая 2022, 13:17
Сайт на битриксе.
Страниц "Элемент/Раздел не найден" много на сайте.
Каким одним правилом можно их все запретить для индексации в файле robots.txt
Спасибо за помощь.
platon
Сотрудник Яндекса19 мая 2022, 00:00
mila.yagodckina,
какой-то единой директивы, которая бы подошла для любого сайта и запретила все несуществующие страницы, не бывает. Любая директива в файле robots.txt зависит от структуры сайта и страниц, которые нужно запретить или разрешить. Напишите, пожалуйста, через форму на странице https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html , прислав список примеров страниц, которые нужно запретить. Поможем в составлении подходящей директивы.
Здравствуйте. Изначально ссылки на сайте были вида url/ далее так уж сложилось, что пришлось сделать главный/оригинальный вид  url (от дублей). Указаны канониклы поставлены 301 с url/ на url... В районе уже 0,5 года после данных манипуляций робот обходит url/ и эти страницы числятся в загруженных. Почему они индексируются? внутренних ссылок, нет подобного вида. В поддержке ответили, что нужно ждать... Возможно ли стоит как -то принудительно роботу запретить посещать такого вида урлы? всем, спаисбо
platon
Сотрудник Яндекса31 мая 2022, 11:49
Centeres124,
наличие перенаправления на страницах не запрещает их посещение, поэтому робот действительно может периодически к ним обращаться. Это сделано для того, чтобы наиболее полноценно передать показатели страниц с перенаправлением для страниц, являющихся целью перенаправления.

По желанию, вы и правда можете запретить индексирование страниц со слешем в конце, например, при помощи мета-тега noindex. Однако передать при этом оставшиеся показатели страниц с перенаправление, увы, не удастся.
Centeres124,
Если ссылки на url/ идут с зеркала сайта http, потому робот их постоянно обходит. Есть какая-то рекомендация в такой ситуации?

platon
Сотрудник Яндекса1 июня 2022, 12:42
Centeres124,
если ссылки на домене с http изменить не представляется возможным, то вы можете просто игнорировать посещение страниц со слешем в конце — само по себе посещение таких страниц как-либо негативно на индексирование вашего сайта не влияет.
mila.yagodckina
4 июня 2022, 11:22
Можно ли в файле robots.txt прописать запрет для индексирования
страницам "Элемент/Раздел не найден" с ответом сервера 200 (настроить код ответа 404 не представляется возможным).
Спасибо.
Здравствутйе, подскажите, а нужно ли устанавливать rel-canonical в случае, если страницы копируются для привлечения трафика по местности. Пример : ремонт телефона Кузьминки, ремонт телефона Кунцево, ремонт телефона Варшавская. На каждый запрос создана страница...

Так же изменены Title и description...нужно ли выделять среди этих страниц ( которые идентичны кроме названия местности)....Спасибо! Если не поставить rel, то страницы будут схлопываться даже при разных title и небольших изменениях в тексте?
platon
Сотрудник Яндекса26 июня 2022, 13:29
viktorAsp-200,
атрибут rel="canonical" тега <link> нужно устанавливать в том случае, если вам нужно явно указать роботу, по какому адресу страницы должны индексироваться и участвовать в поиске. То есть если такие страницы содержат в достаточной мере идентичный контент, робот может посчитать их дублирующими и оставить в поиске только одну из них. Атрибут rel="canonical" в таком случае укажет роботу, какая именно из таких страниц должна находиться в поиске. Подробнее об этом можно прочитать в нашей Справке ( https://yandex.ru/support/webmaster/robot-workings/canonical.html?lang=ru ).
При этом поисковая система воспринимает атрибут rel="canonical" не как строгое указание, а как рекомендацию, поэтому в некоторых случаях атрибут может ей игнорироваться. Если содержимое канонической и неканонических ссылок в существенной мере различается, неканонические ссылки могут быть включены в выдачу.
Будут ли какие-либо страницы вашего сайта признаны дублями, сказать затруднительно, поскольку данный процесс полностью автоматизирован и основан на внутренних алгоритмах робота.
Итоговое решение о том, нужно ли указывать канонический адрес страницы, можете принять только вы как владелец сайта.
Решил проблему с дублями, их было из-за тайтлов и дескрипшенов 70 000+-
Уже месяц висят ошибки в вебмастере и очень очень медленно уменьшается количество.
Сколько потребуется на переобход стандартного форума? год?
Здравствуйте.
Заголовки и описания
44 589 страниц содержат одинаковые title.
16 948 страниц содержат одинаковые description.


Исправил ситуацию, уже прошел месяц. Сколько надо для переобхода этих страниц роботам?