Как я удалил 55% сайта и что из этого вышло

Провел небольшой эксперимент. Сайт на 1000+ страниц. Я удалил 600+ страниц (около 55% от его объема). Ниже расскажу, зачем я это сделал, как сделал и к чему это привело.

как убить зомби

С чего началось или немного про Zombie-страницы

Наверняка, вы уже слышали про Zombie Pages или Зомби-Страницы. Этот термин пришел к нам недавно из западного SEO. В него я вкладываю не только мусорные страницы, которые не должны быть в индексе (по типу архивов, календаря и т. п.), но и документы, которые лежат "мертвым грузом" (русскоязычная интерпретация понятия термина :smile:). То есть находятся в индексе, но их никто не посещает (либо посещают, но очень редко).

Еще с былых времен sape в вебмастерской среде была простая формула: больше страниц = больше дохода. Потом в обиход вошло понятие "масштаб проекта" — чем больше документов по тематике запроса, тем релевантнее должен быть сайт. Логика в этом, безусловно, была.

Правила игры постоянно меняются. Интернет разрастается быстрыми темпами и поисковым системам нужно огромное количество серверов, чтобы держать все это в индексе. Стратегия однозапросных страниц (1 страниц = 1 запрос) канула в Лету. Теперь лучше 1 качественный материал, чем 10 посредственных.

Западные коллеги проверяли гипотезу, удаляя из индекса зомби-страницы. В большинстве случаях это приводило к росту органической посещаемости из Google. Я решил проверить, как дела обстоят в Рунете. Кому не интересны детали, можете пролистать вниз до результатов эксперимента.

Если соберетесь проводить похожий эксперимент, то делайте все на свой страх и риск. Результаты в прошлом не гарантируют таких же результатов в будущем. На всякий случай предупредил ;-).

Как найти "зомби" на сайте?

Здесь я не буду рассказывать, как искать дублированный контент (если интересно, можете почитать пост в блоге по дублям) или классические мусорные страницы (служебные файлы, архивы и т.д.). Суть моего эксперимента именно в удалении зомби-страниц. Найти их не совсем сложно (на примере Яндекс.Метрики и Microsoft Excel).

Шаг 1. Определяем список страниц сайта.

Предположу, что у каждого проекта есть sitemap.xml с полным перечнем полезных страниц (те, которые должны быть в индексе).

1. Заходим на https://site.ru/sitemap.xml.

2. Выделяем и копируем URL's.

sitemap.xml

В зависимости от формата вывода копироваться будут лишние элементы. Нам нужны только урлы без дополнительной информации. Удаление "мусора" будет зависеть от конкретной ситуации. На скриншоте пример вывода sitemap.xml с помощью плагина All in One SEO Pack. Для того чтобы удалить ненужную информацию, я копирую выделенное, затем вставляю его в обычный текстовый документ, далее выделяю все содержимое и вставляю уже в Excel. Так очиститься форматирование (можно также очистить формат непосредственно в Excel).

3. Создаем файл Excel, вставляем в него полученные данные из 2-го пункта, удаляем ненужные столбцы — оставляем только урлы.

список страниц сайта

Шаг 2. Определяем список страниц сайта, отсортированных по просмотрам/посетителям.

1. Заходим в Отчеты -> Стандартные отчеты -> Содержание -> Популярное.

Отчет "Популярное содержание"

2. Выбираем нужный период.

Если ваш проект имеет сезонный контент, то выбирайте период, учитывая этот фактор. Например, сайт с поздравлениями имеет ярко-выраженную сезонность. Выбрав короткий период, можно безосновательно удалить важный контент (в мае не запрашивают поздравления с 23 февраля. Тут оптимально выбрать 1 год.

Для несезонного сайта я рекомендую выбирать последние 2 месяца.

3. Скачиваем список URL's с количеством просмотров/посещений ("Данные таблицы").

4. Открываем скачанный файл, прокручиваем вправо до конца. Там будут столбцы со списком URL и количеством просмотров/посещений. Вот они как раз и нужны.

список URL

Выделяем и копируем УРЛы, которые больше определенной цифры. Я ставлю ориентир 3-4 просмотра за 2 последних месяца. Можно делать поправку на тематику.

5. Добавляем полученный список в наш Excel-файл.

полученные данные

Шаг 3. Определяем zombie-страницы.

1. Выделяем урлы в 2-х столбцах. Далее "Условное форматирование" -> "Правила выделения ячеек" -> "Повторяющиеся значения". Потом "Ок".

повторяющиеся значения

выделение цветом ячеек с одинаковым значением

Получаем URL's, которые есть и в первом и во втором столбцах.

2. Сортируем первый столбец по цвету и удаляем все URL с красным фоном.

3. Ура :smile:! Конечный список страниц и будет считаться зомби (документы с посещаемостью от 3-4 просмотров и ниже). Их-то и можно удалять — в любом случае прямая посещаемость от их удаления серьезно не пострадает.

итоговый список zombie-страниц

Как правильно удалять?

Удалять нужно тоже с умом. Я буду рассматривать вариант для WordPress. Полагаю, что в других CMS будет примерно также. Какие есть варианты:

  1. Просто удаление. Страницы будут отдавать 404-ошибку. Не лучший способ, когда больше половины сайта будет под 404.
  2. 301-редирект. Уже лучше, но не идеально. URL, с которых будет стоять редирект в любом случае будут фигурировать на сайте, например, в плагине похожих статей.
  3. <meta name="robots" content="noindex, nofollow"/>. Аналогично 2-му пункту.

Я сделал комбо из 2-х вариантах. Сначала удалил (точнее добавил в черновик) и поставил 301-редирект на главную страницу. 301-редирект в .htaccess, самый простой:

Redirect 301 /page-1/ https://site.ru/

Придется каждый URL добавлять вручную. Есть способы немного ускорить процесс, но они уже за рамками этого поста. Скорее всего, зомби-страниц будет много, и вы не сможете их удалить за короткий период. Поэтому советую удалять и настраивать редиректы блоками, чтобы поисковые системы не успели зайти на удаленные документы с 404-ошибками.

Если у вас проект чисто под поисковый трафик, то не забывайте, что страницы, созданные за последние несколько месяцев, могут еще не "выстрелить". Я не рекомендую затрагивать (удалять) документы, которые младше 12 месяцев.

В идеале после удаления страниц, удалить и внутренние ссылки на них (при наличии). Если проект небольшой, то это не займет много времени. Если большой, то не трудно или недорого создать/заказать скрипт или плагин, который удалит внутренние ссылки на URL определенного списка.

Ход и результаты эксперимента

Что имеем:

  1. Сайт на 1000+ страниц.
  2. Более-менее стабильная поисковая посещаемость на протяжении последних 6-7 месяцев без резких взлетов и падений.
  3. До и во время эксперимента дополнительно с проектом ничего не проводилось.

С 10 июля по 16 августа примерно через равные промежутки времени (11 отрезков) и равное количество страниц за раз было удалено около 55% контента сайта (+ добавлен 301-редирект). Посещаемость с Google:

даты начала и конца удаления страниц

В начале октября трафик с гугла поднялся примерно на 50%. Можно было предположить, что это именно результат от удаления зомби-страниц. Сделали ресурс более качественным — получили больше трафика. Но 24 сентября было анонсировано обновление основного алгоритма — Google September 2019 Core Update. Первая "шапка" была получена сразу после него (25 числа). Пик — 30 сентября (возможно, отголоски апдейта). Вот данные по силе обновлений выдачи:

Данные по изменению поисковой выдачи google за последние 30 дней

Для себя буду считать, что новый алгоритм положительно воспринял изменения на сайте и улучшил ранжирование ;-).

А что с Яндексом?

начало и конец удаления в яндексе

Яндексу, скорее, такой эксперимент не понравился. Примерно через 10 дней после окончательного удаления зомби-документов посещаемость с него упала примерно на те же 50%. Сейчас она практически восстановилась.

Буду считать, что эксперимент удался — общая поисковая посещаемость подросла. Но необходимо делать поправки на:

  1. Один сайт — не показатель. Проведение эксперимента занимает довольно большое количество времени. Реализовать его на 1000, 100 или хотя бы на 10 проектах будет не просто.
  2. Резкий рост посещаемости с Google не совпал, но был рядом с September 2019 Core Update. Возможно, это влияние обновления алгоритма, а не удаления зомби-страниц.

А вы проводили похожие эксперименты? Если да, то что получилось в итоге? Ваши мысли и отзывы с нетерпением жду в комментариях ;-)!

Результаты конкурса на 10-летие блога

Большое спасибо за поздравления с днем рождения блога! Очень приятно, что среди читателей есть "старички" и те, кто подключился недавно. Спасибо тем, кто принял участие в разгадывании кроссворда. Правильный ответ - "десяточка" :smile:.

Поздравляю пятерку призеров:

  1. Василий;
  2. Лилия;
  3. Andrew;
  4. Владислав;
  5. Александр.

призеры

А вот те, кто стал призером в конкурсе комментаторов:

10

20

30

40

  • Руслан;
  • Людмила;
  • Александр;
  • Zorbasmedia.

Жду ваши WMZ на почту с тех же e-mail, которые были указаны в опубликованных комментариях.

Рейтинг
1 звезда2 звезды3 звезды4 звезды5 звезд (11 голос., в среднем: 4,64 из 5)
Загрузка...
Аудит сайта

Найду причины, мешающие продвижению сайта. Подготовлю рекомендации, которые позволят увеличить трафик и конверсию. Составлю стратегию развития. Помогу с внедрением.

От 17900 руб.
Продвижение

Комплексное развитие проектов по актуальным направлениям в SEO. Используются методики, имеющие стабильный долгосрочный эффект (без накруток и спама).

От 40000 руб.
Консультации

Консультирую по вопросам поисковой оптимизации, продвижения сайтов. Лучший способ узнать мое подробное мнение по волнующей задаче/проблеме. Конкретные ответы на конкретные вопросы.

От 5000 руб.
Отзывов уже 39:
Написать комментарий
  1. 1. Артем

    В начале года проводил подобный эксперимент. Удалил порядка 60%. Сайт минимально, но подрос по обеим поисковым системам где-то на 30%. Кроме редиректов по некоторым статьям делал объединения, т.е из нескольких статей одну.

  2. 2. Ал

    Удалял статьи, но редирект делал на другие продвигаемые у которых есть трафик. Второй вариант, если статьи все же приносят трафик, но мало, то обновлял контент, учитывая что статьи уже в индексе, то результат проще и быстрее получить.

  3. 3. seoonly

    :roll: :roll: шикарно-)) Спасибо!

  4. 4. Nik

    Спасибо за статью. Но почему нельзя редиректить на 404 если статья отсутсвует на сайте?

    • 5. Sosnovskij

      Когда это единичные случаи, то нормально, но когда в 404 падает больше половины сайта, то для ПС может показаться странным. По крайней мере, я бы не рекомендовал в данном случае (как в приведенном примере) оставлять 404.

      • 6. Timur

        Поделюсь опытом. Лето 2021, удалил 40% сайта, оставил 404. Никакого эффекта спустя 3 месяца, ни в одну из сторон.

  5. 7. Дмитрий

    Как-то чистил один проект, просто удалил статьи без трафика (в основном это были как раз тех из времен — больше страниц=выше доход по 2000 знаков).
    Редирект ставил только с тех страниц, на которые были ссылки в сети. Масштаб был поменьше, процентов 10-15 страниц.
    Ни к каким видимым изменениям ни в Я ни в Г не привело.
    Из плюсов — чуть места на хостинге освободилось и карта сайта для людей стала более адекватной.

  6. 8. Лилия

    Спасибо за статью, надо будет тоже попробовать потестить)
    Деньги за второе место получила.
    Всё честно и правдиво! Благодарю)

  7. 9. Александр

    Приз за конкурс получил. Спасибо! :shock: :razz:

  8. 10. Andrew

    Интересный эксперимент. Очень практическая и полезная информация.
    Пы.Сы. Приз за конкурс получил. Спасибо!

  9. 11. Александр

    Я на одном сайте тоже был удалил 20% статей, так у меня трафик серьёзно просел. По поводу конкурса сейчас напишу на почту. ;-)

  10. 12. Руслан

    Свой приз получил, спасибо!

  11. 13. Владислав

    И я свой приз за конкурс забрал, сенк ю :???:

  12. 14. Александр

    Приз за участие в конкурсе получил. Спасибо! :idea:

  13. 15. pushland

    Статья интересная, однако, как мне кажется, нужна достаточно большая выборка сайтов как в ру, так и в бурже, на которых были аналогичные манипуляции с зомби-страницами, чтобы понять действенный способ или же это банальное совпадение.

  14. 16. Роман

    А нет смысла доработать эти статьи до текущих требований ПС?

    И попутно вопрос: как массово проверить страницы сайта на количество трафика из ПС и при этом провести корреляцию по потенциальному объёму трафика по семантике каждой статьи?

    • 17. Sosnovskij

      1. В моем случае смысла дорабатывать не было. В других случаях необходимо принимать решение по ситуации (какие-то материалы дорабатывать смысла нет, какие-то можно доработать).

      2. Я такого инструмента не знаю.

      • 18. WebMigration

        Доброго времени суток

        Если я правильно вас понял, то предлагаю сделать анализ следующим образом:

        1) Экспортируем данные из Ahrefs (Semrush или Serpstat) на видимость сайта по ключам.
        У Ahrefs есть свой параметр частотности SearchVolume. Можно опираться на него, либо дополнительно спарсить частотность по Google и Yandex. Для этого можно использовать сторонние сервисы.

        2) Для каждой страницы группируем ключи и суммируем частотность на видимость в top3, top10, top20 и до нужной вам глубины. Эта операция группировки реализовывается в пару строк кода на любом языке программирования.

        3) Если у вас есть доступ к аналитике, то экспортируем данные оттуда и объединяем с уже имеющимися.

        И так, у вас должна получится наглядная картина видимости по каждой странице сайта и потенциальная частотность по нужной вам глубине выдачи.

        Допустим мы видим, что страница n видна в top20 выдачи с общие частотностью ключей 10000 в месяц — то я бы попробовал улучшить эту страницу и добить ее до топа, чтобы получить больше трафика.

        Если вам это показалось сложно, то могу сделать наглядный отчет для вашего сайта.

        • 19. Sosnovskij

          Да, хороший способ. Не совсем простой, но эффективный. По типу поиска самых перспективных страниц для продвижения.
          Повторюсь, в моем случае дорабатывать смысла не было. :)

  15. 20. Mik Foxi

    Я раньше тоже был приверженцем 301 редиректа на что-то новое у удаленных страниц. Но потом как показала моя практика — 404 все-таки намного лучше. В особенности если удаляются мусорные страницы, не имеющие веса и траста.

    • 21. Sosnovskij

      Почему такое сложилось впечатление? Быстрее из индекса выпадают? :smile:

      • 22. Mik Foxi

        При 404 значительно быстрее выпадает старое из индекса, при редиректе последнее время гугл старую страницу с редиректом не выкидывает из индекса, а держит ее там некоторое время с новым заглавием и описанием страницы, на которую редирект, т.е какой-то дубль в индексе получается.

        • 23. Sosnovskij

          Да, также было замечено, что страницы с 301-редиректом не сильно быстро пропадают из индекса.

  16. 24. Петр

    Прошло еще полтора месяца.
    Как сейчас обстоят дела с сайтом?
    Или что-то делалось дополнительное, что может повлиять на чистоту эксперимента?

    • 25. Sosnovskij

      Особо ничего больше не делалось. Яндекс скаканул на днях (еще не разбирался почему). Может быть и ему нравятся более «чистые» сайты (он же всегда долго думает :smile: ). Вот актуальный график take.ms/SG81v .

  17. 26. Елена

    Глупо удалять столько контента … Хотя бы перенесли на поддомен чтоли. На основной почти все с гугля, а на поддомен и тот что с яндекса.

    • 27. Sosnovskij

      В данном случае «удалялся» устаревший неактуальный контент. На поддомене он также ничего бы хорошего не принес :)

  18. 28. Алиса

    А если вначале закрыть такие страницы от индексации, а потом уже постепенно удалять? Будет лучше, чем 301 редирект?

    • 29. Sosnovskij

      Удаление не лучший вариант, потому что, если на страницы вели ссылки, то в полной мере они не будут работать на страницы с 404-ошибкой. На мой взгляд. лучше сразу ставить редирект, чтобы не делать двойной работы. Но это если давать универсальный совет. Бывают индивидуальные случаи, когда будет уместно закрытие от индексации без редиректа (например, документ нужен пользователю, но бесполезен для поиска).

  19. 30. Ринас

    Здравствуйте! Вопрос, возможно, не совсем по теме, но ломаю голову уже довольно давно над ним. В общем, на сайте есть статьи, с которых идет практически основной трафик, но поведенческие у них плохие. Тематике сайта они не совсем подходят. Написаны были исключительно для «общего» развития читателей и не предполагалось, что они станут приносить трафик в большом количестве. Короче говоря, я испортил аудиторию сайта.
    Как итог, сайт из-за плохих поведенческих факторов упал и не может подняться уже довольно длительное время.
    Вопрос: можно ли убрать из индекса данные страницы (естественно, потеряв в трафике)? Может ли оказать положительный эффект такая «чистка»?
    Заранее спасибо!

    • 31. Sosnovskij

      Какие поведенческие показатели у этих страниц (отказы, время)?

      • 32. Ринас

        Если взять среднее значение, то примерно 1:10 — 1:30, а показатели отказов 10-15%, глубина просмотра 1,10-1,20. Вроде бы получается неплохо, но по тематике всего сайта они не совсем подходят

  20. 33. idigital

    Сергей, спасибо за интересный эксперимент.
    Но он больше для Гугла, да, Яндекс на такое не реагирует или реагирует слабо.
    Делал подобное тоже с 1 сайтом, правда, 1 сайт не показатель, конечно.

  21. 34. chevechelios

    Спасибо за подробную инструкцию. А если просто сделать редирект 404 ошибки на главную страницу сайта?

    • 35. Sosnovskij

      Не совсем понял. Просьба подробнее :smile:

      • 36. chevechelios

        Если вместо «Redirect 301 /page-1/ httрs://site.ru/» сделать редирект 404 ошибки на главную страницу, чтобы не прописывать каждый удаленный урл? Тогда с удаленной страницы будет редирект на 404, а оттуда также на главную.

        • 37. Sosnovskij

          На мой взгляд, не лучший вариант:

          1. «Мой» способ:
          URL -> Главная

          2. «Ваш» способ:
          URL -> 404 -> Главная

          То есть потенциальный вес будет передаваться не с удаленной страницы, а со страницы 404 ошибки.

          Также пропадает функция 404-страницы для незомби целей.

  22. 38. Сергей

    Добрый день! Как на данный момент спустя несколько лет Ваше видение эксперимента и его результатов?
    И осталось не совсем понятно: зачем сначала помещать статьи в черновики, а не сразу удалять? Ведь все равно будет отдаваться 404 ошибка…

    • 39. Sosnovskij

      Добрый день! Мероприятие по удалению зомби-страниц не обязательное, но если на сайте много (более 30-50%) неактуальных/неважных страниц, которые не приносят входящий трафик (плюс нет входящих ссылок), то есть смысл их удалить.
      Можно сразу удалять, не помещая в черновики. Но, на всякий случай, оставить в корзине (если CMS — WordPress).

Добавить комментарий

 

* Нажимая на кнопку "Добавить комментарий" я соглашаюсь с Политикой конфиденциальности.

Привет! А еще у меня есть телеграм-канал @sosnovskij. Туда я публикую чаще =).
Это короткие, но емкие посты по SEO: эксперименты, наблюдения, личный опыт. Заходите, читайте, подписывайтесь ;-) .