Как удалить дубли страниц

Здравствуйте уважаемые читатели и подписчики. Как проходит лето? Надеюсь, более чем насыщенно. В сегодняшнем посте мы опять поговорим о продвижении сайта, а если быть более точным, то уделим внимание поиску и устранению дублей страниц.

Прежде чем начать, хотелось бы рассказать новичкам, что вообще такое дубли и как они могут препятствовать продвижению. Дубли страниц возникают из-за того, что один тот же контент доступен по разным адресам. Например: sayt.ru/statja и www.sayt.ru/statja. Это приводит к тому, что контент на сайте становится неуникальным и позиции в поисковых системах падают. Чаще всего дубли возникают из-за особенности той или иной CMS (движка блога), а также из-за неопытности и невнимательности вебмастера.

Дубли можно разделить на 2 категории: полные и не полные. В перовом случае дублируется вся страница, во втором, только ее часть, например, после анонса в RSS.

Если на своем сайте Вы обнаружили дубли контента, то вот с какими проблемами Вы можете столкнуться при продвижении:

  • Потеря внутреннего ссылочного веса. Это может произойти из-за того, что ссылки ведут на дублированные страницы, вместо того чтобы увеличивать вес продвигаемой. Простой пример: при внутренней перелинковке, Вы можете случайно ошибиться и сослаться на дублированную страницу, в таком случае вес страницы пропадает в пустую.
  • Подмена основной страницы в индексе. Дублированная страница может быть расценена поисковиками как оригинальная и свободно попасть в основной индекс. Если такое произойдет, то все усилия по ее продвижению будут напрасны и соответственно позиции по нужным запросам просядут.
  • Если дублей очень много, то есть риск попадания под фильтр Яндекса АГС.

Теперь, когда мы узнали определение и последствия дублей, можно приступать к их поиску и устранению. Устранение сводиться к тому, чтобы запретить дублям индексироваться

Устранение самых распространенных дублей

Сайт доступен с www и без www

Откройте главную страницу сайта.  У меня это life-webmaster.ru (без www, но у Вас может быть наоборот). Теперь уберите или допишите к адресу www. Если дубля нет, то Вас будет автоматически перебрасывать на основное зеркало. Если сайт доступен и с www и без него – это дубль и от него нужно избавляться.

Делается это очень просто. Если вы хотите сделать сайт доступным без www, то в конец файла .htaccess пишем этот код:

Options +FollowSymLinks
RewriteEngine On
RewriteCond %{HTTP_HOST} ^www.domain\.com$ [NC]
RewriteRule ^(.*)$ http://domain.com/$1 [R=301,L]

Если с www, этот:

RewriteEngine On
RewriteCond %{HTTP_HOST} !^www\.(.*) [NC]
RewriteRule ^(.*)$ http://www.%1/$1 [R=301,L]

В индексе присутствуют страницы с параметрами page=1; .php и т.д.

Эта проблема наблюдается в основном у тех, кто использовал движок WordPress для создания своего сайта. Дело в том, что URL, который использует данный движок для записей, выглядит следующим образом: sayt.ru/?p=1. Это не очень хорошо, но решается тегом rel=”canonical”, который есть в любом seo плагине. Если у Вас другая CMS, то зайдите в файл index.php и добавьте этот тег вручную.  Если тег rel=”canonical” уже прописан на Вашем сайте, this is хорошо.

Дубли со слешами на конце

Суть в том, что страница доступна по ссылке со слешем (/) и без него. Проверяется следующим образом:

  • Открываем статью сайта
  • Например, у меня открылась sayt.ru/statja/ (т.е. со слешем)
  • Теперь убираем слеш, получиться sayt.ru/statja

Если одни и те же страницы будут открываться со слешем и без него, то это дубль:

  • sayt.ru/statja
  • sayt.ru/statja/

Устранить эту проблему можно прописав в конец файла .htaccess следующее правило:

RewriteBase / 
RewriteCond %{HTTP_HOST} (.*) 
RewriteCond %{REQUEST_URI} /$ [NC] 
RewriteRule ^(.*)(/)$ $1 [L,R=301]

Оно уберет слеш на конце ссылки и будет перенаправлять пользователя на правильную страницу. Например, человек ввел в адресную строку адрес sayt.ru/statja/ и его тут же перебросит на sayt.ru/statja

Этими действиями мы предотвратили появление в индексе дублированного контента, но что делать, если таковой уже имеется в выдаче? В таком случае нужно отыскать, и избавится от него вручную.

Поиск дублированного контента в индексе

Есть множество способов найти дублированный контент, давайте рассмотрим самые основные:

Расширенный поиск Яндекса. Заходим в этот поисковик и жмем “расширенный поиск”:

Берем кусок текста из старого поста, заключаем его в кавычки и вставляем в строку поиска. Далее вводим адрес блога и жмем “Найти”:

Если по таким запросам показывается несколько страниц, то это дубли. Заметьте, что нужно брать текст из середины или конца поста, потому как первые предложения могут встречаться на главной странице или в рубриках блога.

Если найдены дубли, то удалите их с помощью инструмента из Яндекс Вебмастера.

Конечно, если на Вашем сайте тысячи страниц то проверять его ручками можно вечно, поэтому для упрощения работы придумана программа XENU.

Проверка с помощью программы Xenu. Эта программа проанализирует все ссылки Вашей площадки и укажет на возможные ошибки. Программка на английском, но разобраться в ней несложно.

Итак, скачиваем ее отсюда (жмем кнопку Download) и устанавливаем на компьютер. После установки запустите программу, перейдите в раздел “file” и выберите подраздел “check URL”:

Здесь введите адрес нужного сайта и нажмите ok. Начнется процесс проверки ссылок. Прошу заметить, что полная проверка может длиться достаточно долго, поэтому не переживаем.

Все ошибки будут подсвечены красным цветом, поэтому распознать проблемные страницы будет несложно. После анализа, программа предложить сделать карту сайта, но этого делать не нужно.

Еще одним удобным способом проверки дублированных страниц является инструмент в Google Webmaster. Если Ваш сайт добавлен туда, то перейдите в раздел “оптимизация”, а затем в “оптимизация html”. Здесь будут показаны одинаковые тайтлы и description, что говорит о дублированном контенте. Если все good, то ы увидите следующие:

После нахождения дублей анализируйте их появление, и устраняйте вышеперечисленными способами. Если найдены дубли с непонятными адресами, то закрывайте их от индексации через robots.txt. Также если на Вашем сайте есть архив записей, то его тоже лучше закрыть от индексации в robots.txt либо через All in One Seo Pack.

На этом все, надеюсь, Вы выявили все проблемные страницы Вашего сайта и с успехом удалили их. Если возникли вопросы по поводу дублей, не стесняйтесь, я всегда открыт для общения.

Песенка на закуску

Буду благодарен за подписку и за репост в социальных сетях. Удачного лета друзья.
p.s. Стал писать реже, потому что уехал в Крым :3

Ваш комментарий

  1. Лично у меня с Яндексом вообще проблем нет, в индексе всего 145 страниц, как и должно быть. Это я добился тупо через файл robots.txt. Прописал там необходимые для меня параметры и забыл.
    А вот google не хочет его брать. точнее он его индексирует но не принимаем в серьез. Уже около 2000 страниц в индекса. Я заметил что так почти у всех, но есть люди у которых также как и у Яшки, то есть, google лишнее не забирает. Пытался у них разузнать что да как. но бело в том, что они сами не знаю. Беда.
    Уже столько различных статей прочитал и у самого google спрашивал, но итога нет. Вот я и думаю. стоит мне все это проделывать, если в Яншку лишнее не лезет. Мне нужно на google повлиять. Поможет то, о чем ты в статье написал? Как думаешь? Или знаешь?

    Я вот у тебя поглядел через анализатор, в индексе google более 2000 страниц. То если если ты на своем блоге все о чем написал применяешь, значит это не поможет. Тогда может ты можешь подсказать где найти то что мне надо?

    Кстати, я у себя конкурс запустил. Забегай поучаствуй. Думаю, будет весело. Такого конкурса я еще ни у кого не видел. Моя, так сказать, собственная мысля. Придешь? Ну, я тебе на почту на всякий случай написал.

    P.S. Хочу у тебя одну статейку попросить. Ну, если ты разбираешься в этом. Как можно рекламное объявление в Яндекс.Директор заказать чтобы продавать инфопродукты. Я слышал, у тебя был опыт хороший. Ну, помнишь ты говорил что как-то продавал через яндекс директор продукт про похудание, вреде. Купил рекламу на 300 и получил чистой прибыли , вроде 900 рублей. Хочу попробовать повторить. Ну не то чтобы такой же продукт продавать и столько же заработать, а просто заработать на этом хочу. Деньги есть для рекламы, нужно теперь их увеличить! Расскажешь что-нибудь интересное на этому тему? Может поделишься, посоветуешь что-то?

    P.S. Кстати, помнишь ты делал обзор моего блога? Так вот я все твои советы применил, и уже вывел блога на 100-150 посетителей. Очень доволен результатом :) Спасибо за советы и проделанную работу. Давай нам еще вечерний борщь, другим поможешь!?

    Ладно уж. что-то я расписал…

    • Кирилл Тараненко:

      Ну почему же не использую, я использую, только с гуглом беда и robots он тоже читать не хочет. С Яндексом у меня нормально все :)
      С конкурсом ознакомлюсь. Про статейку, думаю можно будет написать, почему нет.
      Поздравляю Андрюха, Воскресный борщ не будет заброшен, вернусь из Крыма и продолжу обзоры :)

    • Гугл robots.txt читает, но понимает он его очень специфично. Все страницы запрещенные к индексации он отправляет в дополнительный индекс. Если хотите снизить показатель то нужно просто зайти в инструменты Гугл вебмастера и удалять страницы через Удалить URL-адреса. Работа конечно же нудная но после этого должна повысится лояльность гугла, сам начал понемногу удалять страницы, надеюсь будет эффект.

      • Слишком нужная работа для меня. Сейчас Гоша 2300 страниц забрал, а нормальных только 150-160. Ни тут роботы на день. И не справлюсь :) Может фрилансера подыскать…

        • Лучше всего найти негра для такой работы, я взял для этого двенадцатилетнего паренька и всего за триста рублей. Но, наверно, если за один день все страницы удалить то будет палевно, нужно растянуть на несколько дней. Ну и еще нужно разобраться откуда столько дублей — две тысячи это очень много.

  2. Jack:

    Спасибо за статью.
    Вставил в .htacess пару кусочков кода. Возникли проблемы:
    та часть кода, которая должна была убрать дубли с www, их не убрала.
    та, что убирает дубли со слешами — работает.
    Но оба эти варианта дают баг при логине в админку — как будто данные не отправляются, не могу залогиниться.
    Пришлось обратно все убрать
    Буду благодарен за помощь

    • Кирилл Тараненко:

      Проблема может быть связана как с вашим хостингом (что более вероятно), так и с шаблоном — вашей темой.
      Напишите в службу поддержки хостинга. А лучше в таком случае вообще не использовать файл .htaccess.
      Для избавления от дублей используйте возможности robots.txt.

  3. Спасибо, Решил несколько проблем))