Пример robots.txt для wordpress

Ещё одна статья про robots.txt, ранее рассказал про то, как закрыть индексацию сайта в robots.txt от робота Yahoo.

Раньше особо не заморачивался по поводу robots.txt для wordpress, так как стоит плагин для wordpress All in One SEO, который настроен автоматически прописывать мета-теги, запрещающие индексацию ненужных мне страниц.
В роботсе было что-то вроде этого:

User-Agent: Yandex
Disallow: /out/
Disallow: *feed
Disallow: *?
Host: www.1gog.com

User-Agent: *
Disallow: /out/

Но заметил, что Яндекс не всегда и не сразу нормально реагирует на мета-тег, генерируемый плагином All in One SEO

<meta name=’robots’ content=’noindex,nofollow’ />

Страница с таким тегом не должна индексироваться, но Яндекс может не послушаться и проиндексировать эту страницу. Нежелательность индексации обусловлена тем, что некоторые страницы содержат полный или частичный дубль информации, которая находится на другой странице. Вот две разные страницы с одной и той же информацией 1 и 2. Для первой страницы прописан мета-тег, который запрещает эту страницу индексировать, но не смотря на это обе страницы в выдаче Яндекса. Яндекс не любит сайты на которых много дублированного контента, за это можно получить, например, фильтр АГС-30.

Значит запрещаем индексацию нежелательных страниц в файле robots.txt.

Я делал так:

1. Мой сайт добавлен в webmaster.yandex.ru, там я открываю пункт “Страницы в поиске”
проиндексированные страницы в webmaster.yandex.ru
На скрине обозначены страницы под номерами 1,2,3, которые дублируют информацию с других страниц сайта. Смотрим страницу номер 1

http://www.1GOG.com/2010/

По этому урлу показываются записи за 2010 год, они выводятся по 7 штук на одной странице, урл следующей страницы с 7 записями будет

http://www.1gog.com/2010/page/2/

и так далее…
Для того чтобы запретить индексировать все эти и будущие подобные страницы, добавляем строчку в robots.txt

Disallow: /2010/

Поступаем, так же со 2 и 3 примером на скрине, добавляем в robots.txt:

Disallow: /2009/
Disallow: /author/

В общем у меня получился такой robots.txt:

User-Agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /2009/
Disallow: /2010/
Disallow: /author/
Disallow: */comment-page-1$
Disallow: /out/
Disallow: /page/
Disallow: /tag/
Disallow: *feed
Disallow: *?
Host: www.1gog.com

User-Agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /2009/
Disallow: /2010/
Disallow: /author/
Disallow: /out/
Disallow: /page/
Disallow: /tag/

Что бы проверить не запретили ли мы, что-нибудь нужное, то после обновления файла роботс, заходим в пункт “Анализ robots.txt” и проверяем стали ли ненужные нам страницы запрещены и не стали ли нужные страницы (4,5,6) запрещены:
webmaster.yandex robots.txt

Добавить статью в Twitter и vkontakte.ru Буду рад, если присоединитесь ко мне в твиттере @M_Borman.
Новые материалы моего сайта можно получать по RSS, либо на e-mail.
Вы можете следить за комментариями с помощью RSS 2.0-ленты.
Оставить комментарий

XHTML: Вы можете использовать следующие теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>