Ещё одна статья про robots.txt, ранее рассказал про то, как закрыть индексацию сайта в robots.txt от робота Yahoo.
Раньше особо не заморачивался по поводу robots.txt для wordpress, так как стоит плагин для wordpress All in One SEO, который настроен автоматически прописывать мета-теги, запрещающие индексацию ненужных мне страниц.
В роботсе было что-то вроде этого:
User-Agent: Yandex
Disallow: /out/
Disallow: *feed
Disallow: *?
Host: www.1gog.comUser-Agent: *
Disallow: /out/
Но заметил, что Яндекс не всегда и не сразу нормально реагирует на мета-тег, генерируемый плагином All in One SEO
<meta name=’robots’ content=’noindex,nofollow’ />
Страница с таким тегом не должна индексироваться, но Яндекс может не послушаться и проиндексировать эту страницу. Нежелательность индексации обусловлена тем, что некоторые страницы содержат полный или частичный дубль информации, которая находится на другой странице. Вот две разные страницы с одной и той же информацией 1 и 2. Для первой страницы прописан мета-тег, который запрещает эту страницу индексировать, но не смотря на это обе страницы в выдаче Яндекса. Яндекс не любит сайты на которых много дублированного контента, за это можно получить, например, фильтр АГС-30.
Значит запрещаем индексацию нежелательных страниц в файле robots.txt.
Я делал так:
1. Мой сайт добавлен в webmaster.yandex.ru, там я открываю пункт “Страницы в поиске”

На скрине обозначены страницы под номерами 1,2,3, которые дублируют информацию с других страниц сайта. Смотрим страницу номер 1
http://www.1GOG.com/2010/
По этому урлу показываются записи за 2010 год, они выводятся по 7 штук на одной странице, урл следующей страницы с 7 записями будет
http://www.1gog.com/2010/page/2/
и так далее…
Для того чтобы запретить индексировать все эти и будущие подобные страницы, добавляем строчку в robots.txt
Disallow: /2010/
Поступаем, так же со 2 и 3 примером на скрине, добавляем в robots.txt:
Disallow: /2009/
Disallow: /author/
В общем у меня получился такой robots.txt:
User-Agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /2009/
Disallow: /2010/
Disallow: /author/
Disallow: */comment-page-1$
Disallow: /out/
Disallow: /page/
Disallow: /tag/
Disallow: *feed
Disallow: *?
Host: www.1gog.comUser-Agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /2009/
Disallow: /2010/
Disallow: /author/
Disallow: /out/
Disallow: /page/
Disallow: /tag/
Что бы проверить не запретили ли мы, что-нибудь нужное, то после обновления файла роботс, заходим в пункт “Анализ robots.txt” и проверяем стали ли ненужные нам страницы запрещены и не стали ли нужные страницы (4,5,6) запрещены:


