Что такое файл robots.txt и как его правильно составить

robotПриветствую всех читателей WPnotes.ru. Сегодня обсудим очень важный пункт в продвижении любого сайта — это правильное создание файла robots.txt. 

Возможно многие новички и понятия не имеют что это такое и с чем его едят. Поэтому начнем с теории. Любой сайт состоит из некоторого количества страниц, какие-то буквально из 10, а некоторые из десятков тысяч. Все они связаны между собой ссылками. В определенный момент может получиться так, что страницы будут дублироваться. 

Говоря конкретно о WordPress, дубли, а правильнее сказать внутренние дубли,  появляются при использовании рубрик, страниц навигации, архивов и так далее. С точки зрения обычного пользователя в этом нет ничего страшного, но любой вебмастер должен очень серьезно подходить к данному вопросу. Как бы не развивались поисковые системы, они по прежнему остаются  всего лишь программами, хотя может за последние несколько лет и шагнули далеко вперед.

Отдельно можно выделить и внешние дубли страниц — они появляются при краже контента или же, например, анонса статей на сторонний ресурсах.

Дублированные страницы также делят на:

  • нечеткие дубли — контент дублируется частично, это актуально, например, для архивов и рубрик, когда после нескольких строк следует тег далее
  • четкие дубли — когда контент полностью дублируется и это несет значительную угрозу вашему сайту

Зачастую при наличии дублированных страниц, особенно в случае четких дублей, поисковая система не может определить какая страница является главной. Для вас, как вебмастера, это означает ухудшение в ранжировании и потеря поискового трафика. А именно поисковый трафик приносит больше всего целевых читателей и значит потенциальных подписчиков.

Как определить есть ли дублированный контент на сайте

Для этого можно воспользоваться какой-нибудь фразой из нескольких слов взятой из вашей статьи. Сделайте поисковый запрос по этой фразе и в результате поисковой выдачи вы без труда найдете дубли, если конечно они имеются.

Другой способ это использование расширенных операторов поисковых систем. Например, если я введу в поисковой строке Яндекса site:wpnotes.ru, то поисковик выдаст мне все проиндексированные страницы только моего блога, а найти дубли в результатах выдачи дело минутное.

Файл robots.txt

Данный текстовый файл и является  препятствием для возникновения внутренних дублированных страниц. Когда поисковый робот заходит на ваш сайт, он в первую очередь ищет данный файл чтобы узнать рекомендации относительно индексации тех или иных разделов.

Все инструкции прописанные в файле всего лишь рекомендации для роботов, если на ваш сайт заходит вредоносный робот с целью копирования контента, то понятно, что robots.txt не защитит вас от кражи информации.

Некоторые правила для robots.txt

  • может быть только один robots.txt и размещается он исключительно в корне сайта
  • название файла должно быть написано в нижнем регистре — любое иное название или местоположение не признается посковыми роботами
  • не существует идеального файла robots.txt для WordPress — вносите изменения под свои нужды
  • перечислять все команды, благодаря которым можно запретить или разрешить индексацию сайта, я не буду — вы без труда найдете их в том же хелпе от Яндекса

Пример robots.txt

Универсального файла не существует, но в связи с тем что WordPress крайне популярен, выработался некий стандарт, который я вам и приведу. Дополнить его можете на свое усмотрение и нужды.

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host: wpnotes.ru

Sitemap: http://wpnotes.ru/sitemap.xml.gz
Sitemap: http://wpnotes.ru/sitemap.xml

Я исключил также рубрики, архивы и страницы. Так как некоторые дубли страниц были обнаружены, то продолжу следить за ними вплоть до переиндексации.

Если вы решите использовать данный пример, то потребуется изменить имя хоста и путь до XML карты сайта. Далее сохраните текстовый файл и загрузите по FTP на хостинг в корень сайта.

Как только вы загрузите файл, он будет доступен по адресу http://адрес-сайта/robots.txt. Кстати, так можно посмотреть robots.txt любого сайта и, возможно, найти для себя какие-то нужные решения.

Понравилась статья? Поделитесь с друзьями:


 

Навигация по записям