Составляем корректный robots.txt для сайта

Если в файле robots.txt не указать определенные правила для поисковых роботов, то поисковые пауки обязательно проиндексируют много мусорных страниц, и может произойти многократное дублирование информации вашего проекта (одна и та же статья доступна по разным ссылкам), что очень плохо. Для составления правильного robots.txt вы должны знать основные директивы этого файла.

Главные директивы и правила написания файла robots.txt.

Первая и наиболее важная директива, это «User-agent» – она должна содержать название поискового робота.
Если вы не укажете название поискового робота в директиве User-agent, то это правила будут понимать все поисковые системы.
А предположим, что вы хотите задать правила поведения у вас на сайте именно поисковому роботу Яндекса, то в «User-agent» задаем название Yandex, это будет выглядеть так:
User-agent: Yandex
И правила которые будут указаны после «User-agent» для Яндекса будет понимать именно эта поисковая система.
Соответственно бот каждой поисковой системы имеет своё уникальное название:
Google - Googlebot Яндекс - Yandex Рамблер - StackRambler Конечно, можно было собрать более большой список, но хватило бы только Google и Яндекса, траффик с остальных поисковых систем очень маленький по сравнению с этими двумя гигантами, и работать нужно именно на них.


Следующие директивы правильного robots.txt о которых нужно сказать это Allow и Disallow, первая разрешающая а вторая запрещающая индексацию поисковым роботам.

Ваш правильный файл robots.txt должен содержать как минимум одну директиву «Disallow» соответственно после каждой записи «User-agent».

А вот если вы оставите совсем пустой файл robots.txt, то поисковые машины будут индексировать ваш ресурс полностью, и в индекс попадет много мусорных и дублированных страниц.

Приведу простые примеры составления правильного robots.txt, с участием директивы User-agent, Disallow и Allow:

User-agent: *

Disallow:

Как видете в данном примере я разрешаю всем поисковым роботам индексировать весь веб-ресурс целиком, без ограничений.

А если вам нужно запретить индексацию всего сайта всем поисковым роботам, то в файле robots.txt нужно прописать следующее:

User-agent: *

Disallow: /

Из всего выше сказанного можно составить файл который мы обсуждаем в данной статье такого вида:

User-agent: *

Disallow: /

User-agent: Yandex

Disallow:

В этом примере я запретил индексацию всего блога, всем поисковым роботам, кроме робота Яндекса, таким образом вы можете разрешать или запрещать индексацию определенным ботам.

В следующем примере мы с вами запретим индексацию каталога blog, вот путь к этому каталогу https://artkiev.com/blog/:

User-agent: *

Disallow: /blog/

То есть, все поисковые системы будут игнорировать каталог blog.


Ну вот, я думаю что на приведенных выше примерах вам стало понятны как работают директивы User-agent, Disallow и Allow.

Также имеется директива Host – которую понимает только поисковая система Яндекс, она служит, для определения основного зеркала вашего сайта, то есть ваш ресурс может быть доступен по нескольким адресам, допустим с www и без, помните что для поисковых систем это два разных сайта.

И ваш ресурс может быть в индексе поисковиков с www и без, и даже эти два разных сайта, с точки зрения поисковиков, могут иметь разные показатели тиц и пр, это очень плохо скажется на раскрутке вашего интернет проекта и конечно же, этот момент отрицательно скажется на поисковой выдаче, более подробно я рассказа в статье: Склеиваем дубли с www и без.

Про директиву Host и проблемы дублирования блога более подробно вы узнаете в статье, ссылку на которую я привел выше, здесь я при приведу маленький пример составления файла роботс с директивой Host:

User-agent: Yandex

Disallow:

Host: www.site.ua

или

User-agent: Yandex

Disallow:

Host: site.ua
Обязательно помните, что директиву Host понимает только Яндекс, и специально для этого нужно использовать User-agent: Yandex, а для указания действий к индексации другим поисковым роботам нужно использовать другую директиву User-agent.
Вы  можете добавлять свои правила в файл robots.txt, но после этого обязательно протестируйте — достигли ли вы желаемого результата.

Для это используйте соответствующие инструменты панелей вебмастеров поисковиков, об которых я подробно расказывал в статьях: панель инструментов Яндекса и панель инструментов Google.


	
	
	Веб-разработка
Дизайн
MySQL
SEO
Windows
FreeBSD, Unix, Linux
Android
Гаджеты и техника
Полезное
Разное
Интересные факты