Если в файле robots.txt не указать определенные правила для поисковых роботов, то поисковые пауки обязательно проиндексируют много мусорных страниц, и может произойти многократное дублирование информации вашего проекта (одна и та же статья доступна по разным ссылкам), что очень плохо. Для составления правильного robots.txt вы должны знать основные директивы этого файла.
Главные директивы и правила написания файла robots.txt.
Первая и наиболее важная директива, это «User-agent» – она должна содержать название поискового робота.
Если вы не укажете название поискового робота в директиве User-agent, то это правила будут понимать все поисковые системы.
А предположим, что вы хотите задать правила поведения у вас на сайте именно поисковому роботу Яндекса, то в «User-agent» задаем название Yandex, это будет выглядеть так:
User-agent: Yandex
И правила которые будут указаны после «User-agent» для Яндекса будет понимать именно эта поисковая система.
Соответственно бот каждой поисковой системы имеет своё уникальное название:
Google - Googlebot
Яндекс - Yandex
Рамблер - StackRambler
Конечно, можно было собрать более большой список, но хватило бы только Google и Яндекса, траффик с остальных поисковых систем очень маленький по сравнению с этими двумя гигантами, и работать нужно именно на них.
Следующие директивы правильного robots.txt о которых нужно сказать это Allow и Disallow, первая разрешающая а вторая запрещающая индексацию поисковым роботам.
Ваш правильный файл robots.txt должен содержать как минимум одну директиву «Disallow» соответственно после каждой записи «User-agent».
А вот если вы оставите совсем пустой файл robots.txt, то поисковые машины будут индексировать ваш ресурс полностью, и в индекс попадет много мусорных и дублированных страниц.
Приведу простые примеры составления правильного robots.txt, с участием директивы User-agent, Disallow и Allow:
User-agent: *
Disallow:
Как видете в данном примере я разрешаю всем поисковым роботам индексировать весь веб-ресурс целиком, без ограничений.
А если вам нужно запретить индексацию всего сайта всем поисковым роботам, то в файле robots.txt нужно прописать следующее:
User-agent: *
Disallow: /
Из всего выше сказанного можно составить файл который мы обсуждаем в данной статье такого вида:
User-agent: *
Disallow: /
User-agent: Yandex
Disallow:
В этом примере я запретил индексацию всего блога, всем поисковым роботам, кроме робота Яндекса, таким образом вы можете разрешать или запрещать индексацию определенным ботам.
В следующем примере мы с вами запретим индексацию каталога blog, вот путь к этому каталогу https://artkiev.com/blog/:
User-agent: *
Disallow: /blog/
То есть, все поисковые системы будут игнорировать каталог blog.
Ну вот, я думаю что на приведенных выше примерах вам стало понятны как работают директивы User-agent, Disallow и Allow.
Также имеется директива Host – которую понимает только поисковая система Яндекс, она служит, для определения основного зеркала вашего сайта, то есть ваш ресурс может быть доступен по нескольким адресам, допустим с www и без, помните что для поисковых систем это два разных сайта.
И ваш ресурс может быть в индексе поисковиков с www и без, и даже эти два разных сайта, с точки зрения поисковиков, могут иметь разные показатели тиц и пр, это очень плохо скажется на раскрутке вашего интернет проекта и конечно же, этот момент отрицательно скажется на поисковой выдаче, более подробно я рассказа в статье: Склеиваем дубли с www и без.
Про директиву Host и проблемы дублирования блога более подробно вы узнаете в статье, ссылку на которую я привел выше, здесь я при приведу маленький пример составления файла роботс с директивой Host:
User-agent: Yandex
Disallow:
Host: www.site.ua
или
User-agent: Yandex
Disallow:
Host: site.ua
Обязательно помните, что директиву Host понимает только Яндекс, и специально для этого нужно использовать User-agent: Yandex, а для указания действий к индексации другим поисковым роботам нужно использовать другую директиву User-agent.
Вы можете добавлять свои правила в файл robots.txt, но после этого обязательно протестируйте — достигли ли вы желаемого результата.
Для это используйте соответствующие инструменты панелей вебмастеров поисковиков, об которых я подробно расказывал в статьях: панель инструментов Яндекса и панель инструментов Google.