Марафон по созданию сайта — правильный robots.txt

Правильный robotstxt

И так марафон медленно, но верно идет своим чередом. А сегодня очередная статья которая полезна тем кто только начинает создавать свой сайт, или просто не знаком с этой информацией. Многие даже не знают что надо настраивать robots.txt самому, а в некоторых CMS это делается автоматом, но иногда автоматом тоже может быть не правильно.

В этой статье постараюсь описать как настроить правильный robots.txt в популярных CMS: WordPress, Joomla, Ucoz (не популярный).

Что такое robots.txt?

Robots.txt - служебный файл для поисковых роботов, который указывает какой контент надо… Клик чтобы твитнуть

То есть этот текстовый файл дает указания поисковым роботам google, яндекса и других систем, какие разделы, каталоги, папки стоить проиндексировать, а какие не стоит. Как бы таким путем можно создать собственный даркнет.

Но если вы смотрели фильм «Сноуден» в интернете все может быть проиндексировано 🙂 .

Наглядная визуализация robots.txt

Где расположен robots.txt

Этот файл должен располагаться в корне вашего сайта (http(s)://www.сайт.kz/robots.txt). его можно редактировать через простой блокнот, или через вашу панель хостинга (если возможно).

Значения в robots.txt

В этом файле каталоги которые нельзя индексировать поисковикам прописываются через определенные команды:

  • «User-agent: *» означает, что правила, приведенные ниже, будут действовать для всех поисковиков. Во второй части файла мы прописываем правило специально для Яндекса: «User-agent: Yandex».
  • «Allow:» — разрешено к индексации.
  • «Disallow:» — запрещено к индексации.
  • «Host: сайт.кз» — нужно указывать обязательно ваше основное зеркало сайта. Ваш сайт может быть доступен по двум адресам: с www и без www. Но в итоге происходит редирект на один из адресов  – это и есть основное зеркало, которое нужно указать здесь. Эта строчка может быть расположена в любой части файла.
  • «Sitemap:» — ссылка на вашу XML-карту сайта, блога, форума и т.д. Если файлов с XML-картами несколько, пропишите путь к каждому из них.
  • Звездочка * — означает произвольную последовательность символов.
  • Disallow: /nazvanie — закроет от индексации все файлы и папки которые начинаются с nazvanie
  • Disallow: /nazvanie/ — а с слешом в конце от индексации закроется только содержимое папки nazvanie
Читайте также:  Whiteboard Friday: Google вознаграждает за повторные публикации интересного контента

Особенности настройки robots.txt для Гугла и Яндекса

Каждый поисковик и его роботы имеют свои правила для нашего файла с роботами. Напишу известные мне правила для google и yandex. Но не стоить забывать что в интернете много поисковых систем, и их правила могут отличаться.

Для Яндекса наш файл должен иметь директиву host, которую понимает только сам яндекс, он указывает основное зеркало сайта. Также стоит разделять директивы для поисковых роботов.

User-agent: Yandex
Disallow: /nazvanie/
Host: http://www.website.kz

User-agent: *
Disallow: /nazvanie/

Также не стоить забывать изменить директорию Host при переходе на SSL сертификат с http:// на https:// . И стоит указать на то что разработчики компании добра (гугл) говорят то ваш файл robots.txt не должен весит больше 500кб, иначе это может привести к проблемам с индексацией.

Правильный Robots.txt для WordPress

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
 
User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: http://www.website.kz
Sitemap: http://www.website.kz/sitemap.xml

Хотелось бы чтобы в самом Вордпрессе была функция настройки robots.txt, но ее пока нету. По крайней мере это можно сделать самому, или подключив дополнительные плагины.

Правильный Robots.txt для Joomla и Ucoz

Про Ucoz много говорить не стану, скажу лишь то что она создает robots.txt автоматически, но после истечения одного месяца. Ну а если не хотите ждать, то можно это сделать самостоятельно.

И вот ниже пример правильного robots.txt для Joomla по моему мнению.

Useragent:*
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrc/

Useragent:Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrc/
Host: http://www.website.kz
Sitemap: http://www.website.kz/sitemap.xml

Марафон по созданию сайта — правильный robots.txt
5 (100%) 5 голосs

Tags

11 комментариев

  • Привет, guest
  • Полезная статья, помню когда создавал свой первый сайт на тогда популярном uCoz, мне советовали добавить robots.txt а я все никак не мог найти правильный шаблон этого сайта, в итоге забил.Кстати, сейчас вроде Яндекс отменил обязательное правило использование Host в robots.txt
  • Роботс, как мне кажется не может быть правельным или неправельным. Это сугубо индивидуальный инструмент для сайта. Вот например одному сайту очень надо чтобы по нему бегал робот гугл, яндекс и др поисковиков, тогда Useragent:* в тему, а др. надо только яндекс и гугл пустить, тогда инструкции пишем для этих поисковиков, а остальным доступ закрываем.
  • Я не поняла,разные цвета,что они обозначают? Disallow: /wp-content/themes Если мы закрываем полностью папку /wp-content/, в которой есть папка themes, то зачем указывать themes? Мы же закрыли всю папку.
    • Разные цвета это просто плагин подсветки синтаксиса. Можно написать Disallow: /wp-content и тогда все что начинается с этого будет закрыто для индексации. Прописывать themes необязательно.
  • Попробуй не создать роботс для сайта и в панели вебмастера появится уведомление! Поисковики сами заинтересованы в этой инструкции для роботов и ругаются, если ее нет.
  • Честно говоря, уже не так обращаю внимание на это файл. Пару раз переделывал, всё время видя заголовки "Правильный роботс". Решил, что мой нынешний вариант вполне хорош. А так, в целом, полезная статья, особенно для новичков.
  • Поисковики ежедневно вводят новые алгоритмы, но не именным остается именно отношение к файлу robots.txt. Я когда-то давно и не знал о его существовании, пока меня не "прочитали всего" - имею введу скрытый текст на моем блоге, как я считал на тот момент. Автор молодец, что акцентирует внимание новичков на этом файле.
  • Здравствуйте, Мухамед! Прочитал вашу статью: «Марафон по созданию сайта — правильный robots.txt». Довольно-таки познавательная статья. В этой статье Вы все правильно пишете, я с вами абсолютно согласен. Файл robots.txt чрезвычайно важен для блога. В самом деле, с его помощью можно легко закрыть доступ поисковым роботам к индексации абсолютно всех папок и файлов. Ведь там есть служебные папки и файлы, а также с сохраненными паролями. Это все совершенно не нужно индексировать и давать кому-то доступ ко всему этому «добру». Потому что, если поисковые роботы будут индексировать все полностью, то это будет не совсем хорошо (мягко выражаясь). Лучше самому разобраться как составить свой robots.txt. И это, наверное, будет самый лучший вариант.
    • О я рад видеть новичков у себя на блоге. Да роботов нужно направлять в нужные русла, а то есть даже примеры когда в сеть попадают данные американских военных под глифом "секретно" изза простой ошибки с этим файлом.
top
Подпишись на мой канал в Телегам!
Наполни мозг инфой об интернет маркетинге и бизнесе в Казахстане (SEO,SMM,PPC)
Подписаться на @qazaqbiz
Не теряй время!