Марафон по созданию сайта — правильный robots.txt

Правильный robotstxt

И так марафон медленно, но верно идет своим чередом. А сегодня очередная статья которая полезна тем кто только начинает создавать свой сайт, или просто не знаком с этой информацией. Многие даже не знают что надо настраивать robots.txt самому, а в некоторых CMS это делается автоматом, но иногда автоматом тоже может быть не правильно.

В этой статье постараюсь описать как настроить правильный robots.txt в популярных CMS: WordPress, Joomla, Ucoz (не популярный).

Что такое robots.txt?

Robots.txt - служебный файл для поисковых роботов, который указывает какой контент надо… Клик чтобы твитнуть

То есть этот текстовый файл дает указания поисковым роботам google, яндекса и других систем, какие разделы, каталоги, папки стоить проиндексировать, а какие не стоит. Как бы таким путем можно создать собственный даркнет.

Но если вы смотрели фильм «Сноуден» в интернете все может быть проиндексировано 🙂 .

Наглядная визуализация robots.txt

Где расположен robots.txt

Этот файл должен располагаться в корне вашего сайта (http(s)://www.сайт.kz/robots.txt). его можно редактировать через простой блокнот, или через вашу панель хостинга (если возможно).

Значения в robots.txt

В этом файле каталоги которые нельзя индексировать поисковикам прописываются через определенные команды:

  • «User-agent: *» означает, что правила, приведенные ниже, будут действовать для всех поисковиков. Во второй части файла мы прописываем правило специально для Яндекса: «User-agent: Yandex».
  • «Allow:» — разрешено к индексации.
  • «Disallow:» — запрещено к индексации.
  • «Host: сайт.кз» — нужно указывать обязательно ваше основное зеркало сайта. Ваш сайт может быть доступен по двум адресам: с www и без www. Но в итоге происходит редирект на один из адресов  – это и есть основное зеркало, которое нужно указать здесь. Эта строчка может быть расположена в любой части файла.
  • «Sitemap:» — ссылка на вашу XML-карту сайта, блога, форума и т.д. Если файлов с XML-картами несколько, пропишите путь к каждому из них.
  • Звездочка * — означает произвольную последовательность символов.
  • Disallow: /nazvanie — закроет от индексации все файлы и папки которые начинаются с nazvanie
  • Disallow: /nazvanie/ — а с слешом в конце от индексации закроется только содержимое папки nazvanie
Читайте также:  Специальные символы, смайлы, иконки для Instagram

Особенности настройки robots.txt для Гугла и Яндекса

Каждый поисковик и его роботы имеют свои правила для нашего файла с роботами. Напишу известные мне правила для google и yandex. Но не стоить забывать что в интернете много поисковых систем, и их правила могут отличаться.

Для Яндекса наш файл должен иметь директиву host, которую понимает только сам яндекс, он указывает основное зеркало сайта. Также стоит разделять директивы для поисковых роботов.

Также не стоить забывать изменить директорию Host при переходе на SSL сертификат с http:// на https:// . И стоит указать на то что разработчики компании добра (гугл) говорят то ваш файл robots.txt не должен весит больше 500кб, иначе это может привести к проблемам с индексацией.

Правильный Robots.txt для WordPress

Хотелось бы чтобы в самом Вордпрессе была функция настройки robots.txt, но ее пока нету. По крайней мере это можно сделать самому, или подключив дополнительные плагины.

Читайте также:  Что такое социальный замок?

Правильный Robots.txt для Joomla и Ucoz

Про Ucoz много говорить не стану, скажу лишь то что она создает robots.txt автоматически, но после истечения одного месяца. Ну а если не хотите ждать, то можно это сделать самостоятельно.

И вот ниже пример правильного robots.txt для Joomla по моему мнению.

Марафон по созданию сайта — правильный robots.txt
5 (100%) 5 голосs

Tags

11 комментариев

  • Привет, guest
  • Полезная статья, помню когда создавал свой первый сайт на тогда популярном uCoz, мне советовали добавить robots.txt а я все никак не мог найти правильный шаблон этого сайта, в итоге забил.Кстати, сейчас вроде Яндекс отменил обязательное правило использование Host в robots.txt
  • Роботс, как мне кажется не может быть правельным или неправельным. Это сугубо индивидуальный инструмент для сайта. Вот например одному сайту очень надо чтобы по нему бегал робот гугл, яндекс и др поисковиков, тогда Useragent:* в тему, а др. надо только яндекс и гугл пустить, тогда инструкции пишем для этих поисковиков, а остальным доступ закрываем.
  • Честно говоря, уже не так обращаю внимание на это файл. Пару раз переделывал, всё время видя заголовки "Правильный роботс". Решил, что мой нынешний вариант вполне хорош. А так, в целом, полезная статья, особенно для новичков.
  • Поисковики ежедневно вводят новые алгоритмы, но не именным остается именно отношение к файлу robots.txt. Я когда-то давно и не знал о его существовании, пока меня не "прочитали всего" - имею введу скрытый текст на моем блоге, как я считал на тот момент. Автор молодец, что акцентирует внимание новичков на этом файле.
  • Здравствуйте, Мухамед! Прочитал вашу статью: «Марафон по созданию сайта — правильный robots.txt». Довольно-таки познавательная статья. В этой статье Вы все правильно пишете, я с вами абсолютно согласен. Файл robots.txt чрезвычайно важен для блога. В самом деле, с его помощью можно легко закрыть доступ поисковым роботам к индексации абсолютно всех папок и файлов. Ведь там есть служебные папки и файлы, а также с сохраненными паролями. Это все совершенно не нужно индексировать и давать кому-то доступ ко всему этому «добру». Потому что, если поисковые роботы будут индексировать все полностью, то это будет не совсем хорошо (мягко выражаясь). Лучше самому разобраться как составить свой robots.txt. И это, наверное, будет самый лучший вариант.
    • О я рад видеть новичков у себя на блоге. Да роботов нужно направлять в нужные русла, а то есть даже примеры когда в сеть попадают данные американских военных под глифом "секретно" изза простой ошибки с этим файлом.
top
Подпишись на мой канал в Телегам!
Наполни мозг инфой об интернет маркетинге и бизнесе в Казахстане (SEO,SMM,PPC)
Подписаться на @qazaqbiz
Не теряй время!