Robots.txt
После того, как вы перенесли сайт на хостинг и открыли к нему доступ, на ваш сайт начнут заходить поисковые роботы. Цель поисковых роботов – занесение информации о страницах сайта в базу данных поисковика. В первую очередь поисковые роботы ищут на сайте файл robots.txt.
Файл robots.txt - настройка параметров индексирования сайта
Файл robots.txt служит для запрета от индексирования страниц, не предназначенных для пользователей. Таким образом, с помощью robots.txt от индексирования можно закрыть технические и не представляющие ценности ни для пользователя, ни для поисковых систем страницы (дубликаты страниц, статистика посещаемости, поиск по сайту и др.). Для поисковых роботов файл robots.txt является инструкцией, в которой указаны параметры индексирования сайта. Поэтому, в первую очередь веб-мастеру нужно создать эту инструкцию для поисковых роботов.
Как создать robots.txt
Создать файл robot.txt для поисковых роботов несложно. Создайте в любом текстовом редакторе файл с названием «robots.txt», заполните его в соответствии с правилами и разместите в корневой папке сайта.
Robots.txt для Joomla
Чтобы вам было легче понять, что из себя представляет файл robots.txt, вначале хочу показать, как он выглядит на примере robots.txt для Joomla. Хочу отметить, что в данном файле прописаны две инструкции: вверху - для всех поисковых роботов и ниже - для поискового робота Яндекс.
User-agent: * Allow: /index.php?option=com_xmap&sitemap=1&view=xml Disallow: /administrator/ Disallow: /cache/ Disallow: /index.php? Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /images/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /search/ Disallow: /*.pdf Disallow: /*print=1 Disallow: /*type=atom Sitemap: /index.php?option=com_xmap&sitemap=1&view=xml Sitemap: /index.php?option=com_xmap&sitemap=1&view=xml&no_html=1 Sitemap: /index.php?option=com_xmap&sitemap=1&view=xml Disallow: /administrator/ Disallow: /cache/ Disallow: /index.php? Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /images/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /search/ Disallow: /*.pdf Disallow: /*print=1 Disallow: /*type=atom Host: www.webadvisor.ru Sitemap: /index.php?option=com_xmap&sitemap=1&view=xml Sitemap: /index.php?option=com_xmap&sitemap=1&view=xml&no_html=1 Sitemap: />
Правильный robots txt
Выше приведён пример файла robots.txt для Joomla. Вы можете его скопировать и отредактировать, согласно своим требованиям. А можете создать robots.txt самостоятельно. Чтобы создать правильный robots.txt, создайте текстовой файл и заполните его в соответствии с представленными ниже правилами.
Директива User-agent
В файле robots.txt вы можете указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждого поисковика отдельно. Это можно сделать с помощью директивы User-agent. По правилам перед каждой директивой User-agent рекомендуется вставлять пустой перевод строки.
Например:
User-agent: * # для всех поисковиков
User-agent: Yandex # для робота Яндекса
Директивы Disallow и Allow
Директива Disallow используется для запрета к некоторым частям сайта. По правилам не допускается наличие пустых переводов между директивами User-agent и Disallow (Allow). Отсутствие у директив параметров трактуется таким образом: Disallow – то же, что и / Allow; Allow – то же, что / Disallow
Например:
User-agent: Yandex
Disallow: / # блокирует доступ ко всему сайту
Директива Sitemap
В файле robots.txt вы можете указать путь к sitemaps.xml
Пример. Sitemap: /index.php?option=com_xmap&sitemap=1&view=xml&no_html=1
Директива Host
С помощью директивы Host в файле robots.txt вы можете указать главное зеркало сайта (сайт с www или без).
Директива должна располагаться сразу после директив Disallow (Allow) и должна состоять из одного корректного имени хоста.
Пример. Host: www.webadvisor.ru
При написании robots.txt помните, что файл не должен превышать 32 Кб. Слишком большой robots.txt воспринимается поисковым роботом, как полностью разрешающий и рассматривается им аналогично следующей записи:
User-agent: Yandex
Disallow:
После создания файла рекомендую проверить, правильно ли вы его составили. Проверить правильность файла robots.txt вы можете в панели вебмастера Яндекс, в панели вебмастера Google или специальным on-line анализатором по этому адресу: http://webmaster.yandex.ru/robots.xml
Комментарии
RSS лента комментариев этой записи