Правельный файл robots.txt - залог успеха - Мои статьи - Каталог статей - Power-Games.NET - Трекер
Главная Форум Набор персонала Статьи
Главная » Статьи » Мои статьи

Правельный файл robots.txt - залог успеха
1. Создаём новый текстовый документ с названием robots.txt
2. Окрываем его и вписываем туда это:

Запись «User-agent» содержит в себе название поискового робота. - это обязательная директива «User-agent»
Если хотите индексирование со всех поисковиков то ставим симво " * "

Пример:
User-agent: *

Если нужно обратиться к роботу Яндекса, то запись будет выглядеть так:

User-agent: Yandex


Обязательная директива «Disallow»

Директива «Disallow» укажет поисковому роботу, какие файлы, каталоги запрещается индексировать.
Если сайт открыт для индексирования весь, то нужно писать так:

Disallow:

или

Allow: /


Наложим запрет на индексацию файла links.html из корневой папки. Тогда запись будет такой:

Disallow: /links.html

Теперь запретим индесирование файла my.html, находящегося в папке «noybot». Это будет выглядеть так:

Disallow: /noybot/my.html
Запретим индексацию определенных директорий, например, содержащих файлы форума - папка «forum» и папку со сценариями «cgi-bin». Это значит, что все, что находится в этих папках не будет доступно для поисковиков. Выглядеть запись будет так:

Disallow: /cgi-bin/

Disallow: /forum/

Зная этот минимум, мы уже можем написать свой файл робот и запретить в нем индексировать какие-либо файлы или любые папки вместе с их содержимым.

Впрочем, эта шпаргалка минимальна. И требует продолжения. Что мы и сделаем.
Можно запретить индексировать страницы и директории, название которых начинается с одних и тех же символов. Запрет накладывается всего одной записью «Disallow».

Например, запретим к индексированию директории и файлы, начинающиеся с символов my. Это папки my, my1, my2 и страницы my.html, mylove.html и тому подобное. Для этого пропишем так:

Disallow: /my
В директиве «Disallow» разрешено пользоваться регулярными выражениями, но не во всех поисковых системах. Google поддерживает символы «*» (звездочка - любая последовательность символов) и «$» (доллар - окончание строки).

Что это дает нам? Можно запретить индексацию файлов с определеным расширением, например, «htm», достаточно написать:

Disallow: *.htm$

Еще пример запрета индексации файлов PDF для гугл

User-agent: Googlebot

Disallow: *.pdf$

Другой вариант решить эту задачу - это создать отдельный каталог pdf и размещать документы PDF в нем. Тогда пишем так:

User-agent: *

Disallow: /pdf/


Директива «Host»

Директива «Host» используется для определения главного зеркала сайта. С ее помощью можно выбрать url, под которым будет проиндексирован веб-сайт. Эта директива поддерживается русскими поисковиками, такими как Яндекс, Рамблер, Апорт.

Без этой директивы робот яндекса выберет основное зеркало самостоятельно, а все другие имена получат запрет к индексации. Т.к. директиву «Host» понимают не все поисковики, поэтому саму запись нужно вставлять обязательно после «Disallow», в конце блока.

Записывается следующим образом:

Host: www.site.ru

На что еще обратить внимание? На поведение гугл при встрече с директивой хост. Google игнорирует всю секцию, где прописана директива «Host». Это решаемо, для гугл нужно создать свой блок с записями.

Например:

User-Agent: * # Все поисковый системы

Disallow: /admin/ # Запрет директории админ и всех, файлов этой папки

Host: www.mainsite.ru # Главное зеркало

User-Agent: Googlebot # Личный блок для гугла

Disallow: /admin/ # Запрет директории гуглом

Пожалуй, минимум о создании robots txt составила. Это только фундамент знаний, еще много возможностей управлять индексацией своего сайта предоставляет файл робот.

Добавлю еще один пример файла роботс, где правила для бота яндекса прописываются в отдельной секции, а другая секция для всех роботов.

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: www.master-live.ru

Кому что будет не понятно пишите в коментариях - помогу обязательно
Категория: Мои статьи | Добавил: spoxe (22.02.2012)
Просмотров: 40 | Рейтинг: 0.0/0
Всего комментариев: 0
Имя *:
Email:
Код *:
Копирование защищенно. Сайт оптимизирован под браузер Opera and Chrome.
© Создание сайта - Creativ Создать сайт бесплатно