Главная Гостевуха Регистрация Форум Мы вконтакте Файлы
Правильный файл Robot.txt - Форум
[ Новые сообщения · Участники · Правила форума · Поиск · RSS ]
  • Страница 1 из 10
  • 1
  • 2
  • 3
  • 9
  • 10
  • »
Модератор форума: (---Дiм@сян777---), supermamont, denn  
Правильный файл Robot.txt
(---Дiм@сян777---)Дата: Воскресенье, 17.05.2009, 16:13 | Сообщение # 1
Генералиссимус
Группа: Администраторы
Сообщений: 31
Награды: 0 [ 1 ]
Статус: Offline
Поисковые сервера всегда перед индексацией вашего ресурса ищут в корневом каталоге вашего домена файл с именем "robots.txt" (http://www.mydomain.com/robots.txt). Этот файл сообщает роботам (паукам-индексаторам), какие файлы они могут индексировать, а какие нет.

Поисковые сервера всегда перед индексацией вашего ресурса ищут в корневом каталоге вашего домена файл с именем "robots.txt" (http://www.mydomain.com/robots.txt). Этот файл сообщает роботам (паукам-индексаторам), какие файлы они могут индексировать, а какие нет.

Формат файла robots.txt - особый. Он состоит из записей. Каждая запись состоит из двух полей: строки с названием клиентского приложения (user-agent), и одной или нескольких строк, начинающихся с директивы Disallow:

<Поле> ":" <значение>

Robots.txt должен создаваться в текстовом формате Unix. Большинство хороших текстовых редакторов уже умеют превращать символы перевода строки Windows в Unix. Либо ваш FTP-клиент должен уметь это делать. Для редактирования не пытайтесь пользоваться HTML-редактором, особенно таким, который не имеет текстового режима отображения кода.

Поле User-agent
Строка User-agent содержит название робота. Например:

User-agent: googlebot

Если вы обращаетесь ко всем роботам, вы можете использовать символ подстановки "*":

User-agent: *

Названия роботов вы можете найти в логах вашего веб-сервера. Для этого выберите только запросы к файлу robots.txt. большинство поисковых серверов присваивают короткие имена своим паукам-индексаторам.

Поле Disallow
Вторая часть записи состоит из строк Disallow. Эти строки - директивы для данного робота. Они сообщают роботу какие файлы и/или каталоги роботу неразрешено индексировать. Например следующая директива запрещает паукам индексировать файл email.htm:

Disallow: email.htm

Директива может содержать и название каталога

Disallow: /cgi-bin/

Эта директива запрещает паукам индексировать директорию "cgi-bin".

В Disallow могут использоваться и символы подстановки, стандарт диктует, что директива /bob запретит паукам лезть в /bob.html и так же в /bob/index.html.

Если же директива Disallow останется пустой, то роботу разрешено индексировать обсолютно все файлы. Как минимум одна директива Disallow должна присутствовать для каждого поля User-agent, для того, чтобы robots.txt считался корректным. Полностью пустой robots.txt означает то же самое, как если бы его не было вообще.

Пробелы и комментарии
Начинающаяся строка с # в robots.txt считается комментарием. Разрешается использовать комментарии в конце строк с директивами, но это считается плохим стилем:

Disallow: bob #comment

Некоторые пауки не смогут правильно разобрать данную строку и вместо этого поймут ее как запрет на индексацию ресурсов bob#comment. Поэтому все комментарии должны размещаться на отдельной строке.

Пробел в начале строки разрешается, но не рекомендуется

Disallow: bob #comment

Примеры
Следующая директива разрешает всем роботам индексировать все ресурсы сайта, так как используется символ подстановки "*".

User-agent: *
Disallow:

Следующая директива будет запрещать всем роботам это делать:

User-agent: *
Disallow: /

Запрещается всем роботам индексировать директории "cgi-bin" и "images":

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/

Запрещается роботу Roverdog заходить во все каталоги сервера:

User-agent: Roverdog
Disallow: /

Данная директива запрещает Google роботу googlebot индексировать файл cheese.htm:

User-agent: googlebot
Disallow: cheese.htm

Есле Вас интересуют более сложные примеры или же хотите посмотреть на действующий файл robots.txt, то просмотрите его на каком-нибудь большом сайте.

http://sitename.com/robots.txt

В поисках корректного robots.txt
Статистика показывает, что около 5% всех robots.txt имеют плохой стиль или некорректны, а 2% вообще настолько плохо написаны, что ни один робот не разберется в написанном.

Рассмотрим наиболее встречаемые ошибки при создании robots.txt

Перевернутый синтаксис
Одна из самых распространенных ошибок - перевернутый синтаксис:

User-agent: *
Disallow: scooter

А должно быть так:

User-agent: scooter
Disallow: *

Несколько директив Disallow в одной строке
Многие указывали несколько директив на одной строке:

Disallow: /css/ /cgi-bin/ /images/

Различные пауки поймут эту директиву по-разному. Некоторые из них проигнорируют пробелы и поймут директиву как запрет на индексацию дирректории /css//cgi-bin//images/. Возможен вариант, что они проиндексируют лишь один каталог (/images/ или /css/), остальные проигнорируют.

Правильный синтаксис в данном случае будет таков:

Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

Строка в формате DOS
Еще одна нередкая ошибка – это редактирование файла robots.txt в формате DOS. Несмотря на то, что из-за распространенности данной ошибки многие пауки научились «понимать» ее, не стоит допускать её. Необходимо редактировать свой robots.txt в режиме UNIX и закачивать на сайт в режиме ASCII. Многие FTP-клиенты для закачки файлов на сервер умеют переводить символы строки из DOS-формата в UNIX-формат. Но стоит помнить, что некоторые этого всё же не делают.

Комментарии в конце строки
Согласно стандарту, это верно:

Disallow: /cgi-bin/ #this bans robots from our cgi-bin

Но в недавнем прошлом были роботы, которые заглатывали всю строку в качестве директивы. Сейчас нам такие роботы неизвестны, но кто может с уверенностью сказать, что такая ошибка не может случиться. Размещайте комментарии на отдельной строке.

Пробелы в начале строки

Disallow: /cgi-bin/

Стандарт ничего не говорит по поводу пробелов, но это считается плохим стилем. И опять же, бережёного Бог бережёт!

Редирект на другую страницу при ошибке 404
Весьма распространено, что при ошибке 404 (файл не найден) веб-сервер выдает особую страницу, например 404.html. При этом сервер не выдает код ошибки и не делает редиректа на главную страницу. В этом случае робот не понимает, что файл robots.txt отсутствует, вместо этого он получит html-страницу с определённым содержимым. Конечно никаких проблем здесь возникнуть не должно, но стоит ли рисковать? Кто знает, как разберет робот этот html файл. Ведь он может принять страницу за robots.txt. Чтобы этого не происходило, обязательно поместите хотя бы пустой robots.txt в Ваш корневой каталог.

Конфликты директив
Чтобы вы сделали на месте робота slurp, увидев данные директивы?

User-agent: *
Disallow: /
#
User-agent: slurp
Disallow:

Первая директива запрещает всем роботам индексировать сайт, но вторая директива разрешает роботу slurp это делать. Так что же все-таки должен делать slurp? Мы не можем гарантировать, что все роботы поймут эти директивы правильно. В данном примере slurp должен проиндексировать весь сайт, а все остальные не должны уйти прямо с порога.

Верхний регистр всех букв - плохой стиль:

USER-AGENT: EXCITE
DISALLOW:

Несмотря на то, что стандарт безразлично относится к регистру букв в robots.txt, в именах каталогов и файлов регистр все-таки важен. Лучше всего следовать примерам и в верхнем регистре писать первые буквы только в словах User и Disallow.

Список всех файлов
Еще одна ошибка - перечисление всех файлов в каталоге:

Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html

Вышеприведенный пример можно заменить на:

Disallow: /AL
Disallow: /Az

Помните, что начальная наклонная черта обозначает, что речь идет о каталоге. Конечно, ничто не запрещает вам перечислить парочку файлов, но мы речь ведем о стиле. Данный пример взят из файла robots.txt, размер которого превышал 400 килобайт, в нем было упомянуто 4000 файлов! Интересно, сколько роботов-пауков, посмотрев на этот файл, решили больше не приходить на этот сайт.

Есть только директива Disallow!

Нет такой директивы Allow, есть только Disallow. Этот пример неверный:

User-agent: Spot
Disallow: /john/
allow: /jane/

Правильно будет так:

User-agent: Spot
Disallow: /john/
Disallow:

Нет открывающей наклонной черты

Что должен сделать робот-паук с данной директивой:

User-agent: Spot
Disallow: john

Согласно стандартам эта директива запрещает индексировать файл "john" и каталог john". Но лучше всего, для верности, использовать наклонную черту, чтобы робот мог отличить файл от каталога.

Еще мы видели, как люди записывали в файл robots.txt ключевые слова для своего сайта (подумать только - для чего?).

Бывали такие файлы robots.txt, которые были сделаны в виде html-документов. Помните, во FrontPage делать robots.txt не стоит.

Неправильно настроенный сервер
Почему вдруг на запрос robots.txt веб-сервер выдает бинарный файл? Это происходит в том случае, если ваш веб-сервер настроен неправильно, либо вы неправильно закачали на сервер сам файл.

Всегда после того, как вы закачали файл robots.txt на сервер, проверяйте его. Достаточно в броузере набрать простой запрос:

http://www.mydomain.com/robots.txt

Вот и все что нужно для проверки.

Особенности Google
Google - первый поисковый сервер, который поддерживает в директивах регулярные выражения. Что позволяет запрещать индексацию файлов по их расширениям.

User-agent: googlebot
Disallow: *.cgi

В поле user-agent вам следует использовать имя "googlebot". Не рискуйте давать подобную директиву другим роботам-паукам, они не поймёт.

МЕТА-тег robots
МЕТА тег robots служит для того, чтобы разрешить или запретить поисковым роботам, приходящим на сайт, индексировать (либо нет) определённые страницы страницу. Кроме того, этот тег предназначен для того, чтобы предлагать роботам пройтись по всем страницам сайта и проиндексировать их. В настоящее время этот тег приобретает все большее значение.

Кроме того, этит тег будет полезен тем, кто не может подступиться к корневому каталогу сервера robots.txt и изменить его.

Некоторые поисковые сервера, такие как Inktomi например, полностью понимают мета-тег robots. Inktomi пройдет по всем страницам сайта если значение данного тега будет "index,follow".

Формат мета-тега Robots
Мета тег robots помещается в тег html-документа. Формат достаточно прост (регистр букв значения не играет):

<HTML>
<HEAD>
<META NAME=ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<META NAME="DESCRIPTION" CONTENT="Эта страница ….">
<TITLE>...</TITLE>
</HEAD>
<BODY>

Значения мета-тега robots
Данному мета-тегу можно присвоит четыре значения content:

index, noindex, follow, nofollow

Если значений несколько, они разделяются запятыми.

В настоящее время лишь следующие значения важны:

Директива INDEX говорит роботу, что данную страницу можно индексировать.

Директива FOLLOW сообщает поисковому роботу, что ему разрешается индексировать ссылки на данной странице. В некоторых источниках можно прочитать, что если данные значения отсутствуют, то поисковые роботы по умолчанию действуют так, как если бы им даны были директивы INDEX и FOLLOW. К сожалению, это не всегда так и для поискового сервера Inktomi значения будут равны "index, nofollow".

Итак, глобальные директивы выглядят так:

Индексировать всё = INDEX, FOLLOW

Не индексировать ничего = NOINDEX, NOFOLLOW

Примеры мета-тега robots
<META NAME=ROBOTS" CONTENT="NOINDEX, FOLLOW">
<META NAME=ROBOTS" CONTENT="INDEX, NOFOLLOW">
<META NAME=ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

 
SoloexcacheДата: Суббота, 08.01.2011, 10:15 | Сообщение # 2
Группа: Гости
[ ]




convertible jaguar xk car innsurance center ford okc car malibu part civic concept honda
 
NatashaMefДата: Четверг, 09.02.2012, 05:48 | Сообщение # 3
Группа: Гости
[ ]




Как скачать xrumer 7.0.10 Elite??
Пришлите мне , пожалуйста URL!!!
Это лучшая программа для массового размещения на форумах ! XRumer может сломать большинство видов каптч !
 
incevoicyДата: Четверг, 16.02.2012, 13:24 | Сообщение # 4
Группа: Гости
[ ]




Как прогнать свой сайт? Как поднять посещаемость? Как поднять Тиц и Pr?
Прогон по каталогам ничего не дает, мы предлогаем уникальную возможность прогона по дешевым ценам!
СУПЕР ПРОГОН ВАШЕГО САЙТА: (icq 618204327)

[b]ТАРИФЫ:[/b]

Наши тарифы прогона сайта по солянке:

Прогон по базе из 5000 сайтов стоит 150 руб
Прогон по базе из 10000 сайтов стоит 250 руб
Прогон по всей базе (примерно 30 000 сайтов) сайтов стоит 500 руб
_______________________________________

Тарифы прогона сайта по профилям:

Регистрация 3000 профилей на разных форумах ( с вашими сылками внутри аккаунтов) ВСЕГО 100 руб !!!!! (придет 3000 писем)
Регистрация 10000 профилей на разных форумах ( с вашими сылками внутри аккаунтов) ВСЕГО 300 руб !!!!! (придет 10000 писем)
Регистрация 25000 профилей на разных форумах ( с вашими сылками внутри аккаунтов) ВСЕГО 600 руб !!!!! (придет 25000 писем)
_____________________________________

Тарифы рекламного прогона сайта по форумам:

Прогон 3000 постов на разных форумах (Ваш рекламный текст в постах) Всего 210 руб (придет 3000 писем)
Прогон 10000 постов на разных форумах (Ваш рекламный текст в постах) Всего 600 руб (придет 10000 писем)
Прогон 25000 постов на разных форумах (Ваш рекламный текст в постах) Всего 1200 руб (придет 25000 писем)
___________________________________________

Наши тарифы прогона сайта по форумам:

Прогон 3000 постов на разных форумах ( с сылками внутри текста) Всего 150 руб (придет 3000 писем)
Прогон 10000 постов на разных форумах ( с сылками внутри текста) Всего 450 руб (придет примерно 10000 писем)
Прогон 25000 постов на разных форумах ( с сылками внутри текста) Всего 900 руб (придет примерно 25000 писем)
_______________________________________________

Тарифы прогона сайта по гостевым книгам:

Размещение сообщения в гостевой книге на 3000 сайтов (Размещается сообщение в гостевой книге с вашим объявлением или сылкой на сайт) Всего 120 руб
Размещение сообщения в гостевой книге на 10000 сайтов (Размещается сообщение в гостевой книге с вашим объявлением или сылкой на сайт) Всего 300 руб
___________________________________________

Наши тарифы прогона сайта по комментариям:

Размещение комментариев на 3000 сайтов (Размещается комментарий на сайтах с вашим объявлением или сылкой на сайт) Всего 150 руб (придет около 3000 писем с регистрацией на сайтах, где добавлялись комментарии)
Размещение комментариев на 10000 сайтов (Размещается комментарий на сайтах с вашим объявлением или сылкой на сайт) Всего 450 руб (придет около 10000 писем с регистрацией на сайтах, где добавлялись комментарии)
_____________________________________

Для оформления заказа вам необходимо написать в Icq 618204327 для связи!
Гарантия! Полный отчет!
 
NatashaMefДата: Воскресенье, 19.02.2012, 04:09 | Сообщение # 5
Группа: Гости
[ ]




Я хочу скачать xrumer 7.0.10 Elite?
Дайте мне адрес , пожалуйста!
Это лучшая программа для массового размещения на форумах ! XRumer может сломать большинство видов каптч !
 
ABHOSTXДата: Суббота, 24.03.2012, 19:07 | Сообщение # 6
Группа: Гости
[ ]




Здравствуйте, хочу Вам предложить безабузный сервис аренды VPS/VDS/ и выделенных серверов


[b]VPS/VDS:[/b]
CPU: 2.5 GHz (Intel Xeon)
RAM: 1536 Mb
HDD: 50 Gb
LAN: 100 Mbps
OS: Windows (любая при запросе см. ниже)
Рассылка: БЕЗ ПРОКСИ
Трафик: НЕ ОГРАНИЧЕН
Установка: мгновенно после оплаты
Цена: $75/мес.

[b]Выделенные сервера:[/b]
Возможны конфигурации серверов на базе
Intel: Core i5/Core i7/Core2Quad
AMD: Phenom II X4/Phenom II X6/Athlon II X2/Athlon II X3/Athlon II X4


[b]Наши преимущества:[/b]
Мы не выключаем пользователей по приходу абузы
У нас собственный ДЦ
ДЦ расположен в Европе
Интернет высокого качества не такой как Cogent
В ДЦ приходит несколько аплинков
Не нужно использовать прокси
Установим любую ОС совместимую с архитектурой x86 на Ваш сервер


[b]Можно у нас размещать:[/b]
XRumer, Aposter, SE-Nuke...
объекты спама дорвеи, сплоги, сателлиты...
системы управления трафиком Sutra TDS, SimpleTDS...
warez, торренты

[b]Способы оплаты:[/b]
WebMoney
Skrill(Moneybookers)
Яндекс.Деньги

Пишите нам:
[b]ICQ 770889[/b]

Добавлено (24.03.2012, 19:07)
---------------------------------------------
Здравствуйте, хочу Вам предложить безабузный сервис аренды VPS/VDS/ и выделенных серверов


[b]VPS/VDS:[/b]
CPU: 2.5 GHz (Intel Xeon)
RAM: 1536 Mb
HDD: 50 Gb
LAN: 100 Mbps
OS: Windows (любая при запросе см. ниже)
Рассылка: БЕЗ ПРОКСИ
Трафик: НЕ ОГРАНИЧЕН
Установка: мгновенно после оплаты
Цена: $75/мес.

[b]Выделенные сервера:[/b]
Возможны конфигурации серверов на базе
Intel: Core i5/Core i7/Core2Quad
AMD: Phenom II X4/Phenom II X6/Athlon II X2/Athlon II X3/Athlon II X4


[b]Наши преимущества:[/b]
Мы не выключаем пользователей по приходу абузы
У нас собственный ДЦ
ДЦ расположен в Европе
Интернет высокого качества не такой как Cogent
В ДЦ приходит несколько аплинков
Не нужно использовать прокси
Установим любую ОС совместимую с архитектурой x86 на Ваш сервер


[b]Можно у нас размещать:[/b]
XRumer, Aposter, SE-Nuke...
объекты спама дорвеи, сплоги, сателлиты...
системы управления трафиком Sutra TDS, SimpleTDS...
warez, торренты

[b]Способы оплаты:[/b]
WebMoney
Skrill(Moneybookers)
Яндекс.Деньги

Пишите нам:
[b]ICQ 770889[/b]

 
VPN-GlobeKSДата: Понедельник, 02.04.2012, 12:35 | Сообщение # 7
Группа: Гости
[ ]





<a href='http://vpnglobe.com/lang/ru'><b>Google сервис VPN</b></a>
Хорошее место для начала ознакомления с себя виртуальные частные сети от Google является VPN сервис и посмотреть, что эксперты должны сказать по этому вопросу.
 
KS-VPNGlobeДата: Пятница, 06.04.2012, 13:49 | Сообщение # 8
Группа: Гости
[ ]





<a href='http://vpnglobe.com/lang/ru/plans.html'><b>Ошибка 619 VPN</b></a>
Если вы получаете ошибку 619 VPN вам необходимо сначала проверить, если ваш маршрутизатор может обрабатывать PPTP или L2TP с трансляцией адресов, так как это общее дело.
 
machuminДата: Пятница, 22.06.2012, 04:41 | Сообщение # 9
Группа: Гости
[ ]




http://www.kino-t.ru/catalog/item2277.html Супер блондинка...
 
ceraxerДата: Пятница, 29.06.2012, 11:41 | Сообщение # 10
Группа: Гости
[ ]




http://marketing-advert.narod.ru
http://vyazanie-tut.narod.ru
http://sadovod-ogorod.narod.ru
http://sadovodec.kilu.net
http://ogorod-russia.narod.ru
http://bumaga-white.narod.ru
http://sadovod.seite.ru
http://otvet-mai.narod.ru
 
  • Страница 1 из 10
  • 1
  • 2
  • 3
  • 9
  • 10
  • »
Поиск:
Сделать бесплатный сайт с uCoz