Публичный саппорт: Когда поисковый бот Mail.ru научится читать robots.txt?

3 декабря 2011 в 18:41

Поисковый робот Mail.ru игнорирует или неправильно читает robots.txt

Новости СМИ2

Пример robots.txt:
...
User-agent: Mail.Ru
Crawl-delay: 5
Disallow: /admin/

User-agent: *
Disallow: /search/
...

И все равно делает 2-3 запроса в секунду и пытается индексировать страницы в /search/

Это баг или фича?

Комментарий представителя компании

Контекст комментария
Mikhail Starov
У вас не указан Disallow: /search/ для нашего робота, поэтому он его и не выполняет (и это правильно, т.к. User-agent: * это не маска, а просто маркер «все остальные роботы, кроме перечисленных) Про crawl-delay и жалобу про 2-3 запроса в секунду: пришлите, пожалуйста, название сайта и примеры последовательных запросов из лога для изучения на go@corp.mail.ru Подробная инструкция про работу с robots.txt — http://go.mail.ru/help_robots.html

Лучшие комментарии

Контекст комментария
dewil
правильно будет так User-agent: Mail.Ru Crawl-delay: 5 Disallow: /admin/ Disallow: /search/ User-agent: * Disallow: /search/

Добавить 4 комментария

4 декабря 2011 в 15:43 Ответить
dewil
правильно будет так User-agent: Mail.Ru Crawl-delay: 5 Disallow: /admin/ Disallow: /search/ User-agent: * Disallow: /search/
4 декабря 2011 в 17:02 Ответить
M-Borman
И на всякий случай: «В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву «Crawl-delay» необходимо добавлять в группе, начинающейся с записи «User-Agent», непосредственно после директив «Disallow» («Allow»).»
4 декабря 2011 в 18:13 Ответить
Валентин Домбровский Travelabs
http://go.mail.ru/help_robots.html#cd
5 декабря 2011 в 16:25 Ответить
Mikhail Starov
У вас не указан Disallow: /search/ для нашего робота, поэтому он его и не выполняет (и это правильно, т.к. User-agent: * это не маска, а просто маркер «все остальные роботы, кроме перечисленных) Про crawl-delay и жалобу про 2-3 запроса в секунду: пришлите, пожалуйста, название сайта и примеры последовательных запросов из лога для изучения на go@corp.mail.ru Подробная инструкция про работу с robots.txt — http://go.mail.ru/help_robots.html

Важное

Обсуждаемое