Повесть о важности robots.txt
Ппц, о чудо, яндекс при addurl стал нормально определять то, что сайт не может проиндексироваться из за неправильного robots.txt. Теперь при добавлении в аддюрл сайта с неправильно созданным !!!!или отсутствующем!!!! файле robots.txt вы увидете такое сообщение :
Подробнее о файле robots.txt вы можете прочитать в FAQ.
Возможно и раньше было так, но расскажу я вам одну историю. Дело в том, что примерно месяц назад я намутил около 20 доменов с тиц 10+. Намутил сам и домены вроде бы должны были быть чистее чистого т.к до этого предположительно не юзались вебмастерами из рунета. Но не тут то было, создавая один за одинм на этих доменах сайты на разных хостерах в 80% случаев при добавлении этих сайтов в аддюрл мне яндекс писал, что «Ваш домен запрещен к индексации». Я естественно расстроился нехило, вроде и через вебархив смотрел и по бекам — все было чисто. Да и домены все в gltd зонах net com biz org. Ну что-ж подумал я, не судьба видимо. Чтобы обидно не было разместил я на всех сайтах по парочке адсенс блоков ну и забыл про сайты. А теперь после этого АПа решил я кое какой эксперимент провести, ну суть эксперимента не важна. Я про себя подумал — т.е если те домены, что я намутил когда-то проработали совсем с другим контентом около 2-3 месяцев, так может они стали добавляться в аддюрл, а если нет думаю, то массово напишу Платону в яндекс по поводу каждого из доменов, авось повезт и хотя-б несколько из них разбанят. Ну выбрал я рандомный домен и полез добавлять в аддюрл яндексовскую. И о чудо, именно сейчас мне написало, что мой сайт «Запрещен к индексации в файле robots.txt«. Хотя повторяю, 2-3 месяца назад когда я еще только создавал эти сайты была просто надпись о том, что «Указанный URL запрещен к индексации» и ни о каком файле robots.txt речи не шло. В итоге я залил файл в корень каждого домена robots.txt с содержимым :
Disallow: /cgi-bin/
Disallow: /tmp/
И о чудо, все домены начали добавляться в аддюрл, хотя пару минут до этого аддюрлка ругалась на плохой роботс.тхт. Сразу хочу оговорится — да не дооценил я robots.txt и уделил этому тээкстешнику очень мало внимания. Мои стандартные сборки движков, которые я юзал для ГСов вообще не содержали robots.txt. Этот блог кстати тоже не содержал его вообще, хотя почему-то индексировался. Так что robots.txt на блог я залил только пару минут назад. Странно это все. Также после случившегося я подумываю для СДЛов в роботс.тхт начать вписывать Sitemap через
Также хочу напомнить, что 2 недели назад Терехов в своем блоге terehoff.com писал о проблеме robots.txt. Его блог выкинул из индекса яндекс, Терехов сначала думал что попал под фильтр АГС-17 но потом Платон с яндекса обяснил ему, что он вылетел из индекса из за неправильно настроенного файла robots.txt. Хотел я ссылку на эту статью на блоге Терехова дать, так блог не пашет его, пишет «Базаданных еррор». Это наверное из за того, что у него на блоге было по двадцать штук анимационных баннеров везде где только можно + на 2к знаков текста приходилось по десять внешних ссылок. А еще у меня всегда опера зависала когда я на его блог заходил xD) Не ну реально зависала и щас хотел ссылку на статью дать, а она опять зависла) Так что так вот, дорогие мои читатели, я уверен что у каждого есть своя сборка своего любимого движка для своих любимых гавносайтов. Вот пожалуйста, зайдите в эту сборку и проверьте на всякий случай — есть ли там robots.txt или нет.

Хочешь быть в курсе свежих обновлений?
Подписывайся на RSS-фид сайта!
Последние записи
Комментарии по теме : "Повесть о важности robots.txt"
Ха-ха, вот блин. У самого несколько сайтов нельзя было добавить в панель. Сейчас попробую создать роботс, если поможет — буду очень рад)
У меня мой бложик в яндексе не индексировался.
Писал в саппорт много раз — ответ только недавно получил, да и то, допёр до всего сам! Яндекс считал основным http://www.islayter.com, а на самом деле это был islayter.com. При этом, при запросе с http://www., посылался заголовок 302 (Moved temporarily) и Location на islayter.com. Это проделки моего кривого хостера были.
Причём в факе яндекса написано, что, мол они корректно такие вещи обрабатывают))) хныы — куда там!
Итак, ещё важно знать, даже если у вас нет мест, которые вы хотите запретить для индексации, то всё равно не забывайте о соответствующей директиве «Disallow:» (просто не пишите ничего после двоеточия), иначе яндекс некорректно обработает ваш robots.txt.
«Итак, ещё важно знать, даже если у вас нет мест, которые вы хотите запретить для индексации, то всё равно не забывайте о соответствующей директиве “Disallow:” (просто не пишите ничего после двоеточия), иначе яндекс некорректно обработает ваш robots.txt.» — почему же я раньше этого не прочитал, мучился оч долго!!)))))
где можно почитать, как правильно его (роботс.тхт) настроить, чтобы подобных и похожих проблем не возникало?
getalifejerk, http://robotstxt.org.ru/
Вы не правы,без роботса сайт прекрасно добавляется в аддурилку и индексируется.Был пример 4 дня назад и сегодня .
у меня тоже примеров очень много, когда без роботса индексируются, но после тех проблем, о которых я написал я не хочу рисковать и на все сайты всегда заливаю роботс.тхт
Henzo +1 — robots.txt is very important. Even if you does not see a problem now later it can appear (e.g. main mirror with «www.» or without it — I’ve get a lot of problems with my blog indexing at yandex with it).
Блин проблема что делать подскажите
Указанный URL запрещен к индексации в файле robots.txt на сайте .
Подробнее о файле robots.txt вы можете прочитать в FAQ.
что мне делать?
Всякие слова о_0
Облако тегов плагина Tagnetic Poetry (русская версия плагина) требует для просмотра
Статистика блога:
- Количество записей в блоге: 94
- Количество комментариев: 339


31/10/2009