Откуда робот Яндекса находит несуществующие адреса?

голоса: 0

Робот Янндекса ходит по каким-то левым адресам вида "имя_сайта/06hRv80&"

из-за этого постоянно стали появляться сообщения об ошибках на стороне сервера или сайта:

Кроме того, ещё робот ходил по длиннющим каким-то адресам вида "http://torm-egan.ru/index/sub/?99---http://torm-egan.ru/publ/comedy/steins_gate_ona/8-1-0-178?v_NDkFM&rdata=YTJXVG4wbVdPQ0ZVNUtkMEUzQ1phdmkhU1g0djBjVWVHXmZuU1RjWHNxek80T25oT3ohOW5LO3k1%0ARGwyeXRZQ0NrTFpiTjtOVHN5Q1UyTkg1IV5TMmppOGZhVXNwMGtXRHR3XmVjS0NpRUJQTztaSFpE%0AWk96UnZQWUt5ZDFEYjZoc0U3V1R1cVpRU3hlVEY0Mmp5TlJSTUN0eG5xdjBoR0FDIWNJRDFTUk1I%0AZVloT2NzS09OWWoxMXFKN1l3TWlZdjJQSXpSdXhWcVpqemthMCFlMWlNaDRqcmljRHBhUDFPNlhX%0AUjl4T1RMdWdoOGE0NDZMM1Z3S3pKdkJ5NVFqO2JVcTdqV1VtRjVoSkxFTEVNdmJHeUNCeEZ1aUw1%0ARjdOUnpebG1DRSFocTNrTjlxZWl5NmJ6UVNhZDV2aDZNNjMyODJSbEVuVGEzT0NXQ1pwYzI3RWtN%0ASzJuSGZRS3pIc0daWlF4UEsyUnR4YVhXTDRNYjNzMXZxO05VVm1rMHFGT3JYZmxeaWFYV2xecTMh%0ANE5QOzFxO09YYnowWUkwdU1oIXI7MDBna25EUTBNWmhsSFN6IVdrTmRnemg7TTAhQnpHOzlDOGxO%0AUGsydkZjUHJNTjluYTZuMlJWSEJrR2J0djVlZTsyVWJ2dTlv%0A", но это вроде удалось поборость добавлением "/index/sub" в robots.txt

Вся эта ерунда началась с 25.04.2016. Ну вот что произошло в этот день? Робот почти всегда заходит на 24-25 подобную страницу, ещё и некоторые умудряется добавить в индекс.

Адрес сайта http://torm-egan.ru/
| Автор: | Категория: Яндекс Вебмастер

Ответов: 1

Голоса: +1
 
Лучший ответ

В файле robots.txt у вас отсутсвует универсальная строчка

Disallow: /*?

Добавьте её

| Автор:
Выбор ответа лучшим | | Автор: Yuri_Geruk

спс, добавил. Посмотрим что будет дальше ^^

 

дальше проблема с добавлением произвольных символов в адреса. эта проблема из-за плееров. а именно вот эту часть он выдирает

<div id="content_player_1" class="player_box" data-url="0B7G_-UEI_8tuY0RTaUYwSlFSbDA"> </div>
<div id="content_player_2" class="player_box" data-url="1882356"> </div>
<div id="content_player_3" class="player_box" data-url="0B7G_-UEI_8tuTF9sUDUtd2ZCVHc"> </div>
<div id="content_player_4" class="player_box" data-url="1882366"> </div>
webanet,
и где тут адреса?

адресов нет, но робот формирует адреса data-url="1882356

webanet,

Ну тогда я бы нашёл подобные в Яндекс.Вебмастер. И с какого перепуга роботу брать c data-тега первые 7 символов (которые кстати нигде и не встречаются/не обнаружены), добавлять символ "&" и лепить это к домену?

Даже если допустить такое поведение робота, то всё равно не клеется - в яндексе символы с разным регистром (06hRv80& - 0I8VNFv& - 8AXOh7E& - 8S7FPi4& - BJWN1eu& - и т.д.), а в data-url обычно либо чисто цифры, или цифры+abcdef. Другого такого больше нет. То что в куске выше - исключение добавленное на днях. 
Сомневаюсь что если бы я назвал data-nyaurl, то проблы бы сейчас не было.

Единственное подходящее под "[\w]{7}&" - относится к ucoz. И это как раз на главной странице. Более того, количество страниц в составленной структуре сайта роботом равно 25. Как раз общее количество страниц с материалами.

С /index/sub/?99--- не разбирался особо, но тоже как-то странно. Не ясно с чего это стало появляться. Но это фиг с ним. Не в структуре - и ладно.

добавлять символ "&"

где в ваших примерах присутствуют примеры с символом? если беспокоит именно это, то в роботс Disallow: /*&*

после установки строчки можете проверить примеры урлов тут https://webmaster.yandex.ua/robots.xml

 

webanet,

где в ваших примерах присутствуют примеры с символом?

Первое предложение в топике. Первый скрин.  

Раздел Загружено страниц
06hRv80& 25
 0I8VNFv& 25
8AXOh7E& 25

 

 в роботс Disallow: /*&*

и это придётся добавить.

В общем, нифига не помогло. 15 мая робот опять шастал по какому-то адресу "torm-egan.ru/06hRv80&"

...