Расшифровка файла robots.txt

Расшифровка файла robots.txt
Материал добавлен: 23 Июня 2021
Материал обновлен: 23 Августа 2021

В данной статье мы рассмотрим материал: Расшифровка файла Robots.txt для uCoz и uWeb, в котором подробно рассмотрим какая директива и для чего предназначена и как можно улучшить роботс и что можно удалить.

На данный момент в uCoz и uWeb robots.txt настроен так, чтобы запретить к индексации лишь необходимые страницы, точнее системные ненужные и страницы дубли, которые не должны отображаться в поиске. Соответственно, все остальное доступно к индексации, так как что не запрещено значит разрешено, хотя для робота Google нет слова запрещено с временем вы это поймете.

Отметим, если вы не понимаете зачем создан системный файл роботс и для чего в нем приписаны и запреты и разрешения, удалять не обдумав ничего нельзя и устанавливать сторонний роботс, который вы нашли в сети интернет, который не предназначен для Юкоз так же не нужно. 

Если вы необдуманно удалите системный и установите сторонний роботс, на таких сайтах с временем в поиске появляются тысячи системных страниц, которые там не должны быть, которые вредят посещаемости сайта.

Как выглядит системный файл Robots.txt ?

User-agent: *
Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.png
Allow: /*.gif
Allow: /*?page
Allow: /*?ref=
Disallow: /*?
Disallow: /stat/
Disallow: /index/1
Disallow: /index/3
Disallow: /register
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /index/sub/
Disallow: /panel/
Disallow: /admin/
Disallow: /informer/
Disallow: /secure/
Disallow: /poll/
Disallow: /search/
Disallow: /abnl/
Disallow: /*_escaped_fragment_=
Disallow: /*-*-*-*-987$
Disallow: /shop/order/
Disallow: /shop/printorder/
Disallow: /shop/checkout/
Disallow: /shop/user/
Disallow: /shop/search
Disallow: /*0-*-0-17$
Disallow: /*-0-0-

Sitemap: http://sitename.ucoz.ru/sitemap.xml
Sitemap: http://sitename.ucoz.ru/sitemap-forum.xml

Расшифровка Robots.txt

Описание каждой строки файла robots.txt для uCoz и uWeb: 

User-agent: *

общее обращение ко всем сканерам, читающим файл robots.txt

Allow: /*.js

Allow: /*.css

Allow: /*.jpg

Allow: /*.png

Allow: /*.gif  

Эти директивы разрешают индексирование скриптов, картинок, файлов стилей. нужны они для избежания ошибок заблокированные ресурсы на проверках эмуляторов

Allow: /*?page

Разрешение страниц пагинации на главных страницах модулей (связанно со строчкой Disallow: /*? )

Allow: /*?ref=

Нужна для правильной переиндексации компонентов социальной регистрации

Disallow: /*?

Запрет к индексации поисковых запросов, кода безопасности на uCoz, проксированных ссылок, компонентов рекламного баннера, дублей главной страницы и блога (компоненты кода системы, связанные с сессиями ssid), дубли ссылок на изображения в фотоальбомах, других мусорных компонентов системы

Disallow: /stat/

Запрет индексации компонента счетчика статистики (картинка с данными)

Disallow: /index/1

Техническая страница входа / авторизации

Disallow: /index/3

Запрет индексации страницы регистрации (локальная регистрация)

Disallow: /register

Запрет индексации страницы регистрации (социальная и uID регистрация)

Disallow: /index/5

Запрет к индексации аякс окна напоминания пароля в старой форме входа

Disallow: /index/7

Служебная страница выбора аватара из коллекции

Disallow: /index/8

Запрет к индексации профилей пользователей (один из способов защиты от спама)

Disallow: /index/9

Запрет индексации аякс окна Доступ запрещен

Disallow: /index/sub/

Запрет к индексации локальной авторизации (связано со старой формой входа)

Disallow: /panel/ 

Запрет к индексации входа в панель управления

Disallow: /admin/

Запрет к индексации входа в панель управления

Disallow: /informer/

Запрет к индексации информеров, вставленных скриптом (при этом содержимое информеров, вставленных системным кодом $MYINF_х$ будет индексироваться свободно)

Disallow: /secure/

Запрет на индексацию кода безопасности (связано со строчкой Disallow: /*?)

Disallow: /poll/

Запрет индексации служебной папки опросов

Disallow: /search/

Запрет индексации страницы поиска, тегов и поисковых запросов (связано со строчкой Disallow: /*?)

Disallow: /abnl/

Запрет индексации компонентов системного рекламного баннера (для сайтов с не отключенной рекламой)

Disallow: /*_escaped_fragment_=

Запрет технического компонента кода

Disallow: /*-*-*-*-987$

Запрет дублей страниц в модулях Новости и Блог, связанных с кодом комментариев на странице

Disallow: /shop/checkout/

Запрет к индексации корзины и кода оформления заказа для Интернет магазина

Disallow: /shop/user/

Запрет к индексации пользователей магазина (субагенты)

Disallow: /*0-*-0-17$

Запрет к индексации различных фильтров, страниц материалов пользователя, ссылки на последнее сообщение форума, дублей системы и т.д

Disallow: /*-0-0-

Запрет к индексации страниц добавления материалов, списков материалов пользователей, ленточного варианта форума (некоторые дублирующие URL), страниц со списком пользователей (некоторые дублирующие URL), поиска по форуму, правил форума, добавления тем на форуме, различные фильтры (с дублями), страницы с редиректами на залитые на сервер файлы

Sitemap: //адрес сайта/sitemap.xml

Общая карта сайта

Sitemap: //адрес сайта/sitemap-forum.xml

Карта форума (оставлять в файле, если активирован модуль форум)

Sitemap: //адрес сайта/sitemap-shop.xml

Карта магазина (прописывать только, если активирован модуль Интернет магазин)

Host: адрес сайта без https://

Прописывать, если прикреплен домен для определения главного зеркала. директива прописывается в любом месте robots, предназначена для Яндекса, при этом отдельное обращение к роботам Яндекса не нужно. Google игнорируется. На данный момент директива Host Яндексом перестала учитываться и прописывать её не надо.

От чего можно избавиться в файле Robots.txt ?

Если вы не используете модуль Интернет-магазин, с файла роботс можно удалить следующие директивы:

Disallow: /shop/order/
Disallow: /shop/printorder/
Disallow: /shop/checkout/
Disallow: /shop/user/
Disallow: /shop/search
Sitemap: //адрес сайта/sitemap-shop.xml

Если вы не используете модуль Форум, можно удалить карту сайта для форума:

Sitemap: //адрес сайта/sitemap-forum.xml

Что можно добавить, чтобы улучшить файл Robots.txt ?

Можно добавить в самом начале файла роботс перед всем содержимым директиву с доступом для мобильного робота гугла:

User-agent:Googlebot-Mobile
Allow: /

это позволит мобильному роботу без проблем сканировать ваш сайт.

С наших рекомендаций, после директив с доступом индексировать изображения сайта, стоит и добавить доступ к индексации шрифтов на сайте, чтобы роботы имели полный доступ к сайту и корректно его видели с шрифтами, которые на сайте подключены.

В роботс стоит добавить директивы:

Allow: /*.ttf
Allow: /*.woff
Allow: /*.woff2
Allow: /*.eot
Allow: /*.svg

это существенно улучшит отображение вашего сайта для поисковиков и они будут корректно видеть сайт с вашими шрифтами.

В дополнение, было замечено по отчетам с индексации яндекса, что робот посещает страницу регистрации и находит сгенерированные урл подобно /confirm/ и индексирует их. Для решения данной проблемы рекомендую в роботс добавить директиву:

Disallow: /confirm/

это сохранит ваш сайт от индексации мусора.

Для борьбы с дублями в модуле Интернет-магазин, в роботс можно добавить такие директы:

Disallow: /shop/*comm
Disallow: /shop/*spec
Disallow: /shop/*imgs
Disallow: /shop/all/
Disallow: /shop/*;

эти директивы закроют от индексации подстраницы модуля магазин, которые не несут пользы в поиске и страницы переключателей страниц в модуле магазин.

На данном этапе мы закончим материал, если будут обновления, мы их добавим в статью. Всем спасибо!

Расшифровка файла robots.txt