Расшифровка файла robots.txt
На данный момент в uCoz и uWeb файл robots.txt настроен таким образом, чтобы запретить к индексации только действительно ненужные системные страницы и дубли, которые не должны отображаться в поиске. Всё остальное доступно для индексации — ведь если не запрещено, значит разрешено. Хотя, стоит учитывать, что для GoogleBot такого понятия как «запрещено» не существует — вы это со временем поймёте.
Если необдуманно удалить системный файл и установить сторонний robots.txt, то со временем в поиске начнут появляться тысячи системных страниц, которые вредят индексации и посещаемости вашего сайта.
Как выглядит системный файл robots.txt?
User-agent: * Allow: /*.js Allow: /*.css Allow: /*.jpg Allow: /*.png Allow: /*.gif Allow: /*?page Allow: /*?ref= Disallow: /*? Disallow: /stat/ Disallow: /index/1 Disallow: /index/3 Disallow: /register Disallow: /index/5 Disallow: /index/7 Disallow: /index/8 Disallow: /index/9 Disallow: /index/sub/ Disallow: /panel/ Disallow: /admin/ Disallow: /informer/ Disallow: /secure/ Disallow: /poll/ Disallow: /search/ Disallow: /abnl/ Disallow: /*_escaped_fragment_= Disallow: /*-*-*-*-987$ Disallow: /shop/order/ Disallow: /shop/printorder/ Disallow: /shop/checkout/ Disallow: /shop/user/ Disallow: /shop/search Disallow: /*0-*-0-17$ Disallow: /*-0-0- Sitemap: http://sitename.ucoz.ru/sitemap.xml Sitemap: http://sitename.ucoz.ru/sitemap-forum.xml
Расшифровка robots.txt
Описание каждой строки файла robots.txt для uCoz и uWeb:
User-agent: *
Общее обращение ко всем сканерам, читающим файл robots.txt.
Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.png
Allow: /*.gif
Эти директивы разрешают индексирование скриптов, картинок, файлов стилей. Нужны они для избежания ошибок «заблокированные ресурсы» при проверках эмуляторов.
Allow: /*?page
Разрешение страниц пагинации на главных страницах модулей (связано со строчкой Disallow: /*?).
Allow: /*?ref=
Нужна для правильной переиндексации компонентов социальной регистрации.
Disallow: /*?
Запрет индексации поисковых запросов, кода безопасности на uCoz, проксированных ссылок, компонентов рекламного баннера, дублей главной страницы и блога (компоненты кода системы, связанные с сессиями ssid), дублей ссылок на изображения в фотоальбомах и других мусорных компонентов системы.
Disallow: /stat/
Запрет индексации компонента счётчика статистики (картинка с данными).
Disallow: /index/1
Техническая страница входа / авторизации.
Disallow: /index/3
Запрет индексации страницы регистрации (локальная регистрация).
Disallow: /register
Запрет индексации страницы регистрации (социальная и uID-регистрация).
Disallow: /index/5
Запрет индексации AJAX-окна напоминания пароля в старой форме входа.
Disallow: /index/7
Служебная страница выбора аватара из коллекции.
Disallow: /index/8
Запрет индексации профилей пользователей (один из способов защиты от спама).
Disallow: /index/9
Запрет индексации AJAX-окна "Доступ запрещён".
Disallow: /index/sub/
Запрет индексации локальной авторизации (связано со старой формой входа).
Disallow: /panel/
Запрет индексации входа в панель управления.
Disallow: /admin/
Запрет индексации входа в панель управления.
Disallow: /informer/
Запрет индексации информеров, вставленных скриптом (при этом содержимое информеров, вставленных системным кодом $MYINF_х$, будет индексироваться свободно).
Disallow: /secure/
Запрет индексации кода безопасности (связано со строчкой Disallow: /*?).
Disallow: /poll/
Запрет индексации служебной папки опросов.
Disallow: /search/
Запрет индексации страницы поиска, тегов и поисковых запросов (связано со строчкой Disallow: /*?).
Disallow: /abnl/
Запрет индексации компонентов системного рекламного баннера (для сайтов с неотключенной рекламой).
Disallow: /*_escaped_fragment_=
Запрет технического компонента кода.
Disallow: /*-*-*-*-987$
Запрет дублей страниц в модулях «Новости» и «Блог», связанных с кодом комментариев на странице.
Disallow: /shop/checkout/
Запрет индексации корзины и кода оформления заказа для интернет-магазина.
Disallow: /shop/user/
Запрет индексации пользователей магазина (субагенты).
Disallow: /*0-*-0-17$
Запрет индексации различных фильтров, страниц материалов пользователя, ссылок на последнее сообщение форума, дублей системы и т. д.
Disallow: /*-0-0-
Запрет индексации страниц добавления материалов, списков материалов пользователей, ленточного варианта форума (некоторые дублирующие URL), страниц со списком пользователей (некоторые дублирующие URL), поиска по форуму, правил форума, добавления тем на форуме, различных фильтров (с дублями), страниц с редиректами на залитые на сервер файлы.
Sitemap: //адрес сайта/sitemap.xml
Общая карта сайта.
Sitemap: //адрес сайта/sitemap-forum.xml
Карта форума (оставлять в файле, если активирован модуль «Форум»).
Sitemap: //адрес сайта/sitemap-shop.xml
Карта магазина (прописывать только, если активирован модуль «Интернет-магазин»).
Host: адрес сайта без https://
Прописывать, если прикреплён домен для определения главного зеркала. Директива прописывается в любом месте файла robots.txt, предназначена для Яндекса. Отдельное обращение к роботам Яндекса не нужно. Google её игнорирует. На данный момент директива Host Яндексом перестала учитываться, и прописывать её не нужно.
От чего можно избавиться в файле robots.txt?
Если вы не используете модуль Интернет-магазин, можно удалить следующие строки:
Disallow: /shop/order/ Disallow: /shop/printorder/ Disallow: /shop/checkout/ Disallow: /shop/user/ Disallow: /shop/search Sitemap: //адрес сайта/sitemap-shop.xml
Если вы не используете модуль "Форум", можно удалить карту сайта форума:
Sitemap: //адрес сайта/sitemap-forum.xml
Что можно добавить, чтобы улучшить файл robots.txt?
Рекомендуется добавить в начало файла директиву для мобильного Google-бота:
User-agent: Googlebot-Mobile Allow: /
Это позволит мобильному боту корректно сканировать сайт.
Также полезно разрешить индексацию шрифтов, чтобы сайт корректно отображался в поисковой выдаче.
Allow: /*.ttf Allow: /*.woff Allow: /*.woff2 Allow: /*.eot Allow: /*.svg
Также рекомендуется добавить директиву:
Disallow: /confirm/
Это предотвратит индексацию сгенерированных URL, связанных со страницами регистрации.
Для борьбы с дублями в модуле Интернет-магазин можно добавить:
Disallow: /shop/*comm Disallow: /shop/*spec Disallow: /shop/*imgs Disallow: /shop/all/ Disallow: /shop/*;
Эти директивы закроют от индексации страницы переключателей и бесполезные подстраницы магазина.
На этом этапе материал завершён. При появлении обновлений — статья будет дополнена. Спасибо за внимание!