Robots.txt и Sitemap.xml: грамотная настройка

Q: Можно ли указать несколько Sitemap?

Да, перечислите все карты сайта построчно в robots.txt.

Q: Что делать, если robots.txt заблокировал сайт?

Удалите директиву Disallow: / и дождитесь переобхода поисковых систем.

Q: Можно ли закрыть sitemap.xml от индексации?

Да, файл карты сайта не должен индексироваться. Добавьте директиву Disallow: /sitemap.xml.

Q: Нужно ли указывать sitemap.xml в панели вебмастера?

Да, добавление вручную ускорит обновление индекса.

Q: Можно ли хранить robots.txt не в корне?

Нет, поисковые системы ищут его только по адресу /robots.txt.

Файлы robots.txt и sitemap.xml — два ключевых инструмента, которые управляют взаимодействием сайта с поисковыми системами. Неправильная настройка может «убить» индексацию, а грамотная — ускорить продвижение и улучшить контроль над SEO. Ниже — подробное руководство с примерами и кейсами.

1. Почему robots.txt и sitemap.xml важны для SEO

Файл robots.txtуправляет тем, какие разделы сайта можно сканировать, а какие — нет. Это «светофор» для поисковых роботов. Sitemap.xml— наоборот, помогает поисковым системам быстрее находить нужные страницы и понимать их структуру. Вместе эти два файла формируют основу технического SEO-контроля.

Без корректного robots.txtпоисковик может тратить краулинговый бюджет впустую.
Без актуальной sitemap.xmlновые страницы будут попадать в индекс с задержкой.
Ошибки в этих файлах часто приводят к «исчезновению» страниц из выдачи.

2. Что такое robots.txt: структура и синтаксис

Файл robots.txt— это обычный текстовый файл в корне сайта (example.com/robots.txt), который содержит директивы для поисковых агентов (user-agents).

Основные директивы:

User-agent:имя робота, для которого действуют правила (например, Googlebot, YandexBot).
Disallow:путь, запрещённый к обходу.
Allow:путь, разрешённый к обходу (используется, если внутри запрещённой папки есть исключения).
Crawl-delay:пауза между запросами (актуально для Яндекса, Bing, Mail.ru).
Sitemap:ссылка на карту сайта.

Пример базового robots.txt для коммерческого сайта:

User-agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /cgi-bin/
Allow: /uploads/
Crawl-delay: 5
Sitemap: https://example.com/sitemap.xml
Host: example.com

Комментарии в robots.txt начинаются с решётки #. Пустые строки и регистр значения не имеют.

3. Типичные ошибки в robots.txt

Полный запрет индексации.Ошибка «Disallow: /» блокирует всё, включая главную страницу.
Отсутствие Sitemap.Поисковик не находит карту сайта, если не указана ссылка.
Неверный синтаксис.Лишние пробелы, символы Unicode, неправильные слэши.
Несоответствие регистру.Для URL важно, для директив — нет, но всё же лучше придерживаться стандарта.
Закрытие CSS и JS.Современные поисковики требуют видеть все ресурсы страницы для корректного рендеринга.

Перед загрузкой файла на сервер обязательно протестируйте его в инструментах Google Search Console или Яндекс.Вебмастере.

4. Sitemap.xml: назначение и структура

Sitemap.xml— это карта сайта, в которой перечислены все важные URL для индексации. Поисковики используют её, чтобы понимать архитектуру и обновления ресурса.

Основные элементы Sitemap:

<url>— контейнер для одного адреса.
<loc>— URL страницы.
<lastmod>— дата последнего обновления.
<changefreq>— примерная частота обновлений.
<priority>— относительная важность (от 0.0 до 1.0).

Пример карты сайта:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>https://example.com/</loc> <lastmod>2025-10-01</lastmod> <changefreq>daily</changefreq> <priority>1.0</priority> </url> <url> <loc>https://example.com/blog/</loc> <lastmod>2025-09-20</lastmod> <changefreq>weekly</changefreq> <priority>0.8</priority> </url>
</urlset>

Карту сайта можно сжимать в формате .xml.gz. Если сайт большой — разрешено использовать до 50 000 URL в одном файле (или 50 МБ в несжатом виде). При необходимости делается индексная карта сайта — sitemap_index.xml.

5. Взаимосвязь robots.txt и sitemap.xml

Файлы связаны: ссылка на sitemap.xml обычно указывается в конце robots.txt. Это помогает поисковым системам сразу найти актуальную карту. Однако важно помнить — даже если в robots.txt запрещён раздел, его URL могут присутствовать в sitemap.xml, но они не будут индексироваться.

Пример правильного сочетания:

# robots.txt
User-agent: *
Disallow: /private/
Sitemap: https://example.com/sitemap.xml

Такой вариант позволяет роботам индексировать всё, кроме закрытого раздела, и при этом сразу получает ссылку на карту сайта.

6. Проверка и отладка файлов

Google Search Console → Проверка robots.txt.
Яндекс.Вебмастер → Анализ файла robots.txt.
XML Sitemap Validator— проверка синтаксиса карты сайта.
HTTP Status Checker— убедитесь, что оба файла отдают код 200.

Ни robots.txt, ни sitemap.xml не должны редиректить на другие URL или отдавать код 404. Это типичная ошибка, из-за которой поисковики теряют доступ к данным.

7. Практические кейсы и типовые шаблоны

7.1. Интернет-магазин

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /compare/
Allow: /catalog/
Sitemap: https://example.com/sitemap.xml

7.2. Корпоративный сайт

User-agent: *
Disallow: /admin/
Disallow: /drafts/
Sitemap: https://example.com/sitemap.xml

7.3. Блог

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://example.com/sitemap.xml

В CMS (WordPress, Joomla, Bitrix) карты сайта часто генерируются автоматически. Важно только, чтобы они не содержали закрытые или дублирующиеся страницы (например, архивы, фильтры, пагинацию).

8. Оптимизация индексации

Используя директивы в robots.txt, можно управлять краулингом и индексацией, но не всегда их путать. Robots.txt ограничивает обход, а не индексацию. Если нужно убрать страницу из поиска, используйте мета-тег noindexили HTTP-заголовок X-Robots-Tag.

Задача	Решение	Инструмент
Закрыть раздел от обхода	Disallow: /section/	robots.txt
Убрать из поиска, но оставить доступным	<meta name="robots" content="noindex,follow">	HTML
Полностью запретить индексацию файла	X-Robots-Tag: noindex	HTTP-заголовок

robots.txt управляет сканированием, а мета-теги и заголовки — индексацией.

FAQ: Robots.txt и Sitemap.xml

Можно ли указать несколько Sitemap?

Да. Если у вас несколько карт сайта — например, для блога и интернет-магазина, просто перечислите их по строкам в robots.txt.

Что делать, если robots.txt заблокировал сайт от индексации?

Уберите директиву Disallow: /и дождитесь переобхода. В Google это 2–7 дней, в Яндексе до 2 недель.

Можно ли закрыть sitemap.xml от индексации?

Да, файл карты сайта не должен индексироваться. Лучше закрыть его мета-тегом noindexили директивой в robots.txt.

Нужно ли указывать sitemap.xml в панели вебмастера?

Да. Добавьте ссылку в robots.txt и продублируйте её вручную в Google Search Console и Яндекс.Вебмастере — это ускорит индексацию.

Можно ли хранить robots.txt не в корне?

Нет. Роботы ищут его только по адресу example.com/robots.txt. Любое другое местоположение игнорируется.

9. Итоги

Файлы robots.txt и sitemap.xml — это простые, но мощные инструменты SEO-инфраструктуры. Они позволяют контролировать индексацию, экономить краулинговый бюджет и ускорять появление страниц в поиске. Настройте их один раз правильно, проверяйте периодически и обновляйте карту сайта при каждом изменении структуры.