+7 (499) 647-60-34 Заказать звонок
SEO

Robots.txt и sitemap.xml: настройка для поисковых систем

Robots.txt и sitemap.xml — два файла, управляющие взаимодействием сайта с поисковыми роботами. Robots.txt указывает, какие разделы сайта сканировать, а какие — нет. Sitemap.xml содержит список всех страниц, подлежащих индексации. Вместе они формируют «карту и правила» для робота: куда ходить, куда не ходить, что индексировать.

Ошибки в этих файлах блокируют индексацию. Закрытый в robots.txt раздел каталога — сотни страниц вне выдачи. Отсутствующий sitemap — замедление индексации новых страниц. Обе проблемы — в категории «блокирующих» при техническом аудите.

Robots.txt: как устроен и что настраивать

Файл robots.txt располагается в корне сайта (site.ru/robots.txt) и содержит директивы для роботов.

User-agent: указывает, для какого робота правило. User-agent: * — для всех. User-agent: Yandex — только для Яндекса. User-agent: Googlebot — только для Google.

Disallow: запрещает сканирование. Disallow: /admin/ — закрыть админку. Disallow: /cart/ — закрыть корзину. Disallow: /*?sort= — закрыть параметры сортировки.

Allow: разрешает сканирование внутри закрытого раздела. Allow: /admin/public/ при Disallow: /admin/ — открыть публичный подраздел.

Sitemap: указывает расположение карты сайта. Sitemap: https://site.ru/sitemap.xml

Host (только для Яндекса, устаревшая): указывает предпочтительное зеркало. Host: https://site.ru. В 2026 году Яндекс рекомендует настраивать зеркала через Яндекс.Вебмастер.

Что закрывать и что оставлять открытым

Раздел Директива Причина
Админ-панель (/admin/, /wp-admin/) Disallow Безопасность, нет ценности для поиска
Корзина, личный кабинет Disallow Персональные данные, нет ценности
Параметры сортировки и фильтрации Disallow (или noindex) Генерируют тысячи дублей
Результаты внутреннего поиска Disallow Дубли, низкое качество
Страницы пагинации (?page=) Оставить открытыми Содержат ссылки на товары/статьи
CSS и JavaScript Оставить открытыми Google требует для рендеринга
Каталог, услуги, блог Оставить открытыми Основной контент для индексации
Изображения Оставить открытыми Нужны для поиска по картинкам

Sitemap.xml: формат и генерация

Sitemap.xml — XML-файл со списком URL, которые вы хотите видеть в индексе. Для каждого URL указываются: адрес (loc), дата последнего изменения (lastmod), приоритет (priority), частота обновления (changefreq).

Генерация: автоматическая через SEO-плагин (Yoast, Rank Math для WordPress), через CMS (Bitrix), или через онлайн-генераторы (xml-sitemaps.com). Для крупных сайтов — программная генерация через скрипты.

Ограничения: не более 50 000 URL и 50 МБ в одном файле. Для крупных сайтов — индексный sitemap, ссылающийся на дочерние: sitemap-index.xml → sitemap-catalog.xml, sitemap-blog.xml.

Отправка: Яндекс.Вебмастер → Индексирование → Файлы Sitemap. Google Search Console → Файлы Sitemap. Оба сервиса показывают количество URL в sitemap и количество проиндексированных — расхождение более 20% сигнализирует о проблемах.

Как robots.txt и sitemap связаны с общей SEO-стратегией

Robots.txt и sitemap — технические инструменты, которые обслуживают содержательную стратегию. Если Карта смыслов определила структуру сайта (какие страницы нужны, что на них должно быть), robots.txt и sitemap обеспечивают, чтобы именно эти страницы попали в индекс, а мусорные (параметрические дубли, служебные разделы) — не попали.

Распространённая ошибка: создание sitemap до определения структуры. В результате в sitemap попадают страницы-заглушки, пустые категории и тестовые разделы. Правильный порядок: определить структуру (какие страницы нужны на основе семантики и CJM) → создать страницы с содержанием → сгенерировать sitemap только для готовых страниц → исключить в robots.txt служебные разделы.

«Robots.txt и sitemap — не самостоятельные задачи, а часть технического фундамента. Они обслуживают стратегию: помогают роботу увидеть то, что вы хотите показать, и не видеть то, что не нужно.»

Как менялись требования к robots.txt и sitemap

2005–2012: robots.txt — основной инструмент управления индексацией. Sitemap — опционален. 2012–2018: Google перестал поддерживать директиву noindex в robots.txt. Sitemap стал стандартом. 2019–2026: robots.txt по-прежнему управляет сканированием, но не индексацией (для этого — метатег noindex). Sitemap критичен для крупных сайтов с частым обновлением контента. Для AI-выдачи sitemap помогает нейросетям обнаруживать актуальный контент.

Аргумент против: когда robots.txt и sitemap не приоритетны

Для сайта из 10–20 страниц robots.txt и sitemap настраиваются за 15 минут и не требуют последующего обслуживания. Время лучше потратить на содержание страниц. Для крупного сайта (1 000+ URL) — это критически важные файлы, требующие мониторинга: ошибки в robots.txt или устаревший sitemap приводят к массовым проблемам с индексацией.

Проблемы и решения

Проблема: Разработчик перенёс сайт на новый сервер и забыл обновить robots.txt. Директива Disallow: / (запретить всё) осталась с этапа разработки. Через 2 недели сайт выпал из индекса.

Решение: Немедленно исправить robots.txt: убрать Disallow: /. Отправить sitemap в панели вебмастеров. Запросить переиндексацию ключевых страниц. Восстановление — 1–4 недели. Профилактика: после любой миграции проверять robots.txt и sitemap в первый час.

Проблема: В sitemap — 5 000 URL, проиндексировано — 1 200. Причина неизвестна.

Решение: Проверить: нет ли в robots.txt запрета на часть URL, отдают ли страницы код 200 (не 4xx, 5xx), нет ли дублей (canonical направляет не туда), содержат ли страницы уникальный контент (пустые и дублированные не индексируются). SEO-оптимизация индексации — проверить каждый слой: robots → коды ответа → canonical → контент.

«Ошибка в robots.txt — блокирующая. Весь контент, все смыслы, все тексты — бесполезны, если робот не может до них добраться. Проверяйте robots.txt после каждого обновления сайта.»

Задача Инструмент Частота проверки
Robots.txt: нет блокировки основного контента Яндекс.Вебмастер → robots.txt валидатор После каждого обновления
Robots.txt: закрыты служебные разделы Ручная проверка + Screaming Frog Разово + при изменениях
Sitemap: содержит все целевые URL Сравнение с Screaming Frog crawl Ежемесячно
Sitemap: нет ошибочных URL (4xx, 5xx) Google Search Console Еженедельно
Sitemap: отправлен в панели вебмастеров Яндекс.Вебмастер, GSC Разово + при обновлении
CSS и JS не заблокированы Google Mobile-Friendly Test Разово

Заключение

Robots.txt управляет доступом роботов, sitemap.xml — списком страниц для индексации. Оба файла — технический фундамент, обслуживающий содержательную стратегию. Настраиваются за 15–30 минут для небольших сайтов, требуют мониторинга для крупных. Ошибки в robots.txt — блокирующие: весь контент и все смысловые доработки бесполезны, если робот не может сканировать сайт. Проверяйте после каждого обновления.

Часто задаваемые вопросы

Обязателен ли файл robots.txt?

Технически — нет: без robots.txt роботы сканируют весь сайт. Практически — да: без него индексируются служебные разделы (админка, корзина, дубли), засоряя индекс. Для любого коммерческого сайта robots.txt обязателен.

Можно ли через robots.txt запретить индексацию страницы?

Robots.txt запрещает сканирование, не индексацию. Если на страницу ведут внешние ссылки — Google может проиндексировать её даже без сканирования (покажет URL без описания). Для запрета индексации используйте метатег noindex в HTML-коде страницы. Robots.txt + noindex вместе — максимальная защита.

Как часто обновлять sitemap.xml?

При каждом добавлении или удалении страниц. SEO-плагины (Yoast, Rank Math) обновляют sitemap автоматически при публикации новой страницы. Для программно генерируемых sitemap — настройте cron-задачу на ежедневное обновление. Проверяйте в Search Console раз в неделю: количество URL в sitemap vs. проиндексированных.

Нужно ли указывать priority и changefreq в sitemap?

Google игнорирует priority и changefreq — эти поля не влияют на частоту сканирования и ранжирование. Яндекс учитывает их минимально. Обязательные поля: loc (URL) и lastmod (дата последнего изменения). Lastmod помогает роботу определить, нужно ли пересканировать страницу.

Хотите понять, почему ваш сайт не работает?

Начните с Карты смыслов.










    Реклама Реклама

    Автор кейса

    Богдан Минаков SEO-специалист

    Оставьте контакт и получите бесплатную диагностику вашего продвижения!

    • Позиционирование
    • Сайт
    • Аналитика
    • SEO
    • Реклама

    Подарок для Вас








      Нажимая кнопку «Отправить заявку» я соглашаюсь с политикой конфиденциальности и обработки персональных данных

      Оставьте заявку на консультацию