Перфоманс
Стратегия
Аналитика
SЕО
Аутрич
Производства
B2B
Техника
SaaS-сервисы
SEO
Robots.txt и sitemap.xml — два файла, управляющие взаимодействием сайта с поисковыми роботами. Robots.txt указывает, какие разделы сайта сканировать, а какие — нет. Sitemap.xml содержит список всех страниц, подлежащих индексации. Вместе они формируют «карту и правила» для робота: куда ходить, куда не ходить, что индексировать.
Ошибки в этих файлах блокируют индексацию. Закрытый в robots.txt раздел каталога — сотни страниц вне выдачи. Отсутствующий sitemap — замедление индексации новых страниц. Обе проблемы — в категории «блокирующих» при техническом аудите.
Файл robots.txt располагается в корне сайта (site.ru/robots.txt) и содержит директивы для роботов.
User-agent: указывает, для какого робота правило. User-agent: * — для всех. User-agent: Yandex — только для Яндекса. User-agent: Googlebot — только для Google.
Disallow: запрещает сканирование. Disallow: /admin/ — закрыть админку. Disallow: /cart/ — закрыть корзину. Disallow: /*?sort= — закрыть параметры сортировки.
Allow: разрешает сканирование внутри закрытого раздела. Allow: /admin/public/ при Disallow: /admin/ — открыть публичный подраздел.
Sitemap: указывает расположение карты сайта. Sitemap: https://site.ru/sitemap.xml
Host (только для Яндекса, устаревшая): указывает предпочтительное зеркало. Host: https://site.ru. В 2026 году Яндекс рекомендует настраивать зеркала через Яндекс.Вебмастер.
Sitemap.xml — XML-файл со списком URL, которые вы хотите видеть в индексе. Для каждого URL указываются: адрес (loc), дата последнего изменения (lastmod), приоритет (priority), частота обновления (changefreq).
Генерация: автоматическая через SEO-плагин (Yoast, Rank Math для WordPress), через CMS (Bitrix), или через онлайн-генераторы (xml-sitemaps.com). Для крупных сайтов — программная генерация через скрипты.
Ограничения: не более 50 000 URL и 50 МБ в одном файле. Для крупных сайтов — индексный sitemap, ссылающийся на дочерние: sitemap-index.xml → sitemap-catalog.xml, sitemap-blog.xml.
Отправка: Яндекс.Вебмастер → Индексирование → Файлы Sitemap. Google Search Console → Файлы Sitemap. Оба сервиса показывают количество URL в sitemap и количество проиндексированных — расхождение более 20% сигнализирует о проблемах.
Robots.txt и sitemap — технические инструменты, которые обслуживают содержательную стратегию. Если Карта смыслов определила структуру сайта (какие страницы нужны, что на них должно быть), robots.txt и sitemap обеспечивают, чтобы именно эти страницы попали в индекс, а мусорные (параметрические дубли, служебные разделы) — не попали.
Распространённая ошибка: создание sitemap до определения структуры. В результате в sitemap попадают страницы-заглушки, пустые категории и тестовые разделы. Правильный порядок: определить структуру (какие страницы нужны на основе семантики и CJM) → создать страницы с содержанием → сгенерировать sitemap только для готовых страниц → исключить в robots.txt служебные разделы.
«Robots.txt и sitemap — не самостоятельные задачи, а часть технического фундамента. Они обслуживают стратегию: помогают роботу увидеть то, что вы хотите показать, и не видеть то, что не нужно.»
2005–2012: robots.txt — основной инструмент управления индексацией. Sitemap — опционален. 2012–2018: Google перестал поддерживать директиву noindex в robots.txt. Sitemap стал стандартом. 2019–2026: robots.txt по-прежнему управляет сканированием, но не индексацией (для этого — метатег noindex). Sitemap критичен для крупных сайтов с частым обновлением контента. Для AI-выдачи sitemap помогает нейросетям обнаруживать актуальный контент.
Для сайта из 10–20 страниц robots.txt и sitemap настраиваются за 15 минут и не требуют последующего обслуживания. Время лучше потратить на содержание страниц. Для крупного сайта (1 000+ URL) — это критически важные файлы, требующие мониторинга: ошибки в robots.txt или устаревший sitemap приводят к массовым проблемам с индексацией.
Проблема: Разработчик перенёс сайт на новый сервер и забыл обновить robots.txt. Директива Disallow: / (запретить всё) осталась с этапа разработки. Через 2 недели сайт выпал из индекса.
Решение: Немедленно исправить robots.txt: убрать Disallow: /. Отправить sitemap в панели вебмастеров. Запросить переиндексацию ключевых страниц. Восстановление — 1–4 недели. Профилактика: после любой миграции проверять robots.txt и sitemap в первый час.
Проблема: В sitemap — 5 000 URL, проиндексировано — 1 200. Причина неизвестна.
Решение: Проверить: нет ли в robots.txt запрета на часть URL, отдают ли страницы код 200 (не 4xx, 5xx), нет ли дублей (canonical направляет не туда), содержат ли страницы уникальный контент (пустые и дублированные не индексируются). SEO-оптимизация индексации — проверить каждый слой: robots → коды ответа → canonical → контент.
«Ошибка в robots.txt — блокирующая. Весь контент, все смыслы, все тексты — бесполезны, если робот не может до них добраться. Проверяйте robots.txt после каждого обновления сайта.»
Robots.txt управляет доступом роботов, sitemap.xml — списком страниц для индексации. Оба файла — технический фундамент, обслуживающий содержательную стратегию. Настраиваются за 15–30 минут для небольших сайтов, требуют мониторинга для крупных. Ошибки в robots.txt — блокирующие: весь контент и все смысловые доработки бесполезны, если робот не может сканировать сайт. Проверяйте после каждого обновления.
Технически — нет: без robots.txt роботы сканируют весь сайт. Практически — да: без него индексируются служебные разделы (админка, корзина, дубли), засоряя индекс. Для любого коммерческого сайта robots.txt обязателен.
Robots.txt запрещает сканирование, не индексацию. Если на страницу ведут внешние ссылки — Google может проиндексировать её даже без сканирования (покажет URL без описания). Для запрета индексации используйте метатег noindex в HTML-коде страницы. Robots.txt + noindex вместе — максимальная защита.
При каждом добавлении или удалении страниц. SEO-плагины (Yoast, Rank Math) обновляют sitemap автоматически при публикации новой страницы. Для программно генерируемых sitemap — настройте cron-задачу на ежедневное обновление. Проверяйте в Search Console раз в неделю: количество URL в sitemap vs. проиндексированных.
Google игнорирует priority и changefreq — эти поля не влияют на частоту сканирования и ранжирование. Яндекс учитывает их минимально. Обязательные поля: loc (URL) и lastmod (дата последнего изменения). Lastmod помогает роботу определить, нужно ли пересканировать страницу.
Начните с Карты смыслов.
Даю согласие на обработку моих персональных данных в соответствии с Политикой конфиденциальности
Нажимая кнопку «Отправить заявку» я соглашаюсь с политикой конфиденциальности и обработки персональных данных
Или напишите нам: