Парсер Sitemap

Собирает все URL из переданных sitemap.xml и индекс-карт, показывает превью (до 50 URL) и даёт одноразовые ссылки на выгрузку. Подходит для быстрой проверки структуры сайта и подготовки списков URL для дальнейшей обработки.

Назад к инструментам
Пример ввода:
https://example.com/sitemap.xml
https://example.com/sitemap_news.xml
https://shop.example.com/sitemap.xml.gz

Как это работает

  1. Вставьте по одному URL sitemap.xml на строку (поддерживаются .xml и .xml.gz).
  2. Нажмите «Запустить парсинг» — индекс-карты (<sitemapindex>) раскроются автоматически.
  3. После завершения посмотрите превью первых 50 URL и скачайте полный результат по одноразовым ссылкам.

Если сайтмап недоступен (например, 404 или приватный доступ), статус появится в уведомлениях консоли сервера; итоговый список формируется из успешно обработанных карт.

Что на выходе

  • CSV/TXT со списком уникальных URL, отсортированных по доменам.
  • Превью: первые 50 URL для визуальной проверки.
  • Дата/время парсинга и источник могут учитываться в служебных логах сервера для диагностики.

Поддержка и лимиты

  • Поддерживаются обычные карты (<urlset>) и индекс-карты (<sitemapindex>), включая сжатые .xml.gz.
  • Рекурсивный обход индекс-карт ограничен по глубине (по умолчанию 1 уровень для стабильности).
  • Стандарт протокола Sitemap: до ~50 000 URL на один файл и до ~50 МиБ несжатого XML.
Пример индекс-карты:
<sitemapindex>
  <sitemap><loc>https://example.com/sitemap-1.xml</loc></sitemap>
  <sitemap><loc>https://example.com/sitemap-2.xml.gz</loc></sitemap>
</sitemapindex>

Приватность

  • Введённые URL не сохраняются по завершении сессии.
  • Скачиваемые файлы размещаются временно и удаляются через 30 минут.

Подсказки

  • Один URL на строку.
  • Если видите мало URL — проверьте, не указывает ли sitemap.xml на пустые разделы, дубликаты поддоменов или закрытые секции.
  • Для очень больших сайтов разбивайте список сайтмапов на несколько запусков.