Парсер Sitemap
Собирает все URL из переданных sitemap.xml и индекс-карт, показывает превью (до 50 URL) и даёт одноразовые ссылки на выгрузку.
Подходит для быстрой проверки структуры сайта и подготовки списков URL для дальнейшей обработки.
Как это работает
- Вставьте по одному URL
sitemap.xmlна строку (поддерживаются.xmlи.xml.gz). - Нажмите «Запустить парсинг» — индекс-карты (
<sitemapindex>) раскроются автоматически. - После завершения посмотрите превью первых 50 URL и скачайте полный результат по одноразовым ссылкам.
Если сайтмап недоступен (например, 404 или приватный доступ), статус появится в уведомлениях консоли сервера; итоговый список формируется из успешно обработанных карт.
Что на выходе
- CSV/TXT со списком уникальных URL, отсортированных по доменам.
- Превью: первые 50 URL для визуальной проверки.
- Дата/время парсинга и источник могут учитываться в служебных логах сервера для диагностики.
Поддержка и лимиты
- Поддерживаются обычные карты (
<urlset>) и индекс-карты (<sitemapindex>), включая сжатые.xml.gz. - Рекурсивный обход индекс-карт ограничен по глубине (по умолчанию 1 уровень для стабильности).
- Стандарт протокола Sitemap: до ~50 000 URL на один файл и до ~50 МиБ несжатого XML.
Пример индекс-карты:
<sitemapindex>
<sitemap><loc>https://example.com/sitemap-1.xml</loc></sitemap>
<sitemap><loc>https://example.com/sitemap-2.xml.gz</loc></sitemap>
</sitemapindex>
<sitemapindex>
<sitemap><loc>https://example.com/sitemap-1.xml</loc></sitemap>
<sitemap><loc>https://example.com/sitemap-2.xml.gz</loc></sitemap>
</sitemapindex>
Приватность
- Введённые URL не сохраняются по завершении сессии.
- Скачиваемые файлы размещаются временно и удаляются через 30 минут.
Подсказки
- Один URL на строку.
- Если видите мало URL — проверьте, не указывает ли
sitemap.xmlна пустые разделы, дубликаты поддоменов или закрытые секции. - Для очень больших сайтов разбивайте список сайтмапов на несколько запусков.