КАК СОБРАТЬ БАЗУ ДАННЫХ ЛЮБОГО САЙТА: ТЕСТИРУЕМ OPEN SOURCE CYBERYOZH DATA SCRAPER
Machine-readable: Markdown · JSON API · Site index
Описание видео
GitHub (CyberYozh Data Scraper): https://github.com/CyberYozh-data/yozh-scraper
🌐 Надёжные прокси – 5% по промокоду "DAVID":
https://app.cyberyozh.com/ru/proxy/?pid=fe78d6e007334ce2b6d1f5874026ed66&utm_source=youtube&utm_medium=CyberYozh&utm_campaign=data_scraping_david&myshare=42G9CXVR
Реферальная система CyberYozh Academy:
https://academy.cyberyozh.com/referral/?utm_source=youtube&utm_medium=CyberYozh&utm_campaign=data_scraping_david&myshare=42G9CXVR
📱 Telegram-канал CyberYozh:
https://t.me/cyberyozh_official
CyberYozh Support:
https://t.me/cyacademy_support
========================================
Информация — это нефть XXI века, и она стоит огромных денег. Мы разберем, как автоматизировать сбор данных с веб-ресурсов и проводить глубокую индексацию карт сайтов. Этот навык критически важен как для SOC-аналитиков (синяя команда), так и для пентестеров (красная команда) при проведении разведки на Bug Bounty.
В этом уроке:
• Scraping vs Crawling: В чем разница между автоматическим сбором контента и поиском ссылок (пауками).
• Защита от блокировок: Зачем нужны ротационные и мобильные прокси при парсинге сайтов.
• Развертывание в Docker: Пошаговая настройка контейнеров через docker-compose.
• Визуальный тестер: Поднимаем локальный Node.js сервер на Localhost 7000 для красивого GUI-управления.
• Глубокий краулинг: Настраиваем Scope Mode и собираем скрытые поддомены организации.
• CLI-интерфейс: Работаем напрямую через cURL-запросы для получения Job ID и результатов.
#датаскрейпинг #краулинг #OSINT #CyberYozh #Docker #BugBounty #парингсайтов #информационнаябезопасность #обучениеИБ #Давид
========================================
Дисклеймер!
Этот контент предназначен исключительно для самообразования, легального тестирования на проникновение и автоматизации сбора открытых данных. Использование софта для деструктивных атак или нарушения правил пользования сторонних ресурсов преследуется по закону.
========================================
Таймкоды:
00:00 — Введение: что такое скрейпинг и почему данные стоят дорого в 2026
01:14 — Принцип работы веб-пауков и индексация карт сайтов
01:48 — Зачем нужны ротационные прокси для обхода WAF и фаерволов
02:20 — Подготовка окружения в Kali Linux: установка Docker и Docker Compose
03:22 — Официальной open-source репозитории CyberYozh Scraper
03:50 — Настройка .env файлов и генерация API-ключа в личном кабинете
05:58 — Сборка и запуск контейнеров через docker-compose up --build
06:48 — Проверка статуса работы бэкенда через cURL
07:04 — Поднимаем визуальный тестер: npm install и запуск Node.js на порту 7000
08:29 — Практика GUI: настраиваем парсинг страницы (Desktop/JS Render/Screenshots)
08:44 — Подключение Socks5 мобильных прокси для маскировки скрейпера
10:49 — Разбор результатов: получение структуры сайта и длинных скриншотов
11:00 — Настройка Batch-скрейпинга для одновременной обработки нескольких URL
11:13 — Запуск кроулера для сбора сабдоменов организации
12:08 — Вкладка Jobs: мониторинг истории задач иMCP Tools в панели
12:55 — Продвинутый уровень: управление скрейпером через терминал (CLI и API)
14:29 — Итоги урока: open-source софт как мощный инструмент Bug Bounty