КАК СОБРАТЬ БАЗУ ДАННЫХ ЛЮБОГО САЙТА: ТЕСТИРУЕМ OPEN SOURCE CYBERYOZH DATA SCRAPER
15:12

КАК СОБРАТЬ БАЗУ ДАННЫХ ЛЮБОГО САЙТА: ТЕСТИРУЕМ OPEN SOURCE CYBERYOZH DATA SCRAPER

CyberYozh 18.05.2026 4 247 просмотров 168 лайков

Machine-readable: Markdown · JSON API · Site index

Поделиться Telegram VK Бот
Транскрипт Скачать .md
Анализ с AI
Описание видео
GitHub (CyberYozh Data Scraper): https://github.com/CyberYozh-data/yozh-scraper 🌐 Надёжные прокси – 5% по промокоду "DAVID": https://app.cyberyozh.com/ru/proxy/?pid=fe78d6e007334ce2b6d1f5874026ed66&utm_source=youtube&utm_medium=CyberYozh&utm_campaign=data_scraping_david&myshare=42G9CXVR Реферальная система CyberYozh Academy: https://academy.cyberyozh.com/referral/?utm_source=youtube&utm_medium=CyberYozh&utm_campaign=data_scraping_david&myshare=42G9CXVR 📱 Telegram-канал CyberYozh: https://t.me/cyberyozh_official CyberYozh Support: https://t.me/cyacademy_support ======================================== Информация — это нефть XXI века, и она стоит огромных денег. Мы разберем, как автоматизировать сбор данных с веб-ресурсов и проводить глубокую индексацию карт сайтов. Этот навык критически важен как для SOC-аналитиков (синяя команда), так и для пентестеров (красная команда) при проведении разведки на Bug Bounty. В этом уроке: • Scraping vs Crawling: В чем разница между автоматическим сбором контента и поиском ссылок (пауками). • Защита от блокировок: Зачем нужны ротационные и мобильные прокси при парсинге сайтов. • Развертывание в Docker: Пошаговая настройка контейнеров через docker-compose. • Визуальный тестер: Поднимаем локальный Node.js сервер на Localhost 7000 для красивого GUI-управления. • Глубокий краулинг: Настраиваем Scope Mode и собираем скрытые поддомены организации. • CLI-интерфейс: Работаем напрямую через cURL-запросы для получения Job ID и результатов. #датаскрейпинг #краулинг #OSINT #CyberYozh #Docker #BugBounty #парингсайтов #информационнаябезопасность #обучениеИБ #Давид ======================================== Дисклеймер! Этот контент предназначен исключительно для самообразования, легального тестирования на проникновение и автоматизации сбора открытых данных. Использование софта для деструктивных атак или нарушения правил пользования сторонних ресурсов преследуется по закону. ======================================== Таймкоды: 00:00 — Введение: что такое скрейпинг и почему данные стоят дорого в 2026 01:14 — Принцип работы веб-пауков и индексация карт сайтов 01:48 — Зачем нужны ротационные прокси для обхода WAF и фаерволов 02:20 — Подготовка окружения в Kali Linux: установка Docker и Docker Compose 03:22 — Официальной open-source репозитории CyberYozh Scraper 03:50 — Настройка .env файлов и генерация API-ключа в личном кабинете 05:58 — Сборка и запуск контейнеров через docker-compose up --build 06:48 — Проверка статуса работы бэкенда через cURL 07:04 — Поднимаем визуальный тестер: npm install и запуск Node.js на порту 7000 08:29 — Практика GUI: настраиваем парсинг страницы (Desktop/JS Render/Screenshots) 08:44 — Подключение Socks5 мобильных прокси для маскировки скрейпера 10:49 — Разбор результатов: получение структуры сайта и длинных скриншотов 11:00 — Настройка Batch-скрейпинга для одновременной обработки нескольких URL 11:13 — Запуск кроулера для сбора сабдоменов организации 12:08 — Вкладка Jobs: мониторинг истории задач иMCP Tools в панели 12:55 — Продвинутый уровень: управление скрейпером через терминал (CLI и API) 14:29 — Итоги урока: open-source софт как мощный инструмент Bug Bounty

Оглавление (17 сегментов)

Введение: что такое скрейпинг и почему данные стоят дорого в 2026

Всем привет. Сегодня я рад вам показать и научить, как вы можете использовать наш сайперш спер. Это программа Scraper, где ещё есть. Если не знаете все слова, я сейчас потихоньку объясню, но это просто так думаете, это open source означает код полностью открытый. Вот всё есть в доступе. Ссылка у вас, конечно, тоже будет и в описании. Вы просто можете сами перейти вот по этой ссылке. Data cyber your data your scraper в GitHub. Это open source, что означает код полностью открыт. Вы можете его полностью бесплатно использовать. Можете использовать для скрейпинга, для кроллинга. Также есть тестовые версии. Вы можете также наши AP прокси вместе с ними использовать. Всё как работает, сейчас покажу. Покажу один более облегчённый метод, потом немножко посложнее версию. Теперь, если не знаете, сначала коротко давайте я попробую для вас объяснить в теории, что такое РWр и что такое спер. Скреп - это автоматизация. которая нам позволяет, чтобы мы могли дату собирать автоматически с помощью кода из много сайтов параллельно, допустим, и собирать эту дату, хранить, потому что дата много денег стоит и это этим много людей занимаются. Собираем дату. Дата спин.

Принцип работы веб-пауков и индексация карт сайтов

Собираем дату. Это первое. Второе, что у нас есть - это или спайдер, иногда также их ещё называют. Это метод, как мы можем автоматически браузить сайты, то есть идти сайт по сайта, ссылки на ссылки, смотреть, какие ссылки есть в каждом сайте, делать discoverovery, делать индексацию и так находить из чего, допустим, сайт создан, какой map, какая карта у сайта и так далее. Это официальный cyber your scraper, который вы можете использовать. Я вам покажу, как вы это можете использовать и с Proxy, и без proxy. Покажу также, что с

Зачем нужны ротационные прокси для обхода WAF и фаерволов

Proxy тоже работает. Вы можете, конечно, и без них это использовать. Просто почему стоит иногда прокси тоже использовать, если вы занимаете дата скрейпингом? Потому что скрейпинг везде, допустим, даже если сайты некоторые позволяют делать официально скрепинг, автоматические блоки могут быть, фаерволы могут блокировать их и, допустим, а просто IP-адрес, сам хостинг может вас быстро заблокировать. Но если вы используете прокси, можно просто с помощью, допустим, ротационного прокси каждый раз менять IP-адрес. И так никогда у вас блокировки не будет и ваша работа не прервётся. Давайте начнём. Что

Подготовка окружения в Kali Linux: установка Docker и Docker Compose

вам нужно сделать? Я буду использовать Linux машину. Для этого вы можете использовать даже Windows-машину, неважно. Главное, чтобы у вас был докер. Думая, что так как вы, если вероятнее такие интересуетесь, у вас вероятнее всего есть Linux или даже Маг. Ну я покажу это на Линуксе. Но опять команды полностью, что я показываю, идентично работают в Индоусе. Это без разницы. Главное, что нужно будет установить что-то, которые команды вот здесь есть. Давайте покажу. Сначала открою Linux машина. Если у вас чистая Linux машина, после того, как вы сделаете вот так здесь су update, что, а, я думаю, опять я всегда говорю это дела, но на всякий, если вы не делали, вот я сделаю, как видно, у меня что-то есть, что сейчас происходит. После апдейта вам нужно будет установить docker. Сделайте sudo upt install docker. После этого sudo upt install docker тире compose. Эти два нам нужно установить, чтобы мы могли его включить с помощью doкеer. Означает ничего сложного здесь не должно быть. Так как этот шаг уже закончен, сделаем gitк clon. Склонируем

Официальной open-source репозитории CyberYozh Scraper

эту а репозиторию нашу. Склонировали. Отлично. Перейдём в CD, сделаем в Scraper. И здесь у нас вот есть, а, всё, что нам нужно также с Redmi файлом. Теперь здесь у нас есть идеальная документация, которая очень хорошо всё объясняет, как можно делать, как можно работать. Первое, что написано, и я покажу это, тоже сейчас включу. Опять этот шаг можно, в принципе, пропустить, но просто так делать не мешает. Сначала

Настройка .env файлов и генерация API-ключа в личном кабинете

чтобы начать, сделаю CP, вот так. И вот ENV exampleфайл в ENV. Означает делаем новый ENV файл. Сейчас вот так. И здесь нужно написать, а cyberш IP ключ, если мы какой-нибудь используем для прокси. Допустим, у меня есть cyber AP ключ. Я вам тоже покажу, как вы можете это сделать, использовать. И давайте перейдём по очереди и затем уже с помощью докера это включим. Давайте я с помощью мауспада, можете нопада, можете чем хотите открыть, NV файл открою. И здесь вот cyber up API key. На шестой строчке у меня пусто. Давайте я сделаю сейчас новый ключ. Перейду на а мой сайт, вот apps. sserv. com на мой аккаунт. И здесь я могу увидеть, если я нажимаю на мою вот иконку, есть а ключ. Если у вас этого нету, вам нужно, а, написать нам в Telegram. Вы увидите, если перейдёте по ссылке. Сейчас скажу вам, если у вас будут с этим проблемы какие-нибудь. Вот. А если а вы подите вот Redmit, вот здесь вы можете написано получить ваш IP ключ. Если перейдёте по этой ссылке, здесь можно нам написать, если у вас есть какие-то проблемы, конечно. У меня есть уже AP ключи, но для теста я просто всё равно сделаю апи ключ, потому что, я думаю, стоит вам всё равно показать, как они выглядят, как они работают. Давайте я сначала зайду вот в мой аккаунт быстро и вам покажу, как это а выглядит. Зашёл я в мой аккаунт. Я вижу теперь вот здесь generate AP key у меня есть, когда вот я сюда перешёл по ключ. Если хотите язык поменяйте, я думаю, большинство, наверное, из вас, ладно, будут использовать русский, поэтому я так сделаю. Вот ключи AP и кнопка сгенерировать IP ключ. Кликаю сгенерировать. Вот мой ключ сейчас появился. Я это скопирую. Я это могу оставить. Тут ничего я не плюр, ничего не буду делать, потому что я просто могу этот ключ быстро удалить после того, как видео будет готово. И сейчас вот мауспади здесь я поставлю просто Ctrl V, скопирую этот ключ, сохраню, останется. Опять, если у вас нету прокси, этот шаг можно пропустить. Я просто одновременно показываю, как с прокси это тоже будет работать. Поэтому мы здесь, а, некоторое время остались. Можно это теперь закрыть. Здесь ничего мне больше не нужно смотреть. Давайте перейдём и создадим и

Сборка и запуск контейнеров через docker-compose up --build

включим наш нашу наше приложение с помощью doкеer композа. Можете так взять, скопировать. Я скажу, Docker Compose должен работать, смотря от какой версии. Если у вас вот, допустим, если вы сделаете вот так Docker Compos upbild, если случайно у вас не работает Docker Compose, помните, я раньше сделал суду Auto install Docker тире compos. Просто с тире поставьте. Если у вас с помощью судо вот так вы напишите, не получится, поставьте тире между буквой Р в конце и перед си вместе. Doке тире compст должно быть. Это я сразу говорю. У вас здесь займёт где-то 10 минут, так как я это уже включал, у меня автоматически включено. Теперь новую командную строку открываю. Про эту командную строку я её не закрою, я её скрою просто, чтобы она мне не мешала. И забудем о ней. Теперь проверим, что скреп у нас работает. Можно с помощью этой курл команды посмотреть статус.

Проверка статуса работы бэкенда через cURL

О'кей, Warcra 2. Супер. Также можно вот посмотреть внизу. Здесь тоже. А, weer супер работает. Всё хорошо. Теперь давайте я сначала покажу легче метод, как вы можете делать. Если вы не любите очень сильно сидеть в командной строке, если вы, допустим, новичок или до сих

Поднимаем визуальный тестер: npm install и запуск Node.js на порту 7000

пор не очень комфортно чувствуете, вы можете использовать наше а веб-приложение, которое локально мы можем поднять в локал host. Я покажу сейчас, как вы это можете сделать. И так сделать скреппинг. Затем покажу более сложнее метод. Вы можете перейти вот здесь написано визуальный тестер. Тестер опять он не часть compмстака, его отдельно нужно включить. Здесь написано: "Перейду в эту папку CD". Вот здесь я уже в Scraper, заметьте, в Scrapery есть scraper tester. А scraper tester. Вот сюда. Здесь написано npm install. Давайте так сделаем. NPM install. Если вы сделаете сначала npm install у вас нету, не будет работать. Поэтому, если это не сработает, сделайте суду auto install npm. Это первый шаг должен быть, если у вас случайно нету npэ. Потом можно сделать npm install. Просто что npm install сделает, это то, что в packдже Sony есть. Автоматически установить, чтобы веб-приложение включилось. Это уже с веб с вебом связано, веб-разработка. Я не буду это объяснять. Просто если я сделаю npmologл или mpme просто здесь автоматически установит всё, что мне нужно. Затем написано: "Сделаем note". О'кей, напишем. JS на local host 7. 000 теперь включён. Я вижу визуально теперь красиво. Заметьте, вы сейчас не должны быть обязательно онлайн, чтобы этот сайт видеть. Это local host. Здесь давайте сделаем какой-нибудь сйп. Сначала покажу спер одну страничку паchraпл покажу джобсы какие есть, np что такое и так далее.

Практика GUI: настраиваем парсинг страницы (Desktop/JS Render/Screenshots)

Давайте сначала сделаем сп. Вот я спадею cyberyose. com. Версию девайса пусть будет desktop. Timeout js render. Скриншоты я хочу видеть опять можете здесь поменять всё же, как хотите. Прокситипы, заметьте, у меня также есть ещё, сейчас покажу. У

Подключение Socks5 мобильных прокси для маскировки скрейпера

меня есть прокситип. Вы можете разного типа прокси выбирать для того, чтобы делать скрепинг. Здесь, допустим, у меня рестатика нету. У меня есть мобильная прокси. Сейчас мой аккаунт AP, который я добавил. Когда я выбираю мобильный, я нахожу вот этот прокси. Заметьте, если я выбираю, сейчас покажу. Посмотрите, какой здесь. А в конце порт 2 3 5 7. Видите, Sox 5 proxy, который у меня сейчас есть. Этот прокси тот, который я уже заранее купил. Как покупать в прокси очень легко. Можно перейти вот сюда в страничку прокси, посмотреть, выбрать то, что вас именно интересует и именно этот прокси купить для себя. Я, конечно, уже вот здесь давайте выберу, допустим, пусть будет мобильный, а приватный выделенный прокси. Конечно, лучше для этой демонстрации было бы использовать если вы хотите, можно резидентские ротационные. Ротационные прокси лучше всего использовать для, конечно, вебскрейпинга и скрейпинга, в принципе, потому что с помощью этого вы можете легко менять IP-адрес, если его заблокируют, когда вы делаете скрепинг. Но у нас почти все типы прокси здесь работают. В моих прокси посмотрите, какой у меня прокси есть. Заметьте, у меня сейчас есть один прокси порт. Видите, здесь написано вот прокси. Вот его логин, пароль. Это прок всё равно вот скоро выключится, так что здесь я ничего удалять не буду. Он через пока это видео выйдет от прокси уже активной не будет. И вот если я здесь сейчас быстро скопирую просто, чтобы вам показать, посмотрите порт 22357. Можете так увидеть. Это тот же самый прокси, который у меня data scraper сейчас нашёл. Где ты? Вот 2 3 57. Вот 5шp. com. Супер. Extraction тип. Я допустим, я не хочу ничего здесь делать, ничего не буду усложнять. Нажму сп. Если прокси не работает, у вас здесь может зависнуть или что-то застрять. Но у меня пока что таких проблем не было. И всё работает. Конечно, с прокси слегка медленнее будет, очевидно, вы посредника добавляете, но всё равно скреп здесь должен одной страничке, допустим, быть готов. И я вижу вот данные, которые я получил, делая скрейпинг. И я вот даже вижу скриншот я сделал полностью с сайта. Один гигантский длинный скриншот.

Разбор результатов: получение структуры сайта и длинных скриншотов

Это я тоже могу затем использовать. Кроме этого, вы можете также делать бач, означает вы можете 2 3 10 URL. Вот это, наверное, более полезно, если вы хотите автоматически много-много чего делать.

Настройка Batch-скрейпинга для одновременной обработки нескольких URL

Скрейпинг. Давайте здесь выберу то же самое. И кро в этот раз, допустим, проси я покажу, что вы не обязаны его выбирать. Сделаю submit patch и увижу, что здесь тоже у меня сейчас быстро сделает два сайта scrap и покажет.

Запуск кроулера для сбора сабдоменов организации

Слегка быстрее, конечно же, потому что в этот раз я без прокси сделал. Рoller у нас также есть, который, допустим, я могу как пример ebay. com или могу, давайте, а, опять всё равно поменяю на server. com. Тот же самый домен. Все сабдомены тоже я могу, допустим, выбрать scope mode, если я захочу. Я могу вот мак больше трёх не идти. Максимум страничек. Давайте напишу 20 поменьше, чтобы быстрее всё здесь было. И а сделаем проксити тип. Опять я могу выбрать сейчас тот же самый прокси, который у меня есть. Для демонстрации я просто не буду его выбирать, но если вы сделаете, ещё лучше будет. Стартрол сделаем. Теперь здесь начинает, работает. И я вижу, вот я вижу сабдомено, видите? www. Затем у нас есть up есть и все вот юрлы начинают искать, идеально находить. Великолепно всё происходит здесь. Пока это работает, я перейду в Jobs, покажу. Вот Jobs - это значит просто как ID джобы, которые сохранены. Можете смотреть по истории

Вкладка Jobs: мониторинг истории задач иMCP Tools в панели

можете кликать на них и посмотреть, например, результаты, которые у вас раньше были. Вот getстатус, getрезультат каждого по очереди. И также у нас ещё есть MCP Tools, которые показывают, что вы есть, какие порты у вас сейчас включены, какие аргументы и так далее и тп. можете использовать кроллер. Здесь уже А, да, он своё дело уже сделал, доделал. Я получил вот все эти результаты. Идеально также для Осинта. Это можно и великолепно использовать вде красиво визуально использовать для бакпаунти. Я думаю, мой следующий бакбаунти, когда я буду делать садамент скан, я буду и это ещё использовать на шкроллер, кроме обычных типичных инструментов, потому что я Чем больше инструментов использователе таких, тем лучше, так как некоторые показывают одни результаты, некоторые не показывают и так далее. Это так. И это самые, можно сказать, примитивные метод исполь, потому что есть визуальный пример.

Продвинутый уровень: управление скрейпером через терминал (CLI и API)

Также, что с очень круто, вы можете, если выпочитаете командную строку, можете по очереди перейти. Вот есть скрепер. Давайте его открою отдельно. И кроллер открою скрейпери здесь то же самое команды, которые можно использовать. Вот если перейти здесь, рекомендую прочитать документацию. Я сейчас на видео не хочу это читать. Это скучно, никому не интересно. Но вот пример, как можно сделать сп. Я перейду вот сейчас открою это. Давайте я сервер этот а выключу. Включу. И я вот вижу, я получил job ID. Теперь я хочу посмотреть, допустим, результаты. Сделаем вот так. Если я хочу посмотреть на статус, это скопирую. Request ID сюда поставлю, и я могу увидеть вот статус его какой здесь есть. Также я могу сразу посмотреть на результаты results. И вот такие результаты в командной строке получаю. Также то же самое, конечно, работает с кроллером. Вы можете увидеть, как роollллер здесь выглядит. После того, как вы это включаете, вот можно пример ради сделать. Давайте вот, допустим, это возьму. Submit croll сделаем. Включим. Вы здесь, конечно, можете смотреть перед тем, как вы делаете. Я хочу просто вам, а, вам показать, как это выглядит. Давайте как пример, ладно, вернусь. Вот как выглядел здесь Scrape. Вот URL, вот Proxy Type. На мог бы быть Proxy Type Mobile, я мог бы написать имя Proxy. Вот URL какой и так далее. Здесь то же самое. Вот URL какой скоп какой я хочу то же самое. домен, это все аргументы, которые можно давать. Если в детали идти, это видео можно на 2 часа делать. Поэтому я хочу, чтобы вы просто сами тоже, что вам интересно делать, прочитайте. Это можно вс этот наш скреп и кроллер делают почти всё

Итоги урока: open-source софт как мощный инструмент Bug Bounty

что нужно человеку. И, конечно, он ещё будет обновляться. Это опять open source. Легко, довольно-таки примитивно использовать с помощью докера. Облегчает так универсально. Все могут это использовать. Неважно ваша операционная система опять пользуйтесь. Очень хорошая программа. Великолепно сделано, очень примитивно. И визуальный Q есть из команд строки можно использовать с помощью докера у нас not jсом. Поднимайте локальный сервер. Великолепно работает. Также автоматическая интеграция с помощью нашего IP. Используйте обязательно и скажите, что вы думаете в комментариях. Буду ждать. Спасибо вам большое за просмотр и увидимся в следующий раз. Пока.

Другие видео автора — CyberYozh

Ctrl+V

Экстракт Знаний в Telegram

Экстракты и дистилляты из лучших YouTube-каналов — сразу после публикации.

Подписаться

Дайджест Экстрактов

Лучшие методички за неделю — каждый понедельник