Парсим ВСЕ Файлы в Данные для ИИ Бесплатно Через N8N (Docling API, RAG, Hybrid chunking)
14:27

Парсим ВСЕ Файлы в Данные для ИИ Бесплатно Через N8N (Docling API, RAG, Hybrid chunking)

ИИшенка | AI Automation 12.11.2025 7 599 просмотров 267 лайков обн. 18.02.2026
Поделиться Telegram VK Бот
Транскрипт Скачать .md
Анализ с AI
Описание видео
🚀 Pro-сообщество тут (там даже есть инструкция, как развернуть эту же автоматизацию 100% в локальном n8n): https://t.me/iishenka_pro_bot ⭐️ Бесплатные материалы из этого видео тут: https://t.me/+W1SnvvkcV6A3NWMy В этом видео я расскажу, как настроить себе парсер для документов через АПИ Docling Serve и использовать Гибридный Чанкинг для последующей векторизации. Что особенного в этом видео? Мы не только изучим методы работы Docling Serve, но и построим вместе парсер для n8n, который превращает любые файлы в Markdown и делит на логические чанки абсолютно локально и бесплатно. 🔥 Независимо от того, работаете ли вы с AI-агентами или только начинаете осваивать автоматизации в n8n, этот урок поможет вам овладеть процессом настройки ИИ для любых задач. Тайм-коды: 00:00 – Введение: что такое DocLing и зачем он нужен 00:38 – Как подружить DocLing с N8N 01:00 – Что такое гибридный чанкинг и зачем он нужен 01:42 – Запуск DocLing как API-сервиса в Docker 02:08 – Настройка и проверка работы контейнера 02:54 – Обзор API и доступных эндпоинтов DocLing 03:43 – Подготовка файлов и настройка N8N для локальной работы 04:49 – Настройка File Trigger и чтение локальных файлов 06:09 – Отправка файла в DocLing через HTTP Request 07:09 – Получение Markdown и проверка результата 08:09 – Тест гибридного чанкинга на простом документе 09:09 – Пример: обработка таблиц и логика гибридного чанкинга 10:18 – Тест на сложном файле — Гражданский кодекс 11:22 – Результаты гибридного чанкинга и структура данных 11:32 – Векторизация чанков через Supabase 12:41 – Проверка результата в базе данных 13:03 – Создание агента и тест запроса к векторной базе 13:57 – Итоги и работа локально: модели, приватность 💡 Не забудьте поставить лайк и подписаться, чтобы не пропустить новые уроки по n8n и AI-агентам. Давайте сделаем AI-автоматизации простыми! 🙌 Я — Илья Бовкунов, основатель и СЕО Sendforsign — это компания, занимающаяся AI-автоматизацией договоров и документооборота. В прошлом был Директором по продукту и продуктовому дизайну в международных AI-стартапах. Позвать в подкаст или предложить другое сотрудничество aiiszdes@gmail.com Не забудьте поставить лайк, подписаться и нажать на колокольчик, чтобы не пропустить новые видео об AI-агентах и автоматизациях!

Оглавление (18 сегментов)

  1. 0:00 Введение: что такое DocLing и зачем он нужен 104 сл.
  2. 0:38 Как подружить DocLing с N8N 46 сл.
  3. 1:00 Что такое гибридный чанкинг и зачем он нужен 100 сл.
  4. 1:42 Запуск DocLing как API-сервиса в Docker 57 сл.
  5. 2:08 Настройка и проверка работы контейнера 139 сл.
  6. 2:54 Обзор API и доступных эндпоинтов DocLing 124 сл.
  7. 3:43 Подготовка файлов и настройка N8N для локальной работы 195 сл.
  8. 4:49 Настройка File Trigger и чтение локальных файлов 234 сл.
  9. 6:09 Отправка файла в DocLing через HTTP Request 154 сл.
  10. 7:09 Получение Markdown и проверка результата 158 сл.
  11. 8:09 Тест гибридного чанкинга на простом документе 152 сл.
  12. 9:09 Пример: обработка таблиц и логика гибридного чанкинга 161 сл.
  13. 10:18 Тест на сложном файле — Гражданский кодекс 145 сл.
  14. 11:22 Результаты гибридного чанкинга и структура данных 26 сл.
  15. 11:32 Векторизация чанков через Supabase 170 сл.
  16. 12:41 Проверка результата в базе данных 56 сл.
  17. 13:03 Создание агента и тест запроса к векторной базе 122 сл.
  18. 13:57 Итоги и работа локально: модели, приватность 82 сл.
0:00

Введение: что такое DocLing и зачем он нужен

Друзья, всем привет. Ну что, сегодня мы с вами продолжаем тему Раг и тему Docking. Первое видео по этому прекрасному Open source проекту вышло пару недель назад. Это довольно популярное видео, обязательно посмотрите его тоже, потому что там заложены основы того, что будет обсуждаться сегодня. После прошлого видео у зрителей естественным образом возникло сразу несколько вопросов. Первый вопрос заключается в том, что хорошо, мы с вами посмотрели, каким образом работает DocLing, каким образом он разворачивается, но как же его подружить с нашим NVC MAN, потому что мы здесь все любим NVC и много с ним работаем. Что если мы файлы загружаем через NVCAN и
0:38

Как подружить DocLing с N8N

хотели бы, чтобы эти данные, эти файлы обрабатывались с помощью этого сервиса Dockling. Более того, в прошлый раз мы упомянули, что DocLing представляет такую прекрасную возможность, которая называется гибридный чанкинг. Это отдельная функциональность доклинга, которая делает мегакрутую вещь. Эта вещь заключается в том, что сначала документ
1:00

Что такое гибридный чанкинг и зачем он нужен

разбивается на логические блоки и векторизуется в соответствии с этой структурой, что обеспечивает неразрывность или полноту чанков, потому что никогда они не обрываются на полусловии или полупредложении, и это работает мегакруто. Мы сегодня тоже на это посмотрим. Ну и логический вопрос: хорошо, мы сделаем такие чанки прекрасные. А как же это всё завикторизовать и подружить с нашим агентом из Nemmen? Всё это вместе будет обсуждаться в сегодняшнем видео. Если такое интересно, обязательно лайк, коммент, подписка и смотрим до самого конца. Ну что, самые внимательные из нас, кто изучал тему доклинга, уже обратили внимание, что есть такой репозиторий, который называется dockling
1:42

Запуск DocLing как API-сервиса в Docker

Surf. По сути это репозиторий, который позволяет запустить ваш Docklн как API-севиice. И делается это совершенно разными способами, но мы с вами много изучаем Docker, поэтому мы сегодня с вами развернём Docklн как отдельный сервис в докере, подружим его с нашим NVMN, будем кидать файлы туда-сюда. Каким образом разворачивается docking в нашем докере? Здесь есть очень простая
2:08

Настройка и проверка работы контейнера

документация в плане того, как он разворачивается. И здесь есть пример, каким образом он может развернуться как контейнер в нашем докере. Прекрасно, этим мы сейчас и воспользуемся. Здесь я сделаю небольшое предположение о том, что вы знаете, что такое докер и каким образом он разворачивается. А если нет, то посмотрите вот это видео. Мы подробно с этим разбирались. Ну а нам, в принципе, нужно будет сделать только одну команду в нашем терминале. Мы пишем Docker Run по 5001 и указываем, откуда нам брать наш образ. И буквально через пару минут в нашем докере появится контейнер, который работает на порте 5001. И здесь крутится наш доклинг. Давайте на секундочку вернёмся в документацию и увидим, что если мы сделали всё правильно, то мы, например, можем открыть документацию по вот этому адресу. Давайте попробуем это сделать вместе. Нажимаем. И смотрите, у нас
2:54

Обзор API и доступных эндпоинтов DocLing

грузится наша документация, где уже представлены некоторые endпоинты, которыми мы можем пользоваться. например, endpoint для конвертации файла и даже пример запроса endpint для чанкинга. И обратите внимание, здесь есть упоминание того самого гибридного чанкера, который мы с вами обсуждали в самом начале видео. Это то, что нам нужно. Отлично. Давайте перейдём на описание всех APIпоинтов, которые доступны нам. Ну и давайте начнём с чего-нибудь самого простого. Здесь написано, что мы можем, в принципе, запроцесить файл, что у этого вот такой URL. и что вот такие параметры должны быть в этом запросе. И самое сладкое, что здесь описано, что обязательный параметр только один. Это сам файл, который мы хотим распарсить с помощью доклинга. Ну что, не терпится уже в N8N запрыгнуть и попробовать. Смотрите, я
3:43

Подготовка файлов и настройка N8N для локальной работы

здесь буду работать с локальными файлами. Это далеко не всем вам нужно, я уверен. Поэтому вот эти три первые ноды вы можете запросто заменить на ноды Google Drive, например, забирать оттуда файлы и формировать себе бинарник. Я буду делать всё то же самое, просто брать с локального диска. Ну, как всегда, всю эту автоматизацию я в самом конце видео скачаю и положу в свою бесплатную Telegram-группу. Туда залетайте и забираете её. Ну а если вам всё-таки нужно будет разобраться, как делать всё локально, то есть NV8N запускать локально, коннектить его с доклингом и даже с аламой, то инструкции на такие вещи у нас будут в прогруппе. В прогруппе мы обсуждаем глубокие вещи и то, каким образом функционирует искусственный интеллект и автоматизации, построенные на основе него. Если вы переживали, что вам будет сложно в прогруппе с проматериалами, то скоро в этой группе выходит мастер-класс по N8 Mm, где мы в рамках девяти крутейших тем обсудим, каким образом перейти от новичка в NC Man к уверенному пользователю и дальше уже углубиться в автоматизации с помощью остальных проматериалов. Короче, там огонь, если что, заскакивайте. Продолжаем с нашей автоматизацией. Я себе настроил вот такой local File Trigger. Это крутейшая
4:49

Настройка File Trigger и чтение локальных файлов

нода, которая ориентируется на изменение файловой структуры в конкретной папке, которую вы задали. Я сделал себе папочку и закинул туда два файла. Один попроще, но зато с табличкой, а другой посложнее. Это Гражданский кодекс со сложной структурой, со статьями, подстатьями, пунктами. Но, в принципе, нам придётся попотеть, чтобы его распарсить. И мы как раз посмотрим, как работает доклинг API доклинга на сложных кейсах. Ну что, давайте запустим этот триггер и сделаем, например, событие добавления файла обычным дублицированием. Вот doc copy у меня образовался. Это тот же самый PDF с той же самой табличкой. И мы видим, что наш триггер отработал и говорит: "У тебя добавился новый файл". Отлично. Сразу после этого я делаю небольшую проверочку. Я проверяю, что реально это событие добавления. Мы видим, чтовент так и называется. Add. Выполняем эту ноду и видим, что он проходит. И дальше добавляем ноду, которая называется read file disk. И так как мы уже в предыдущей ноде получили путь до этого файла, мы знаем точно, где он лежит. Мы закидываем этот путь вот сюда в селектор и видим, что он, в принципе, видит наш файл. Это круто. Ну что, давайте выполнять. Отлично. И мы видим, что NV CM скачал себе в оперативку этот файл и держит его там как бинарник. Это значит, что именно с этого момента этот файл доступен в нашей N8N автоматизации. Ну что, дальше самое интересное. Возвращаемся в нашу документацию Doclling и видим, каким
6:09

Отправка файла в DocLing через HTTP Request

образом можно запроцессить файл. Нам нужен метод пост, вот с этим URL. И здесь нужно будет указать объект файла, каким образом проще всего сформировать вот этот реквест в CAN. Мы берём, нажимаем кнопочку скопировать, возвращаемся в NVC MAN, добавляем ноду HTTP request. Здесь нажимаем импортировать курl. Вставляем этот курlл и нажимаем импортировать. Мы видим, что уже всёвсёвсё проставлено, все поля проставлены, которые нам нужны. Мы помним, что в самом запросе, в примере, в документации там масса полей, которые, в принципе, не являются обязательными. Это просто умолчательные значения, которые мы, конечно, можем изменить на свои. Но так как мы будем тестировать эту функциональность, нам не нужно ничего, кроме самого поля Files. Всё остальное мы можем запросто поудалять таким образом. Так вот, я поудалял все поля. Здесь обязательно измените data на NVC binary file, потому что у нас бинарник в NVCN автоматизации есть. поле files и надо забирать самбинарник из поля data и проверяем, что здесь
7:09

Получение Markdown и проверка результата

правильный увертфай. Ну что, давайте пробовать. Нажимаем. Видим, что начался процесс. Пока идёт процесс, давайте проверим, каким образом выглядит файл. Видим, что тут очень простой файл, коммерческое предложение с какой-то очень простейшей табличкой. И смотрите, результат уже нам приехал. Давайте переключимся в JSON. И обратите внимание, что API работает прекраснейшим образом. Он нам уже сформировал маркдаун, где мы видим прекрасно определённую таблицу и даже определённые хедеры в маркдауне, которые есть реально в этом файле. Ну то есть это прекрасный результат. И сразу в N8N. Давайте попробуем посмотреть этот Markдаун. Вставим его в Mark и видим, насколько прекрасно всё сделано, и сравним это с оригинальным файлом, который у нас был. Ну, в принципе, всё выглядит довольно неплохо, учитывая, что это всё сделано прямо на нашем локальном компьютере. Вообще, получить маркдаун из любой пдфки - это уже полдела. И мы можем дальше с этим маркдауном делать что угодно, векторизовать, как нам угодно. Но раз в доклинге есть такое понятие, как
8:09

Тест гибридного чанкинга на простом документе

гибридный чанкинг, почему бы не воспользоваться этим чанкингом и не посмотреть, каким образом он отрабатывает, потому что кажется, что там кроется что-то крутое. И скажу сразу, там реально кроется крутое. Возвращаемся в API endпоиты доклинга, идём на вкладочку чанкинги и переходим на чанкинг файлов с помощью гибридного чанкера. Мы видим, что здесь очень-очень похожий API call с другим URL, но сама конструкция мега похожа на то, что у нас есть. Давайте попробуем этим воспользоваться. Я вернулся в NV C, сделал ещё одну HTTP ноду. Давайте её откроем. И видим, что URL здесь чуть-чуть отличается. Chan hybrid fileй, но метод post. И, в принципе, всё остальное то же самое. Из обязательных полей, только поле files, куда мы будем передавать наш бинарник. Давайте подсоединим сюда нашу ноду, где есть бинарник. Откроем её. Видим, бинарник у нас в наличии. Давайте сделаем чанки. Видим, как нода исполняется. Так, вернулся ответ. И я уже вижу нечто умопомрачительное.
9:09

Пример: обработка таблиц и логика гибридного чанкинга

умопомрачительное. Во-первых, мы не задавали длину чанка, что обычно мы делаем с другими векторизациями. Мы не задавали практически ничего, но я уже вижу, что первый чанг определён строго по пункту. Ни символа влево, ни символа вправо. Здесь вынесен заголовок этого пункта введение, определён номер страницы, определён файл type, определено имя этого файла. И вообще всё это выглядит мегакруто. Давайте посмотрим, как выглядит наша таблица. Обратите внимание, что он сделал с таблицы. Во-первых, он сформировал чанк строго по этой таблице, не вылез никуда за пределы этой таблицы. И посмотрите, каким образом изначально эта таблица выглядела. Ложки, количество, цена, сумма. Вилки, количество, цена, сумма. И он организовал чанк таким образом, что размножил значение первой колонки. Смотрите, ложки, количество, ложки цена, ложки сумма. Потом вилки, количество, вилки цена, вилки сумма. Это сделано для того, чтобы нейронка в последующем, когда получит этот чан к себе как контекст, могла интерпретировать эти данные очень чётко и понимать, какие значения к каким полям относятся. Это очень круто. Ну
10:18

Тест на сложном файле — Гражданский кодекс

что, не терпится попробовать файл посложнее? Смотрите, у меня есть ещё один файл, который называется ГК. Это Гражданский кодекс. Давайте сделаем всё сначала, прямо через триггер. Запустим триггер, задублицируем файл. Видим, как он у нас определился. Пройдём все необходимые процедуры. Скачаем этот файл как бинарник и попробуем сделать гибридный чанкинг. Запускаем процесс. Так, ну что, процесс только что завершился. И я вам хочу сказать, что это действительно что-то невероятное. Обратите внимание, каким образом организованы чанки. Строго по пунктам, строго по абзацам. При этом каждый чанк организован таким образом, что определён пункт, к которому он принадлежит, естественно, имя файла, естественно, страницы и все необходимые данные, которые могут нам понадобиться. Проскроил немного вниз, чтобы посмотреть, как это работает уже на других страницах. Мы видим, что мы уже сейчас на странице номер три. Чанки также круто образовываются и определяются название статей выносятся как отдельные данные. Почему это круто?
11:22

Результаты гибридного чанкинга и структура данных

Потому что эти данные мы можем использовать как метаданные при векторизации и впоследствии гибко этим пользоваться для фильтрации данных при нашем векторном поиске. Ну что, давайте
11:32

Векторизация чанков через Supabase

наконец завекторизуем то, что у нас получилось. Я добавлю ноду, которая называется Split out. Это разбитие одного массива на элементы для того, чтобы можно было поштучно эффекторизовать. Мы видим, что теперь у нас образовалось 160 элементов, и в каждом из них есть и текст, и необходимый заголовок, и номер страницы, и всё, что нам нужно будет, чтобы завекторизовать это. Добавляем ноду Supase и к ней добавляем datoader. Dataloader краеугольное здесь понятие, потому что тут мы определим, каким образом мы забираем данные и что конкретно мы векторизуем. Естественно, мы забираем сам текст, нам понадобится имя файла, естественно, номер страницы. название главы, в которой лежит чанк, и даже doкtype. Это специфика работы доклинга. Если он найдёт таблицу, текст, который он поместит нам в чанк, будет обладать докттайпом таблица, что впоследствии может нам помочь для интерпретации данных. Ну что, нам только осталось указать таблицу, в которой будет проводиться векторизация, и запустить сам процесс векторизации. Делаем это и ждём, когда нода исполнится. Ну что, переходим в нашу Supbase и смотрим, каким образом это всё
12:41

Проверка результата в базе данных

выглядит. С первого взгляда обратите внимание, как аккуратно нарезаны чанки. Просто ничего лишнего. В начало каждого чанка положена статья, дальше конкретный текст этого чанка, а в метаданных лежит название статьи, название файла, страница, с которой брался текст. Ну, словом, качество разбиения текста начанки очень высокое. Ну что, нам осталось построить только нашего простого агента, который будет
13:03

Создание агента и тест запроса к векторной базе

коммуницировать с нами на основе этих знаний. Ну что, давайте спросим какой-нибудь каверзный вопрос. На каких основаниях возникают гражданские права и обязанности? Скажи, на какой странице посмотреть, какая статья и какая глава? Давайте пробовать. Смотрим, как выполняется запрос. Да, он сходил в векторную базу и формирует ответ. Так, гражданские права и обязанности возникают из оснований, предусмотренных законом и иными правовыми актами. Глава 2, статья, страница три. И вот в таком файле, что очевидно. Так, идёмте проверять. Страница 1 2 3 статья. Гражданские права, обязанности возникают из оснований предусмотренных законов иными правовыми актами. Ну что, гиперточно определено, определена страница, глава, статья. То есть это очень хороший результат. Я напомню, что всё это работает сугубо локально у вас на компьютере. И, естественно, если вы
13:57

Итоги и работа локально: модели, приватность

захотите и у вас позволяют ресурсы, вы можете использовать локальные модели для векторизации данных, чтобы вообще всё находилось в вашем контуре или на вашем сервере. Так, ну а эту автоматизацию я скачиваю, кладу в бесплатную Telegram-группу. А если хотите узнавать новое в искусственном интеллекте или посмотреть, каким образом настраивается NV Cмен локально и дружится с доклингом, и файлы забираются с вашего локального диска, то это в про группу. Ну и, в принципе, за общим AI развитием туда тоже. На этом всё. Пока.

Ещё от ИИшенка | AI Automation

Ctrl+V

Экстракт Знаний в Telegram

Транскрипты, идеи, методички — всё самое полезное из лучших YouTube-каналов.

Подписаться