Автоматизация загрузки и именования отчетов по акциям с помощью n8n

Ручной сбор аналитических отчетов по акциям отнимает много времени из-за неинформативных имен файлов и сложной навигации. Разработанный метод позволяет полностью автоматизировать процесс: от перехвата сетевых запросов до сохранения структурированных данных в облачное хранилище.

Анализ структуры и перехват данных через cURL

На платформе Naver Securities пользователи сталкиваются с проблемой нечитаемых имен файлов, которые не раскрывают содержание документов. Для автоматизации процесса разработчик использует инструменты браузера, чтобы найти структуру данных и API-запросы в сети. Весь запрос страницы копируется как cURL через контекстное меню. В платформе n8n узел HTTP Request импортирует этот запрос, что позволяет получать данные без ручной настройки куков и упрощает обход сложностей с авторизацией.

Парсинг HTML и подготовка данных для обработки

Парсинг таблицы выполняется через узел HTML Extract с использованием CSS-селекторов. Система извлекает строки с классом StockItem, находящиеся внутри контейнера класса Type1. С помощью псевдо-класса:has разработчик фильтрует элементы, а опция Return Array позволяет выделить все строки TR. Чтобы сохранить контекст и избежать нарушения структуры при прямом извлечении ячеек TD, применяется инструмент Edit Fields. Перед каждой записью программа формирует открывающие и закрывающие теги, создавая валидную мини-таблицу. Селектор nth-child выделяет конкретные поля: название компании, заголовок, брокера и дату публикации. Для корректной загрузки PDF-файлов система переключается с текстового режима на атрибут href, выбирая первый элемент по классу href при наличии нескольких вложений.

Загрузка файлов и интеграция с Google-сервисами

Для последовательного скачивания PDF-документов разработчик настраивает цикл Loop Over. Имена файлов формируются динамически на основе метаданных отчета с добавлением заголовка. Чтобы избежать ошибок в файловых системах, восклицательные знаки и другие специальные символы удаляются с помощью регулярных выражений, сгенерированных через AI-режим Google. Информация о ценных бумагах автоматически попадает в Google Sheets через функцию Append Row. Сами документы сохраняются в выделенную папку на Google Drive. Ежедневный запуск системы регулирует фильтр по дате создания документа с шаблоном yy-MM-dd через функцию now.

Обработка ошибок и применение в корпоративных RAG-системах

Стабильность работы обеспечивает настройка Continue On Fail, которая позволяет пропускать элементы при отсутствии вложений. Система отправляет уведомления в Telegram или по электронной почте, динамически подставляя дату и число загруженных документов. Для корректной отправки сообщений без дублирования используется функция Execute Once. В корпоративной среде метод структурированного хранения заменяет классическую векторную модель, которая часто теряет данные при чанковании и требует значительных затрат при масштабировании. Файловая система RAG с четким именованием папок и индексным списком повышает надежность ИИ-систем. В ходе тестирования скрипт успешно обнаружил 12 записей за текущий день.