n8n · Документация Crawlbase

Установка

Crawlbase node опубликован как community node. Установите его из своего экземпляра n8n:

Перейдите в Settings → Community Nodes → Install a community node.
Введите n8n-nodes-crawlbase и нажмите Install.
Перезапустите n8n, если будет предложено. Crawlbase node теперь появится в поиске на холсте.

Учётные данные

Добавьте учётные данные Crawlbase API в разделе Settings → Credentials:

Вставьте свой API Token из панели Crawlbase.
Нажмите Test connection, чтобы убедиться в валидности токена перед запуском рабочего процесса.

Используйте ваш Normal Token для HTML-целей и ваш JavaScript Token для SPA и JS-рендеренных страниц - создайте по одной учётной записи на уровень токена и выбирайте подходящий для каждого узла.

Узел Crawlbase

Один узел Crawlbase оборачивает Crawling API. Перетащите его в рабочий процесс, укажите учётные данные и настройте поля запроса ниже.

Method

поле

GET, POST или PUT. Используйте POST/PUT, когда целевому ресурсу нужен request body.

Response format

поле

HTML (по умолчанию), JSON (разобранный вывод scraper) или Markdown (чистый текст для LLM-пайплайнов).

Options

поле

Опциональные параметры Crawling API - page_wait, country, device, request_headers, cookies, scraper, screenshot, store, async и помощники JS-рендеринга. Полный список см. в справочнике параметров Crawling API.

Output

поле

Каждый элемент возвращает statusCode, headers, body и metadata (с originalStatus, cbStatus и итоговым url).

Режим списка элементов

Установите URL Source в From input item field и укажите имя поля, содержащего URL (например, url). Узел выполняет один запрос Crawling API на каждый входной элемент и выдаёт один выходной элемент на каждый входной - подключайте напрямую Read-from-Sheet, Split-In-Batches или любой другой узел, выдающий список.

Лимиты запросов и повторные попытки

Лимиты запросов Crawlbase зависят от вашего тарифа. Чтобы рабочие процессы оставались устойчивыми:

Включите в n8n опцию Retry On Fail на узле Crawlbase (вкладка Settings на узле).
Установите Wait Between Tries минимум на 1 секунду - выше, если упираетесь в лимиты.
Для больших списков URL разбивайте работу на части с помощью Loop Over Items или Split In Batches, а не отправляйте все запросы сразу.

Типовые рабочие процессы

Schedule → Crawlbase → Postgres: ежедневный снимок страницы цен конкурента в базу данных.
Webhook → Crawlbase → Email: обогащение данных о товарах по запросу.
RSS → Crawlbase → Vector DB: наполнение самостоятельно размещаемого индекса для поиска.