n8n
Автоматизация с открытым исходным кодом, на ваших серверах. Crawlbase n8n community node даёт вам те же API в самостоятельно размещаемом рабочем процессе без привязки к SaaS.
Установка
Crawlbase node опубликован как community node. Установите его из своего экземпляра n8n:
- Перейдите в Settings → Community Nodes → Install a community node.
- Введите
n8n-nodes-crawlbaseи нажмите Install. - Перезапустите n8n, если будет предложено. Crawlbase node теперь появится в поиске на холсте.
Учётные данные
Добавьте учётные данные Crawlbase API в разделе Settings → Credentials:
- Вставьте свой API Token из панели Crawlbase.
- Нажмите Test connection, чтобы убедиться в валидности токена перед запуском рабочего процесса.
Используйте ваш Normal Token для HTML-целей и ваш JavaScript Token для SPA и JS-рендеренных страниц - создайте по одной учётной записи на уровень токена и выбирайте подходящий для каждого узла.
Узел Crawlbase
Один узел Crawlbase оборачивает Crawling API. Перетащите его в рабочий процесс, укажите учётные данные и настройте поля запроса ниже.
page_wait, country, device, request_headers, cookies, scraper, screenshot, store, async и помощники JS-рендеринга. Полный список см. в справочнике параметров Crawling API.statusCode, headers, body и metadata (с originalStatus, cbStatus и итоговым url).Режим списка элементов
Установите URL Source в From input item field и укажите имя поля, содержащего URL (например, url). Узел выполняет один запрос Crawling API на каждый входной элемент и выдаёт один выходной элемент на каждый входной - подключайте напрямую Read-from-Sheet, Split-In-Batches или любой другой узел, выдающий список.
Лимиты запросов и повторные попытки
Лимиты запросов Crawlbase зависят от вашего тарифа. Чтобы рабочие процессы оставались устойчивыми:
- Включите в n8n опцию Retry On Fail на узле Crawlbase (вкладка Settings на узле).
- Установите Wait Between Tries минимум на 1 секунду - выше, если упираетесь в лимиты.
- Для больших списков URL разбивайте работу на части с помощью Loop Over Items или Split In Batches, а не отправляйте все запросы сразу.
Типовые рабочие процессы
- Schedule → Crawlbase → Postgres: ежедневный снимок страницы цен конкурента в базу данных.
- Webhook → Crawlbase → Email: обогащение данных о товарах по запросу.
- RSS → Crawlbase → Vector DB: наполнение самостоятельно размещаемого индекса для поиска.