Airbyte · Документация Crawlbase

Скоро - превью того, как это будет работать

Специализированный source-коннектор Crawlbase для Airbyte находится в разработке. Описание настройки и потоков ниже — это превью итогового процесса. Напишите нам, чтобы получить уведомление, когда он выйдет.

Нужно прямо сейчас? Используйте source HTTP API Airbyte для обращения к Crawling API или отправляйте результаты в Cloud Storage и подключайте бакет через S3-source Airbyte - оба варианта работают end-to-end без специализированного коннектора.

Настройка

В вашем экземпляре Airbyte перейдите в Sources → New Source.
Найдите Crawlbase и выберите его.
Настройте: вставьте ваш token, выберите Crawler (очередь, в которую вы отправляете URL), выберите потоки для синхронизации.
Протестируйте соединение, сохраните и подключите назначение.

Потоки

crawl_results

инкрементальный

Каждый завершённый краулинг, одна строка на URL. Столбцы: rid, url, cb_status, original_status, completed_at, body, headers.

scraper_outputs

инкрементальный

Структурированные результаты скрапера со схемами для каждого скрапера (Amazon, Google и т. д.), автоматически выводимыми и представленными как вложенные столбцы.

crawler_status

полное обновление

Снимок состояния очереди Crawler: количество задач в очереди, в работе, завершённых/неудачных по каждому Crawler.

Сценарии

Почасовое хранилище цен на товары: отправляйте URL товаров в Crawler с Amazon-скрапером. Синхронизируйте каждый час. Постройте dbt-модель сверху, чтобы отмечать снижение цен.
Архив комплаенса: ежедневные полнокадровые краулинги регулируемых сайтов, синхронизируемые в S3 через Airbyte. С временными метками, схемами и возможностью запросов.
SEO-мониторинг конкурентов: поисковая выдача скрапится еженедельно, синхронизируется в BigQuery, визуализируется в Looker.