Войти
Скоро - превью того, как это будет работать

Специализированный source-коннектор Crawlbase для Airbyte находится в разработке. Описание настройки и потоков ниже — это превью итогового процесса. Напишите нам, чтобы получить уведомление, когда он выйдет.

Нужно прямо сейчас? Используйте source HTTP API Airbyte для обращения к Crawling API или отправляйте результаты в Cloud Storage и подключайте бакет через S3-source Airbyte - оба варианта работают end-to-end без специализированного коннектора.

Настройка

  1. В вашем экземпляре Airbyte перейдите в Sources → New Source.
  2. Найдите Crawlbase и выберите его.
  3. Настройте: вставьте ваш token, выберите Crawler (очередь, в которую вы отправляете URL), выберите потоки для синхронизации.
  4. Протестируйте соединение, сохраните и подключите назначение.

Потоки

crawl_results
инкрементальный
Каждый завершённый краулинг, одна строка на URL. Столбцы: rid, url, pc_status, original_status, completed_at, body, headers.
scraper_outputs
инкрементальный
Структурированные результаты скрапера со схемами для каждого скрапера (Amazon, Google и т. д.), автоматически выводимыми и представленными как вложенные столбцы.
crawler_status
полное обновление
Снимок состояния очереди Crawler: количество задач в очереди, в работе, завершённых/неудачных по каждому Crawler.

Сценарии

  • Почасовое хранилище цен на товары: отправляйте URL товаров в Crawler с Amazon-скрапером. Синхронизируйте каждый час. Постройте dbt-модель сверху, чтобы отмечать снижение цен.
  • Архив комплаенса: ежедневные полнокадровые краулинги регулируемых сайтов, синхронизируемые в S3 через Airbyte. С временными метками, схемами и возможностью запросов.
  • SEO-мониторинг конкурентов: поисковая выдача скрапится еженедельно, синхронизируется в BigQuery, визуализируется в Looker.