Airbyteскоро
Направляйте вывод Crawlbase напрямую в Snowflake, BigQuery, Redshift или Postgres. Source-коннектор Airbyte берёт на себя инкрементальную синхронизацию и управление схемой.
Специализированный source-коннектор Crawlbase для Airbyte находится в разработке. Описание настройки и потоков ниже — это превью итогового процесса. Напишите нам, чтобы получить уведомление, когда он выйдет.
Нужно прямо сейчас? Используйте source HTTP API Airbyte для обращения к Crawling API или отправляйте результаты в Cloud Storage и подключайте бакет через S3-source Airbyte - оба варианта работают end-to-end без специализированного коннектора.
Настройка
- В вашем экземпляре Airbyte перейдите в Sources → New Source.
- Найдите Crawlbase и выберите его.
- Настройте: вставьте ваш token, выберите Crawler (очередь, в которую вы отправляете URL), выберите потоки для синхронизации.
- Протестируйте соединение, сохраните и подключите назначение.
Потоки
rid, url, pc_status, original_status, completed_at, body, headers.Сценарии
- Почасовое хранилище цен на товары: отправляйте URL товаров в Crawler с Amazon-скрапером. Синхронизируйте каждый час. Постройте dbt-модель сверху, чтобы отмечать снижение цен.
- Архив комплаенса: ежедневные полнокадровые краулинги регулируемых сайтов, синхронизируемые в S3 через Airbyte. С временными метками, схемами и возможностью запросов.
- SEO-мониторинг конкурентов: поисковая выдача скрапится еженедельно, синхронизируется в BigQuery, визуализируется в Looker.