Универсальные экстракторы

Обзор

Универсальные экстракторы заполняют пробелы между именованными скрейперами. Когда нужного сайта ещё нет в каталоге (нишевые маркетплейсы, региональные ритейлеры, внутренние порталы), эти два скрейпера позволяют вам самостоятельно описать страницу, а мы выполним извлечение данных.

generic-extractor принимает схему CSS-селекторов (или использует наше автоопределение) и возвращает извлечённые значения. email-extractor создан специально для одной распространённой задачи: извлечения всех email-адресов, видимых на странице, независимо от того, как страница их скрывает (ссылки mailto, обычный текст, слегка обфусцированные шаблоны вроде name [at] domain.com).

Типичные сценарии использования:

Загрузка каталогов с длинным хвостом: задайте схему для регионального ритейлера и запускайте ночные импорты без необходимости выпуска отдельного скрейпера с нашей стороны.
Генерация лидов: пройдите по списку сайтов компаний, запустите email-extractor, постройте список потенциальных клиентов для контакта (с учётом правил исходящей email-рассылки в вашей юрисдикции).
Исследовательские пайплайны: извлекайте структурированные поля (заголовки, метаданные) с любой страницы для последующего NLP-анализа, что полезно, когда нужны нормализованные входные данные из разнородных источников.
Мониторинг сайтов: определите схему один раз и отслеживайте изменения цен или текста у конкурентов, сравнивая полученный JSON во времени.

Оба скрейпера используют тот же стек обхода анти-бот защиты, резидентного роутинга и JS-рендеринга, что и именованные скрейперы, поэтому автоопределение работает на JS-нагруженных SPA без необходимости подключать отдельный браузер. Если со временем для цели потребуется отдельный парсер, написанная вами схема станет хорошим документом для передачи нашей команде скрейперов.

Два универсальных строительных блока: один для произвольного структурированного извлечения, другой для всегда востребованной задачи извлечения email-адресов. Используйте их, когда для нужного вам сайта нет именованного скрейпера.

Generic Extractor - схемно-управляемый HTML-экстрактор. Передайте селекторы и получите структурированный JSON.
Email Extractor - извлекает все email-адреса, видимые на странице.

Пример вызова

Ниже: вызов generic-extractor для главной страницы Stack Overflow. Без указания схемы скрейпер возвращает автоматически определённые метаданные: заголовок страницы, язык и заголовки, сгруппированные по уровням. Передайте свой объект selectors (см. полный справочник), чтобы извлечь конкретные поля.

      curl 'https://api.crawlbase.com/?token=YOUR_TOKEN' \
  --data-urlencode 'url=https://stackoverflow.com/' \
  --data-urlencode 'scraper=generic-extractor' -G
    

Пример ответа

      {
  "url": "https://stackoverflow.com/",
  "title": "Stack Overflow - Where Developers Learn...",
  "language": "en",
  "headings": {
    "h1": ["Where developers grow together"],
    "h2": ["Hot Network Questions"]
  }
}
    

Полный справочник (параметры, все 4 языка SDK, крайние случаи): Generic Extractor: полный справочник