Войти

Обзор

Универсальные экстракторы заполняют пробелы между именованными скрейперами. Когда нужного сайта ещё нет в каталоге (нишевые маркетплейсы, региональные ритейлеры, внутренние порталы), эти два скрейпера позволяют вам самостоятельно описать страницу, а мы выполним извлечение данных.

generic-extractor принимает схему CSS-селекторов (или использует наше автоопределение) и возвращает извлечённые значения. email-extractor создан специально для одной распространённой задачи: извлечения всех email-адресов, видимых на странице, независимо от того, как страница их скрывает (ссылки mailto, обычный текст, слегка обфусцированные шаблоны вроде name [at] domain.com).

Типичные сценарии использования:

  • Загрузка каталогов с длинным хвостом: задайте схему для регионального ритейлера и запускайте ночные импорты без необходимости выпуска отдельного скрейпера с нашей стороны.
  • Генерация лидов: пройдите по списку сайтов компаний, запустите email-extractor, постройте список потенциальных клиентов для контакта (с учётом правил исходящей email-рассылки в вашей юрисдикции).
  • Исследовательские пайплайны: извлекайте структурированные поля (заголовки, метаданные) с любой страницы для последующего NLP-анализа, что полезно, когда нужны нормализованные входные данные из разнородных источников.
  • Мониторинг сайтов: определите схему один раз и отслеживайте изменения цен или текста у конкурентов, сравнивая полученный JSON во времени.

Оба скрейпера используют тот же стек обхода анти-бот защиты, резидентного роутинга и JS-рендеринга, что и именованные скрейперы, поэтому автоопределение работает на JS-нагруженных SPA без необходимости подключать отдельный браузер. Если со временем для цели потребуется отдельный парсер, написанная вами схема станет хорошим документом для передачи нашей команде скрейперов.

Универсальные экстракторы

Два универсальных строительных блока: один для произвольного структурированного извлечения, другой для всегда востребованной задачи извлечения email-адресов. Используйте их, когда для нужного вам сайта нет именованного скрейпера.

  • Generic Extractor - схемно-управляемый HTML-экстрактор. Передайте селекторы и получите структурированный JSON.
  • Email Extractor - извлекает все email-адреса, видимые на странице.

Пример вызова

Ниже: вызов generic-extractor для главной страницы Stack Overflow. Без указания схемы скрейпер возвращает автоматически определённые метаданные: заголовок страницы, язык и заголовки, сгруппированные по уровням. Передайте свой объект selectors (см. полный справочник), чтобы извлечь конкретные поля.

curl 'https://api.crawlbase.com/?token=YOUR_TOKEN' \
  --data-urlencode 'url=https://stackoverflow.com/' \
  --data-urlencode 'scraper=generic-extractor' -G

Пример ответа

{
  "url": "https://stackoverflow.com/",
  "title": "Stack Overflow - Where Developers Learn...",
  "language": "en",
  "headings": {
    "h1": ["Where developers grow together"],
    "h2": ["Hot Network Questions"]
  }
}

Полный справочник (параметры, все 4 языка SDK, крайние случаи):Generic Extractor: полный справочник