Создайте AI-скрапер без кода

Идея скрапера без кода на основе AI проста: опишите нужные данные на обычном языке, и рабочий процесс сам загрузит страницу, передаст её языковой модели и вернёт чистые структурированные строки. Никаких селекторов, никаких скриптов, которые нужно поддерживать, и, главное, никаких инженеров. В этом руководстве показано, как именно это реализовать с Crawlbase: визуальный рабочий процесс в n8n, соединяющий Crawlbase Web MCP (или Crawling API) с языковой моделью, чтобы любой сотрудник без технического образования мог скрапить и структурировать реальные веб-данные.

Все компоненты готовы к использованию. n8n даёт холст с функцией перетаскивания, Crawlbase берёт на себя сложную задачу получения страницы, которая защищается от ботов, а языковая модель превращает «грязный» HTML в JSON нужной структуры. От вас требуется только краткая инструкция и минимальная настройка. В результате вы получите no-code AI-скрапер с Crawlbase, которым сможет пользоваться любой член команды.

Что на самом деле делает AI-скрапер без кода

Полезно чётко разграничить зоны ответственности, поскольку магическое слово «AI» скрывает три разные задачи. Получение данных подразумевает загрузку отрендеренной страницы несмотря на JavaScript, ротацию прокси и защиту от ботов. Интерпретация означает чтение этого HTML и извлечение нужных полей. Оркестрация соединяет эти шаги так, чтобы они выполнялись по расписанию или по триггеру без ручного вмешательства.

В этой конфигурации Crawlbase отвечает за получение данных, языковая модель за интерпретацию, а n8n за оркестрацию. Чёткое разграничение этих зон делает рабочий процесс надёжным. Языковая модель хорошо читает контент, но плохо обходит блокировки, поэтому нельзя просить её напрямую обращаться к URL. Crawlbase хорошо загружает страницы и не занимается их смысловым анализом, поэтому не нужно просить его «понять» страницу. Каждый узел делает то, в чём он лучше всего.

Необходимые инструменты

Три аккаунта, ни один из которых не требует написания кода для настройки.

n8n, инструмент no-code/low-code для автоматизации рабочих процессов. Используйте n8n Cloud или самостоятельно развёрнутый экземпляр; оба предоставляют одинаковый визуальный холст.
Аккаунт Crawlbase для уровня получения данных. После регистрации вы получите обычный токен и JavaScript (JS) токен из панели управления. Используйте JS-токен для страниц с клиентским рендерингом.
Провайдер языковой модели, например Claude или GPT, подключённый через встроенные AI-узлы n8n или обычный HTTP-узел.

Подключить Crawlbase к рабочему процессу можно двумя способами. Сервер Web MCP открывает возможности Crawlbase как набор инструментов, которые AI-агент может вызывать самостоятельно, это лучше всего подходит, когда ваш no-code инструмент имеет нативный узел MCP или AI-агента. Если предпочтительнее явный подход, Crawling API представляет собой обычный HTTP-эндпоинт, который можно вызвать из любого HTTP-узла. В основной части руководства используется узел Crawling API, поскольку он работает в любой версии n8n; затем будет показано, как вместо него использовать MCP-сервер.

MCP или API

MCP-сервер и Crawling API используют один и тот же движок получения данных. MCP предназначен для AI-агентов, которые самостоятельно решают, какой инструмент вызвать и когда; Crawling API, это прямой запрос, управляемый вами пошагово. Если в вашем no-code инструменте есть нативный узел MCP, маршрут через MCP позволяет агенту самостоятельно загружать страницы. Если нет, HTTP-узел с вызовом Crawling API даёт тот же результат без дополнительных настроек.

Структура рабочего процесса

Визуальный процесс состоит из четырёх узлов, расположенных слева направо на холсте n8n. Триггер запускает выполнение вручную, по расписанию или по вебхуку. Узел HTTP Request вызывает Crawlbase Crawling API и возвращает отрендеренный HTML. Узел AI / LLM получает этот HTML вместе с инструкцией по извлечению данных и возвращает структурированный JSON. Финальный узел записывает результат туда, где он будет полезен: в Google Sheets, базу данных, Slack-сообщение или просто в вывод рабочего процесса.

Это и есть вся картина. Каждый шаг после триггера, это узел, который вы перетаскиваете на холст и соединяете линией. Вам нужно ввести только URL, токен и одно предложение-инструкцию.

Шаг 1: Добавьте триггер

Создайте новый рабочий процесс и добавьте узел триггера. Для первого теста удобнее всего Manual Trigger, потому что можно нажать «Execute workflow» и наблюдать прохождение данных. Когда всё заработает, замените его на Schedule Trigger, чтобы запускать скрапинг каждое утро, или на Webhook, чтобы другая система могла его запустить. Всё нижестоящее остаётся без изменений при смене триггера: именно в этом смысл разделения оркестрации.

Шаг 2: Получите страницу с помощью Crawlbase

Добавьте узел HTTP Request и подключите его к триггеру. Этот узел обращается к Crawling API. Задайте метод GET и укажите эндпоинт Crawlbase, передавая токен, целевой URL и флаг рендеринга JS для страниц с клиентским кодом. В n8n это заполняется в полях узла, но по сути это единственный запрос, который выглядит примерно так.

bash

https://api.crawlbase.com/?token=YOUR_CRAWLBASE_JS_TOKEN&javascript=true&ajax_wait=true&url=https%3A%2F%2Fwww.ebay.com%2Fstr%2Fbestsellingproducts

Здесь важны три вещи. token, это ваш JS-токен, который указывает Crawlbase отрендерить страницу в реальном браузере перед возвратом. Флаг javascript=true включает этот рендеринг, а ajax_wait=true ожидает асинхронный контент, чтобы объявления, загружаемые с задержкой, присутствовали в ответе. url, это целевой адрес в URL-кодировке. Crawlbase ротирует резидентные IP и обрабатывает CAPTCHA на своей стороне, поэтому узел получает готовый HTML, а не пустую оболочку или страницу-заглушку.

В узле HTTP Request в n8n добавьте эти параметры как query-параметры, а не собирайте строку вручную. Поместите токен в credentials, чтобы он не хранился в открытом виде на холсте, задайте url как выражение, читающее из триггера, и у вас получится переиспользуемый шаг загрузки.

Шаг 3: Передайте HTML языковой модели

Добавьте AI-узел: нативный AI Agent или Basic LLM Chain в n8n, и подключите его к узлу HTTP Request. Здесь происходит интерпретация. Вы передаёте HTML из предыдущего шага вместе с чёткой инструкцией, описывающей нужные поля и точную JSON-структуру. Промпт, подобный приведённому ниже, хорошо работает на практике.

bash

You are a data extraction assistant. From the HTML below, extract every
product as an object with these keys: title (string), price (number),
condition (string), seller (string), url (string).

Return a JSON array only, no prose. If a field is missing, set it to null.
If a product is out of stock, still include it and add availability: false.

HTML:
{{ $json.body }}

Выражение {{ $json.body }} подставляет HTML, возвращённый узлом Crawlbase, в промпт. Остальное делает инструкция: она перечисляет ключи, фиксирует их типы и указывает модели, как вести себя в нестандартных ситуациях. Поскольку языковая модель читает контент семантически, она извлекает цены и данные продавцов даже при изменении разметки между объявлениями, что и является тем преимуществом устойчивости, которого не хватает скраперу, основанному на CSS-селекторах.

Crawlbase Web MCP

Хотите, чтобы AI-агент сам загружал страницы, а не выполнял фиксированный HTTP-шаг? MCP-сервер Web открывает возможности Crawlbase как инструменты, которые агент может вызывать самостоятельно: он решает, когда сканировать, когда повторно рендерить и когда переходить к следующей странице, всё это на фоне ротирующих резидентных IP. Добавьте MCP-сервер в узел агента вашего no-code инструмента и уровень загрузки данных станет одной из встроенных возможностей модели. Начните с бесплатного тарифа и укажите публичную страницу для первого теста.

Start free

Шаг 4: Сохраните структурированный вывод

AI-узел теперь выдаёт чистый JSON-массив. Добавьте финальный узел, чтобы сохранить данные там, где они будут использоваться. Узел Google Sheets добавит каждый продукт как строку, узел Postgres или MySQL запишет в таблицу, а узел Slack или email отправит сводку. Поскольку данные уже структурированы, маппинг на колонки делается перетаскиванием: подключите каждый JSON-ключ к целевому полю и запустите рабочий процесс.

Результат, именно то, к чему стремился no-code AI-скрапер. Нетехнический специалист нажимает «Execute workflow», и чистый набор данных оказывается в таблице без какого-либо HTML, без селекторов и без скриптов.

Использование MCP-сервера Web вместо HTTP-узла

Если ваш no-code инструмент поддерживает MCP, шаги 2 и 3 можно объединить в один. Вместо фиксированного HTTP-узла вы открываете AI-агенту доступ к MCP-серверу и позволяете ему самостоятельно вызывать инструмент сканирования. Агент читает вашу инструкцию («получи самые продаваемые товары с этой страницы eBay в виде JSON»), вызывает инструмент Crawlbase для загрузки отрендеренного HTML, а затем извлекает поля в рамках того же запроса. Подключение представляет собой небольшой JSON-блок в настройках MCP вашего инструмента.

json

{
  "mcpServers": {
    "crawlbase": {
      "command": "npx",
      "args": ["-y", "@crawlbase/mcp"],
      "env": {
        "CRAWLBASE_TOKEN": "YOUR_CRAWLBASE_JS_TOKEN"
      }
    }
  }
}

После регистрации сервера агент воспринимает сканирование как встроенный навык. Это наиболее «no-code» вариант сборки, поскольку получение данных и их интерпретация объединены в одном AI-шаге, а оркестрация в n8n остаётся такой же, как прежде. Подробное руководство по этому пути описано в статье как подключить n8n к Crawlbase Web MCP, а о том, почему важно передавать реальные данные в реальном времени языковой модели, рассказывает статья представляем Crawlbase MCP.

Инструкции, дающие чистые данные

Рабочий процесс настолько хорош, насколько чёткая инструкция дана модели. Те же приёмы, что улучшают любой промпт, применимы здесь и ничего не стоят.

Называйте поля и их типы

Размытое «получи данные с этой страницы» даёт непоследовательный вывод. Пропишите каждый ключ и его тип, как в промпте на шаге 3, и модель будет строго следовать схеме. Укажите точную JSON-структуру, которую ожидаете, вместо того чтобы надеяться, что модель угадает её.

Предусматривайте отсутствующие или нестандартные значения

Реальные страницы бывают неаккуратными. Скажите модели, что делать, если поле отсутствует («установить в null»), и как обрабатывать крайние случаи («если товар не в наличии, всё равно включите его с availability: false»). Это делает каждую строку согласованной и избавляет от дополнительного прохода очистки.

Проверяйте JSON перед сохранением

Добавьте небольшой шаг валидации перед финальным узлом, либо встроенный в n8n парсер JSON, либо короткий Function-узел, чтобы некорректный ответ явно завершился с ошибкой, а не записал мусор в вашу таблицу. Относитесь к выводу языковой модели как к ненадёжным данным до тех пор, пока он не прошёл парсинг.

Почему это лучше написанного вручную скрапера для нетехнических специалистов

Привлекательность не только в «меньшем количестве кода», но и в том, кто может им пользоваться. Как только рабочий процесс создан, маркетолог или аналитик может изменить целевой URL, скорректировать промпт и перезапустить, не привлекая инженеров. Семантическое чтение модели означает также, что небольшие изменения разметки на целевом сайте не ломают запуск так, как ломал бы хрупкий CSS-селектор. А поскольку Crawlbase берёт на себя всю нагрузку по получению данных (рендеринг JavaScript, ротация резидентных IP, обход CAPTCHA), рабочий процесс остаётся работоспособным без необходимости тюнинга прокси-пулов.

Для команд, сравнивающих подходы по стоимости, AI-скрапинг как правило обходится в долю стоимости самодельного пайплайна, если учитывать инженерные и эксплуатационные расходы: многие команды сообщают об экономии около 70–90 процентов за год. Для дополнительного контекста о том, где этот паттерн применим, читайте руководство по сценариям использования AI-прокси. Если вам нужен ещё более простой уровень получения данных, Smart AI Proxy направляет любой запрос через ту же инфраструктуру защиты от блокировок, а Crawling API возвращает предварительно разобранный JSON для распространённых типов сайтов без LLM вообще.

Итоги

Ключевые выводы

Три задачи, три уровня. Crawlbase получает данные, LLM интерпретирует, n8n оркестрирует. Разграничение, основа надёжности рабочего процесса.
Сборка из четырёх узлов. Триггер, HTTP Request к Crawling API, AI-извлечение, затем финальный узел. Вводить текст нужно только для URL, токена и одной инструкции.
Используйте JS-токен для отрендеренных страниц. Передавайте javascript=true и ajax_wait=true, чтобы Crawlbase вернул готовый HTML, а не пустую оболочку.
Промпт, это парсер. Назовите каждое поле и его тип и скажите модели, как обрабатывать отсутствующие данные, чтобы получать согласованный JSON.
MCP объединяет загрузку и извлечение. Если в вашем инструменте есть нативный узел агента, Web MCP позволяет модели самостоятельно выполнять сканирование за один шаг.
Нетехнические специалисты могут управлять процессом. После создания рабочего процесса любой может изменить URL или промпт и перезапустить, без необходимости поддерживать селекторы.

Часто задаваемые вопросы

Нужно ли знать программирование, чтобы собрать это?

Нет. Весь рабочий процесс строится перетаскиванием узлов на холст n8n и соединением их. Единственный текст, который вы вводите, это целевой URL, токен Crawlbase (хранящийся в credentials) и одна инструкция на обычном языке для языковой модели. Никаких скриптов скрапинга и никаких селекторов писать не нужно.

Что лучше использовать: Web MCP-сервер или Crawling API?

Оба используют один движок получения данных Crawlbase. Используйте Crawling API через HTTP-узел, когда хотите, чтобы каждый шаг был явным, и это работало в любой версии инструмента. Используйте сервер Web MCP, когда ваш no-code инструмент имеет нативный узел AI-агента или MCP, чтобы модель могла загружать и извлекать данные за один шаг, а не за два.

Зачем пропускать страницу через Crawlbase вместо того, чтобы языковая модель сама обращалась к URL?

Языковые модели хорошо читают контент и плохо обходят блокировки. Большинство коммерческих сайтов используют клиентский рендеринг и ставят вызовы для автоматизированного трафика, поэтому прямой запрос вернёт пустую оболочку или страницу-заглушку. Crawlbase рендерит страницу в реальном браузере на фоне ротирующих резидентных IP и обходит CAPTCHA, чтобы модель получала полноценный HTML для работы.

Как получить более надёжный структурированный вывод от модели?

Будьте точны в промпте: назовите каждое поле и его тип, укажите точную JSON-структуру и скажите модели, как обрабатывать отсутствующие или нестандартные значения. Затем добавьте шаг валидации перед финальным узлом, чтобы некорректный JSON явно завершался с ошибкой, а не записывал плохие строки. Относитесь к выводу модели как к ненадёжным данным, пока они не прошли парсинг чисто.

Можно ли запускать это по расписанию или инициировать из другой системы?

Да. Замените триггер вручную на Schedule Trigger для запуска скрапинга с заданным интервалом или на Webhook, чтобы другое приложение могло запустить процесс. Всё нижестоящее остаётся без изменений, поскольку оркестрация отделена от получения данных и извлечения. Именно это позволяет нетехническому специалисту настроить регулярный сбор данных, не затрагивая логику загрузки или парсинга.

Какие данные можно собирать таким способом?

Любые публичные веб-данные, доступные рабочему процессу: списки товаров и цены, инвентарь маркетплейсов, записи из каталогов или агрегированный контент из нескольких источников. Придерживайтесь публичных страниц, соблюдайте условия использования каждого сайта и ожидаемую частоту запросов, избегайте данных за логином и персональных данных. О смежных сценариях читайте в руководстве по сценариям использования AI-прокси.

Ian Kalvin

Инженер технической поддержки · Crawlbase

Инженер технической поддержки в Crawlbase, пишет с переднего края того, что на самом деле ломается в продакшене при скрейпинге и в прокси-конфигурациях.

Neil Zamora

Старший архитектор · Crawlbase

Старший архитектор в Crawlbase, сосредоточен на системах, стоящих за краулингом в больших масштабах: ротация прокси, устойчивость к anti-bot и API, скрывающие эту сложность.

Начать создавать

Обходите любой сайт в масштабе, без борьбы с инфраструктурой.

Crawlbase берёт на себя прокси, отпечатки и CAPTCHA, чтобы ваша команда выпускала конвейеры данных вместо поддержки обвязки краулинга. 1 000 запросов бесплатно, без карты.

Получить бесплатный API-ключ →Читать документацию

Самообслуживание · Звонок отдела продаж не требуется · Доступны корпоративные объёмы краулинга