MCP Server · Документация Crawlbase

Что такое MCP?

Model Context Protocol - это открытый стандарт для подключения AI-ассистентов к внешним инструментам. MCP-сервер Crawlbase говорит на MCP, поэтому любой совместимый клиент - Claude Desktop, Cursor, Zed, Continue, OpenAI Agents SDK - может использовать Crawlbase как нативную возможность.

Результат: ваш AI может загрузить страницу, распарсить продукт, сделать скриншот или поискать в интернете прямо во время диалога. Никакого связующего кода, никакого копирования между окнами, никакого прокси-сервера.

Те же APIs, диалоговый интерфейс

MCP-сервер - это тонкая обёртка над теми же APIs, которые описаны в AI & MCP. Ваш token, ваши лимиты конкурентности, ваше потребление. Меняется только то, кто вызывает - ваш код или ваш AI.

Установка

Сервер работает как небольшой Node-процесс. Большинство клиентов запускают его по требованию через npx: глобальная установка не требуется.

# No install - let your client launch it
npx @crawlbase/mcp@latest
# Or install globally if you prefer
npm install -g @crawlbase/mcp
crawlbase-mcp
docker run -i --rm \
  -e CRAWLBASE_TOKEN=YOUR_TOKEN \
  -e CRAWLBASE_JS_TOKEN=YOUR_JS_TOKEN \
  crawlbase/mcp

Исходный код на GitHub. При прямом запуске требуется Node 18+.

Настройка клиента

Каждый MCP-клиент использует одну и ту же форму конфига - имя сервера, команда для запуска, переменные окружения. Просто вставьте это в конфигурационный файл вашего клиента.

{
  "mcpServers": {
    "crawlbase": {
      "type": "stdio",
      "command": "npx",
      "args": ["@crawlbase/mcp@latest"],
      "env": {
        "CRAWLBASE_TOKEN": "YOUR_TOKEN",
        "CRAWLBASE_JS_TOKEN": "YOUR_JS_TOKEN"
      }
    }
  }
}

Руководства по настройке для конкретных клиентов:

Claude Desktop & Claude Code - конфиг помещается в claude_desktop_config.json / claude.json
Cursor - Settings → Tools and Integrations → Add Custom MCP
VS Code & Windsurf - через Continue, Cline или встроенную поддержку MCP в Windsurf
Codex plugin - оборачивает этот сервер как нативный плагин Codex

Доступные инструменты

Сервер регистрирует три инструмента для краулинга и шесть инструментов для работы с хранилищем. Ваш AI видит каждый из них как вызываемую функцию.

Инструменты краулинга

crawl

инструмент

Загружает любой URL и возвращает сырой HTML. Соответствует Crawling API. Принимает store: true для отправки результатов в Cloud Storage.

crawl_markdown

инструмент

Краулит URL и возвращает чистый Markdown - контент извлечён из HTML и оптимизирован для потребления LLM.

crawl_screenshot

инструмент

Рендерит URL как PNG. Возвращается как изображение, которое модель может видеть напрямую. Принимает store: true для сохранения исходной HTML-страницы в Cloud Storage (само изображение скриншота не сохраняется - только отрендеренный HTML).

Инструменты хранилища

Шесть инструментов для получения страниц, сохранённых через store: true, и управления ими:

storage_get

инструмент

Получает одну сохранённую страницу по rid или url. Форма ответа выбирается через as: "json" | "html" | "markdown".

storage_bulk_get

инструмент

Получает до 100 RID за один вызов. Передайте as: "metadata_only" (по умолчанию), чтобы сохранить контекст компактным - возвращаются только RID/URL/таймстампы, - или as: "json" | "html" | "markdown", чтобы включить тела. Опциональный auto_delete: true для fire-and-forget пайплайнов, которые опустошают силос по мере чтения.

storage_list

инструмент

Перечисляет сохранённые RID с постраничной прокруткой, до 1 000 за вызов.

storage_count

инструмент

Общее количество документов в вашем силосе хранилища.

storage_delete

инструмент

Удаляет одну сохранённую страницу по RID.

storage_bulk_delete

инструмент

Удаляет до 100 сохранённых страниц по RID за один вызов. Удобно для очистки силоса в конце конвейера.

Силосы хранилища на каждый token

Хранилище разделено по токенам. Страницы, скраулённые с CRAWLBASE_TOKEN, лежат в другом силосе, чем страницы, скраулённые с CRAWLBASE_JS_TOKEN. Поле token_type в ответах краулинга ("normal" или "js") показывает, какой именно. Передавайте use_js_token: true в инструменты хранилища при получении элементов из JS-силоса.

Пример сессии

После настройки ваш AI вызывает эти инструменты естественно по ходу диалога. Типичный ход выглядит так:

# You
What's the current price of "Web Scraping with Python" (3rd ed.) on Amazon US, UK, and DE?

# AI (calls crawl_markdown three times in parallel)
tool_use: crawl_markdown(
  url="https://www.amazon.com/dp/1098145356"
)
tool_use: crawl_markdown(
  url="https://www.amazon.co.uk/dp/1098145356"
)
tool_use: crawl_markdown(
  url="https://www.amazon.de/dp/1098145356"
)

# AI
"Web Scraping with Python" (3rd ed.) prices right now:
- US: $59.99 (in stock)
- UK: £52.99 (in stock)
- DE: €57.99 (in stock)
The US price is the lowest after currency conversion (~£47).

Переменные окружения

CRAWLBASE_TOKEN

обязательно

Ваш Normal token. Используется по умолчанию для инструментов crawl, crawl_markdown и инструментов хранилища.

CRAWLBASE_JS_TOKEN

рекомендуется

Ваш JavaScript token. Используется для crawl_screenshot и любых вызовов инструментов, требующих JS-рендеринга (SPA, страницы с клиентским рендерингом).

CRAWLBASE_DEFAULT_COUNTRY

опционально

Страна по умолчанию для гео-маршрутизации (ISO-код). Инструменты могут переопределять её при каждом вызове.

CRAWLBASE_LOG_LEVEL

информация

Одно из значений: error, warn, info, debug. Логи идут в stderr, чтобы не мешать MCP stdio.

Замечания по безопасности

Токены никогда не покидают процесс сервера. MCP-клиент видит определения инструментов и их результаты, но не ваши учётные данные.
Модель может запросить любой URL. Если вы беспокоитесь о том, что prompt injection приведёт к нежелательным исходящим запросам, запускайте сервер с CRAWLBASE_ALLOWED_DOMAINS, заданным как allowlist.
Запускайте локально. Сервер рассчитан на локальный stdio-транспорт. Не выставляйте его в сеть без слоя аутентификации.