Плагин Codex · Документация Crawlbase

Что он делает

Плагин Crawlbase Codex оборачивает Crawlbase MCP в нативный плагин для Codex. После установки вы можете попросить Codex обойти страницу, извлечь её содержимое или сделать скриншот на обычном английском языке - Codex выберет нужный инструмент, вызовет Crawlbase и вернёт результат.

На базе инфраструктуры Crawlbase: рендеринг JavaScript, автоматическая ротация прокси и встроенный обход анти-бот защиты. Та же надёжность, что и в продакшене, но с диалоговым интерфейсом в Codex.

Исходный код

Плагин с открытым исходным кодом: github.com/crawlbase/crawlbase-codex-plugin. Issues и PR приветствуются.

Предварительные требования

Вам нужен аккаунт Crawlbase и два API токена:

CRAWLBASE_TOKEN

required

Normal token - используется для статических страниц.

CRAWLBASE_JS_TOKEN

required

JavaScript token - используется для страниц с JS-рендерингом и всех скриншотов.

Получите оба токена в панели управления. См. Authentication, чтобы узнать о различиях.

Установка из Codex Marketplace

Откройте Codex и перейдите в Plugins → Browse Marketplace.
Найдите Crawlbase Web Scraper.
Нажмите Install.
При запросе укажите ваши CRAWLBASE_TOKEN и CRAWLBASE_JS_TOKEN.

Листинг в маркетплейсе скоро появится

Листинг в маркетплейсе пока находится на проверке. Тем временем используйте ручную установку ниже.

Ручная установка

Клонируйте репозиторий в директорию плагинов Codex и задайте переменные окружения:

# Clone the plugin into Codex's plugins directory
git clone https://github.com/crawlbase/crawlbase-codex-plugin \
  ~/.codex/plugins/crawlbase-mcp

# Set your tokens
export CRAWLBASE_TOKEN=YOUR_TOKEN
export CRAWLBASE_JS_TOKEN=YOUR_JS_TOKEN

# Restart Codex - the plugin auto-discovers

Использование

После установки обращайтесь к Codex естественным языком. Он выберет нужный инструмент и вызовет Crawlbase под капотом.

# Crawling
"Crawl https://example.com and return the HTML"
"Get the markdown content of https://example.com/article"
"Take a screenshot of https://example.com"

# Device emulation
"Fetch the page at https://example.com using a mobile browser"
"Take a full-page screenshot of https://example.com and describe what you see"

Доступные инструменты

Плагин регистрирует три инструмента для обхода и шесть инструментов для работы с хранилищем.

Инструменты обхода

crawl

инструмент

Получает любой URL и возвращает сырой HTML. Принимает store: true, чтобы отправить страницу в Cloud Storage вместо возврата inline.

crawl_markdown

инструмент

Обход URL и возврат чистого Markdown - содержимое, извлечённое из HTML-шума, оптимизированное для использования LLM. Поддерживает store: true.

crawl_screenshot

инструмент

Рендерит URL в PNG. Скриншот возвращается эфемерно через screenshot_url: исходный HTML можно сохранить с помощью store: true, но само изображение не сохраняется.

Инструменты хранилища

storage_get

инструмент

Получает одну сохранённую страницу по rid или url. Передайте as: "json", "html" или "markdown", чтобы выбрать формат ответа.

storage_bulk_get

инструмент

Получает до 100 RID за один вызов. Опциональный флаг delete_after для fire-and-forget пайплайнов.

storage_list

инструмент

Перечисляет сохранённые RID с пагинацией прокруткой, до 1 000 за вызов.

storage_count

инструмент

Общее количество документов в вашем silo хранилища.

storage_delete

инструмент

Удаляет одну сохранённую страницу по RID.

storage_bulk_delete

инструмент

Удаляет до 100 RID за один вызов.

Примеры использования хранилища

"Crawl https://example.com and store it in Crawlbase Cloud Storage"
"List all stored pages in Crawlbase"
"Fetch rid abc123 from storage as markdown"
"Bulk-retrieve these 50 rids and delete them afterward"
"How many pages do I have in Crawlbase storage?"

Раздельные silo для каждого токена

Хранилище разделено по токенам. Страницы, обойдённые с CRAWLBASE_TOKEN, находятся в отдельном silo от страниц, обойдённых с CRAWLBASE_JS_TOKEN (который обслуживает страницы с JS-рендерингом и все скриншоты).

Каждый ответ обхода включает поле token_type - "normal" или "js": оно указывает, в какое silo попал результат. При вызове любого инструмента хранилища передавайте use_js_token: true, если элемент находится в JS silo. В противном случае опустите этот параметр.

Запрос к неправильному silo возвращает "Not found"

Если storage_get возвращает ошибку not-found для RID, который точно существует, вы, скорее всего, обращаетесь к неправильному silo. Попробуйте снова с use_js_token: true (или уберите этот параметр, если он был установлен).

Crawlbase MCP Server- базовый MCP сервер, который оборачивает плагин
Cloud Storage- бэкенд хранилища
Шаблоны промптов- проверенные промпты, которые можно адаптировать для Codex

Что он делает

Предварительные требования

Установка из Codex Marketplace

Ручная установка

Использование

Доступные инструменты

Инструменты обхода

Инструменты хранилища

Примеры использования хранилища

Раздельные silo для каждого токена

См. также