Использование с OpenAI
Нативный плагин, который интегрирует Crawlbase MCP в OpenAI Codex. Обходите любой URL, извлекайте чистый Markdown, делайте скриншоты и при необходимости отправляйте результаты в Cloud Storage - всё это без выхода из Codex.
Что он делает
Плагин Crawlbase Codex оборачивает Crawlbase MCP в нативный плагин для Codex. После установки вы можете попросить Codex обойти страницу, извлечь её содержимое или сделать скриншот на обычном английском языке - Codex выберет нужный инструмент, вызовет Crawlbase и вернёт результат.
На базе инфраструктуры Crawlbase: рендеринг JavaScript, автоматическая ротация прокси и встроенный обход анти-бот защиты. Та же надёжность, что и в продакшене, но с диалоговым интерфейсом в Codex.
Плагин с открытым исходным кодом: github.com/crawlbase/crawlbase-codex-plugin. Issues и PR приветствуются.
Предварительные требования
Вам нужен аккаунт Crawlbase и два API токена:
Получите оба токена в панели управления. См. Authentication, чтобы узнать о различиях.
Установка из Codex Marketplace
- Откройте Codex и перейдите в Plugins → Browse Marketplace.
- Найдите Crawlbase Web Scraper.
- Нажмите Install.
- При запросе укажите ваши
CRAWLBASE_TOKENиCRAWLBASE_JS_TOKEN.
Листинг в маркетплейсе пока находится на проверке. Тем временем используйте ручную установку ниже.
Ручная установка
Клонируйте репозиторий в директорию плагинов Codex и задайте переменные окружения:
# Clone the plugin into Codex's plugins directory
git clone https://github.com/crawlbase/crawlbase-codex-plugin \
~/.codex/plugins/crawlbase-mcp
# Set your tokens
export CRAWLBASE_TOKEN=YOUR_TOKEN
export CRAWLBASE_JS_TOKEN=YOUR_JS_TOKEN
# Restart Codex - the plugin auto-discoversИспользование
После установки обращайтесь к Codex естественным языком. Он выберет нужный инструмент и вызовет Crawlbase под капотом.
# Crawling
"Crawl https://example.com and return the HTML"
"Get the markdown content of https://example.com/article"
"Take a screenshot of https://example.com"
# Device emulation
"Fetch the page at https://example.com using a mobile browser"
"Take a full-page screenshot of https://example.com and describe what you see"Доступные инструменты
Плагин регистрирует три инструмента для обхода и шесть инструментов для работы с хранилищем.
Инструменты обхода
store: true, чтобы отправить страницу в Cloud Storage вместо возврата inline.store: true.screenshot_url: исходный HTML можно сохранить с помощью store: true, но само изображение не сохраняется.Инструменты хранилища
rid или url. Передайте as: "json", "html" или "markdown", чтобы выбрать формат ответа.delete_after для fire-and-forget пайплайнов.Примеры использования хранилища
"Crawl https://example.com and store it in Crawlbase Cloud Storage"
"List all stored pages in Crawlbase"
"Fetch rid abc123 from storage as markdown"
"Bulk-retrieve these 50 rids and delete them afterward"
"How many pages do I have in Crawlbase storage?"Раздельные silo для каждого токена
Хранилище разделено по токенам. Страницы, обойдённые с CRAWLBASE_TOKEN, находятся в отдельном silo от страниц, обойдённых с CRAWLBASE_JS_TOKEN (который обслуживает страницы с JS-рендерингом и все скриншоты).
Каждый ответ обхода включает поле token_type - "normal" или "js": оно указывает, в какое silo попал результат. При вызове любого инструмента хранилища передавайте use_js_token: true, если элемент находится в JS silo. В противном случае опустите этот параметр.
Если storage_get возвращает ошибку not-found для RID, который точно существует, вы, скорее всего, обращаетесь к неправильному silo. Попробуйте снова с use_js_token: true (или уберите этот параметр, если он был установлен).
См. также
- Crawlbase MCP Server - базовый MCP сервер, который оборачивает плагин
- Cloud Storage - бэкенд хранилища
- Шаблоны промптов - проверенные промпты, которые можно адаптировать для Codex