Войти

Что он делает

Плагин Crawlbase Codex оборачивает Crawlbase MCP в нативный плагин для Codex. После установки вы можете попросить Codex обойти страницу, извлечь её содержимое или сделать скриншот на обычном английском языке - Codex выберет нужный инструмент, вызовет Crawlbase и вернёт результат.

На базе инфраструктуры Crawlbase: рендеринг JavaScript, автоматическая ротация прокси и встроенный обход анти-бот защиты. Та же надёжность, что и в продакшене, но с диалоговым интерфейсом в Codex.

Исходный код

Плагин с открытым исходным кодом: github.com/crawlbase/crawlbase-codex-plugin. Issues и PR приветствуются.

Предварительные требования

Вам нужен аккаунт Crawlbase и два API токена:

CRAWLBASE_TOKEN
required
Normal token - используется для статических страниц.
CRAWLBASE_JS_TOKEN
required
JavaScript token - используется для страниц с JS-рендерингом и всех скриншотов.

Получите оба токена в панели управления. См. Authentication, чтобы узнать о различиях.

Установка из Codex Marketplace

  1. Откройте Codex и перейдите в Plugins → Browse Marketplace.
  2. Найдите Crawlbase Web Scraper.
  3. Нажмите Install.
  4. При запросе укажите ваши CRAWLBASE_TOKEN и CRAWLBASE_JS_TOKEN.
Листинг в маркетплейсе скоро появится

Листинг в маркетплейсе пока находится на проверке. Тем временем используйте ручную установку ниже.

Ручная установка

Клонируйте репозиторий в директорию плагинов Codex и задайте переменные окружения:

# Clone the plugin into Codex's plugins directory
git clone https://github.com/crawlbase/crawlbase-codex-plugin \
  ~/.codex/plugins/crawlbase-mcp

# Set your tokens
export CRAWLBASE_TOKEN=YOUR_TOKEN
export CRAWLBASE_JS_TOKEN=YOUR_JS_TOKEN

# Restart Codex - the plugin auto-discovers

Использование

После установки обращайтесь к Codex естественным языком. Он выберет нужный инструмент и вызовет Crawlbase под капотом.

# Crawling
"Crawl https://example.com and return the HTML"
"Get the markdown content of https://example.com/article"
"Take a screenshot of https://example.com"

# Device emulation
"Fetch the page at https://example.com using a mobile browser"
"Take a full-page screenshot of https://example.com and describe what you see"

Доступные инструменты

Плагин регистрирует три инструмента для обхода и шесть инструментов для работы с хранилищем.

Инструменты обхода

crawl
инструмент
Получает любой URL и возвращает сырой HTML. Принимает store: true, чтобы отправить страницу в Cloud Storage вместо возврата inline.
crawl_markdown
инструмент
Обход URL и возврат чистого Markdown - содержимое, извлечённое из HTML-шума, оптимизированное для использования LLM. Поддерживает store: true.
crawl_screenshot
инструмент
Рендерит URL в PNG. Скриншот возвращается эфемерно через screenshot_url: исходный HTML можно сохранить с помощью store: true, но само изображение не сохраняется.

Инструменты хранилища

storage_get
инструмент
Получает одну сохранённую страницу по rid или url. Передайте as: "json", "html" или "markdown", чтобы выбрать формат ответа.
storage_bulk_get
инструмент
Получает до 100 RID за один вызов. Опциональный флаг delete_after для fire-and-forget пайплайнов.
storage_list
инструмент
Перечисляет сохранённые RID с пагинацией прокруткой, до 1 000 за вызов.
storage_count
инструмент
Общее количество документов в вашем silo хранилища.
storage_delete
инструмент
Удаляет одну сохранённую страницу по RID.
storage_bulk_delete
инструмент
Удаляет до 100 RID за один вызов.

Примеры использования хранилища

"Crawl https://example.com and store it in Crawlbase Cloud Storage"
"List all stored pages in Crawlbase"
"Fetch rid abc123 from storage as markdown"
"Bulk-retrieve these 50 rids and delete them afterward"
"How many pages do I have in Crawlbase storage?"

Раздельные silo для каждого токена

Хранилище разделено по токенам. Страницы, обойдённые с CRAWLBASE_TOKEN, находятся в отдельном silo от страниц, обойдённых с CRAWLBASE_JS_TOKEN (который обслуживает страницы с JS-рендерингом и все скриншоты).

Каждый ответ обхода включает поле token_type - "normal" или "js": оно указывает, в какое silo попал результат. При вызове любого инструмента хранилища передавайте use_js_token: true, если элемент находится в JS silo. В противном случае опустите этот параметр.

Запрос к неправильном�� silo возвращает "Not found"

Если storage_get возвращает ошибку not-found для RID, который точно существует, вы, скорее всего, обращаетесь к неправильному silo. Попробуйте снова с use_js_token: true (или уберите этот параметр, если он был установлен).