Войти

Предварительные требования

Вам нужны ровно две вещи:

  • Бесплатный аккаунт Crawlbase - даёт 1 000 бесплатных запросов, без кредитной карты.
  • Либо curl в вашей командной строке, либо один из наших официальных SDKs в вашем проекте.
Два токена, один аккаунт

У каждого аккаунта есть Normal token (TCP, самый быстрый) и JavaScript token (полный рендеринг в Chrome). Выбирайте в зависимости от сайта: большинство APIs и статических страниц работают с Normal token.

Ваш первый запрос

Crawling API принимает один обязательный параметр - url: полностью URL-кодированный. Вставьте свой токен, и вы уже краулите.

GEThttps://api.crawlbase.com/?token=YOUR_TOKEN&url=ENCODED_URL
curl 'https://api.crawlbase.com/?token=YOUR_TOKEN&url=https%3A%2F%2Fhttpbin.org%2Fheaders'
from crawlbase import CrawlingAPI

api = CrawlingAPI({'token': 'YOUR_TOKEN'})
res = api.get('https://httpbin.org/headers')

print(res['status_code'])
print(res['body'])
const { CrawlingAPI } = require('crawlbase');
const api = new CrawlingAPI({ token: 'YOUR_TOKEN' });

const res = await api.get('https://httpbin.org/headers');
console.log(res.statusCode, res.body);
require 'crawlbase'

api = Crawlbase::API.new(token: 'YOUR_TOKEN')
res = api.get('https://httpbin.org/headers')

puts res.status_code
puts res.body
<?php
use Crawlbase\CrawlingAPI;

$api = new CrawlingAPI(['token' => 'YOUR_TOKEN']);
$res = $api->get('https://httpbin.org/headers');

echo $res->statusCode . PHP_EOL;
echo $res->body;
package main

import (
    "fmt"
    "github.com/crawlbase/crawlbase-go"
)

func main() {
    api := crawlbase.NewCrawlingAPI("YOUR_TOKEN")
    res, _ := api.Get("https://httpbin.org/headers")
    fmt.Println(res.StatusCode)
    fmt.Println(res.Body)
}
Windows Command Prompt

В Windows Command Prompt (cmd.exe) замените одинарные кавычки вокруг URL на двойные: curl "https://api.crawlbase.com/?token=YOUR_TOKEN&url=ENCODED_URL". Одинарные кавычки — это соглашение Unix-шеллов; cmd.exe передаёт их буквально, и запрос завершается ошибкой. PowerShell, а также шеллы macOS и Linux принимают форму с одинарными кавычками, показанную выше.

В ответ вы получите HTML страницы и несколько заголовков, описывающих, что произошло на стороне источника. Самые важные из них:

original_status
int
HTTP-статус, который вернул нам целевой сайт. Помогает отличить «сайт говорит 404» от «мы не смогли достучаться до сайта».
pc_status
int
Статус-код Crawlbase. 200 означает успех. Полный список см. в кодах статусов.
url
string
Итоговый URL после всех редиректов. Полезно, когда нужно знать, где вы в итоге оказались.
rid
stringнеобязательный
Идентификатор запроса, возвращаемый при использовании &async=true или &store=true. По нему можно найти страницу в Cloud Storage.

Нужен рендеринг JavaScript?

Сайтам на React, Vue, Angular или любым другим, отдающим пустую HTML-оболочку, нужен настоящий браузер. Переключитесь на свой JavaScript token: тот же endpoint, другой токен.

curl 'https://api.crawlbase.com/?token=YOUR_JS_TOKEN&url=https%3A%2F%2Freact-app.example.com&page_wait=2000'
from crawlbase import CrawlingAPI

api = CrawlingAPI({'token': 'YOUR_JS_TOKEN'})
res = api.get('https://react-app.example.com', {
    'page_wait': 2000,
    'ajax_wait': True,
})
print(res['body'])

Полезные параметры JS-рендеринга:

  • page_wait: ждать N миллисекунд после загрузки (по умолчанию 0).
  • ajax_wait: ждать, пока сеть не перейдёт в режим ожидания.
  • css_click_selector: кликнуть по элементу перед захватом.

Полный список см. в параметрах Crawling API.

Дальнейшие шаги

Вы уже краулите. Теперь выберите направление:

Каждый параметр, каждый заголовок, каждый статус-код.
Пропустите парсинг. Scrapers возвращают чистый JSON.
Отправляйте URLs в очередь Enterprise Crawler.
MCP-сервер, интеграция с Claude, шаблоны промптов.