Быстрый старт
Зарегистрируйтесь, получите токен, отправьте первый запрос. От нуля до краулинга — быстрее, чем заварится кофе.
Предварительные требования
Вам нужны ровно две вещи:
- Бесплатный аккаунт Crawlbase - даёт 1 000 бесплатных запросов, без кредитной карты.
- Либо
curlв вашей командной строке, либо один из наших официальных SDKs в вашем проекте.
У каждого аккаунта есть Normal token (TCP, самый быстрый) и JavaScript token (полный рендеринг в Chrome). Выбирайте в зависимости от сайта: большинство APIs и статических страниц работают с Normal token.
Ваш первый запрос
Crawling API принимает один обязательный параметр - url: полностью URL-кодированный. Вставьте свой токен, и вы уже краулите.
curl 'https://api.crawlbase.com/?token=YOUR_TOKEN&url=https%3A%2F%2Fhttpbin.org%2Fheaders'from crawlbase import CrawlingAPI
api = CrawlingAPI({'token': 'YOUR_TOKEN'})
res = api.get('https://httpbin.org/headers')
print(res['status_code'])
print(res['body'])const { CrawlingAPI } = require('crawlbase');
const api = new CrawlingAPI({ token: 'YOUR_TOKEN' });
const res = await api.get('https://httpbin.org/headers');
console.log(res.statusCode, res.body);require 'crawlbase'
api = Crawlbase::API.new(token: 'YOUR_TOKEN')
res = api.get('https://httpbin.org/headers')
puts res.status_code
puts res.body<?php
use Crawlbase\CrawlingAPI;
$api = new CrawlingAPI(['token' => 'YOUR_TOKEN']);
$res = $api->get('https://httpbin.org/headers');
echo $res->statusCode . PHP_EOL;
echo $res->body;package main
import (
"fmt"
"github.com/crawlbase/crawlbase-go"
)
func main() {
api := crawlbase.NewCrawlingAPI("YOUR_TOKEN")
res, _ := api.Get("https://httpbin.org/headers")
fmt.Println(res.StatusCode)
fmt.Println(res.Body)
}В Windows Command Prompt (cmd.exe) замените одинарные кавычки вокруг URL на двойные: curl "https://api.crawlbase.com/?token=YOUR_TOKEN&url=ENCODED_URL". Одинарные кавычки — это соглашение Unix-шеллов; cmd.exe передаёт их буквально, и запрос завершается ошибкой. PowerShell, а также шеллы macOS и Linux принимают форму с одинарными кавычками, показанную выше.
В ответ вы получите HTML страницы и несколько заголовков, описывающих, что произошло на стороне источника. Самые важные из них:
200 означает успех. Полный список см. в кодах статусов.&async=true или &store=true. По нему можно найти страницу в Cloud Storage.Нужен рендеринг JavaScript?
Сайтам на React, Vue, Angular или любым другим, отдающим пустую HTML-оболочку, нужен настоящий браузер. Переключитесь на свой JavaScript token: тот же endpoint, другой токен.
curl 'https://api.crawlbase.com/?token=YOUR_JS_TOKEN&url=https%3A%2F%2Freact-app.example.com&page_wait=2000'from crawlbase import CrawlingAPI
api = CrawlingAPI({'token': 'YOUR_JS_TOKEN'})
res = api.get('https://react-app.example.com', {
'page_wait': 2000,
'ajax_wait': True,
})
print(res['body'])Полезные параметры JS-рендеринга:
page_wait: ждать N миллисекунд после загрузки (по умолчанию 0).ajax_wait: ждать, пока сеть не перейдёт в режим ожидания.css_click_selector: кликнуть по элементу перед захватом.
Полный список см. в параметрах Crawling API.
Дальнейшие шаги
Вы уже краулите. Теперь выберите направление: