# 参数
API API 具有以下参数, Токен 只有 и URL-адрес 是强制性的,其余的都是可选的。
# знак
- 其他 要求
- 类型
string
所有调用都需要此参数
这是您的身份验证令牌。 你有两个令牌; 一个用于普通请求, 一个用于 JavaScript。
Использование JavaScript 生成时使用 JavaScript 令牌,因为它是 JavaScript 构建的页面(React、Angular等), 或者因为内容是在浏览器上动态生成的。
普通令牌
_USER_TOKEN_
Использование JavaScript
_JS_TOKEN_
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# URL
- 其他 要求
- 类型
string
所有调用都需要此参数
URL-адрес: http 或 https 开头,并且 完全编码.
URL-адрес: https://github.com/crawlbase?tab=repositories 调用 API 时需要对 URL-адрес 进行如下编码: https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# формат
- 可选
- 类型
string
指示响应格式, 或者 json or html. 默认为 html.
如果格式 html 用来, Crawlbase 将在标头中向您返回响应参数(请参阅 HTML-код 下文)。
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"
# довольно
- 可选
- 类型
boolean
如果您期待 json 响应, 您可以通过使用来优化其可读性 &pretty=true.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"
# user_agent
- 可选
- 类型
string
如果您想使用自定义用户代理发出请求,您可以在此处传递它,我们的服务器会将其转发到请求的URL。
Я перейду по ссылке Не 使用这个参数, 让我们的人工智能来处理它。
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"
# страница_ожидание
- 可选
- 类型
number
Использование JavaScript 令牌, 则可以选择传递 page_wait 参数等待一定量 毫秒 在浏览器捕获生成的 代码之前。
这在页面需要几秒钟才能呈现或需要在捕获 html 之前加载一些 ajax 的情况下很有用。
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# ajax_wait
- 可选
- 类型
boolean
Использование JavaScript 令牌, 则可以选择传递 ajax_wait Используйте HTML и Ajax, чтобы использовать Ajax.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# css_click_selector
- 可选
- 类型
string
# Одиночный селектор CSS
Использование JavaScript 令牌, 您可以选择传递 css_click_selector HTML-код HTML 代码之前单击页面上的元素。
CSS 选择器。例如,您可以使用 ID 选择器,例如 #some-button,像这样的类选择器 .some-other-button,或属性选择器,例如 [data-tab-item="tab1"]。确保 CSS 选择器正确编码以避免错误非常重要。
请注意,如果页面上找不到选择器, 请求将失败并显示 pc_status 595。即使找不到选择器,也要接收响应,您可以附加一个通用找到的选择器,例如 body,作为后备。例如: #some-button,body.
# Несколько селекторов CSS
为了适应在捕获页面内容之前可能需要顺序单击多个元素的场景, css_click_selector 参数现在可以接受多个 CSS 选择器。用管道分隔每个选择器 (|) 特点。确保整个值(包括分隔符)都经过 URL 编码,以避免出现任何解析问题。
假设你想点击一个带有 ID 的按钮 start-button 然后是班级的链接 next-page-link。你会构建你的 css_click_selector Параметры следующие:
- 原始选择器:
#start-button|.next-page-link - URL-адрес:
%23start-button%7C.next-page-link
API-интерфейсы API, которые можно использовать для работы с API.
请确保提供的所有选择器均有效并出现在页面上, 以避免错误。如果未找到任何选择器,请求将遵循上面指定的错误处理,失败并显示 pc_status 595 除非包含后备选择器。
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# устройство
- 可选
- 类型
string
可选地,如果您不想指定 user_agent 但您希望获得来自特定设备的请求, 则可以使用此参数。
有两种选择: desktop И mobile.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# get_cookies
- 可选
- 类型
boolean
或者, 如果您需要获取原始网站在响应中设置的, печенье, 您可以使用 &get_cookies=true 参数。
файл cookie 将在标头中返回(如果您使用,则在 json 响应中返回) &format=json)как original_set_cookie.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# получить_заголовки
- 可选
- 类型
boolean
或者,如果您需要获取原始网站在响应中设置的标头,您可以使用 &get_headers=true 参数。
标头将在响应中返回为 original_header_name 默认情况下。 什么时候 &format=json 已通过,标题将返回为 original_headers.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# заголовки_запроса
- 可选
- 类型
string
或者,如果您需要将请求标头发送到原始网站,您可以使用 &request_headers=EncodedRequestHeaders 参数。
示例请求标头: 接受语言:en-GB|接受编码:gzip
编码示例: &request_headers=接受语言%3Aen-GB%7C接受编码%3Agzip
API-интерфейс API允许。我们建议您使用以下测试网址测试发送的标头: https://postman-echo.com/headers
Расширенный API-интерфейс不允许的附加标头,请告诉我们标头名称,我们将为您的令牌授权它们。
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"
# set_cookies
- 可选
- 类型
string
或者,如果您需要将 печенье 发送到原始网站,您可以使用 &cookies=EncodedCookies 参数。
示例 печенье: key1=value1; key2=value2; key3=value3
编码示例: &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3
Файл cookie: https://postman-echo.com/cookies
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"
# cookies_session
- 可选
- 类型
string
如果您需要将每个请求返回的 печенье 发送到所有后续调用,您可以使用 &cookies_session= 参数。
Вот этот &cookies_session= 参数可以是任何值。 只需发送一个新值即可创建一个新的 cookie会话(这将允许您将后续调用返回的 cookie 发送到具有该 cookie 会话值的下一个 API 调用)。该值最多可包含 32 个字符,会话在最后一次 API 调用后 300 秒内过期。
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Скриншот
- 可选
- 类型
boolean
Если вы используете Использование JavaScript, 你可以选择通过 &screenshot=true 获取屏幕截图的参数 JPEG 整个爬取页面的格式。
Crawlbase 将送回给你 screenshot_url 在响应标头中(或者在 json 响应中,如果您使用 &format=json)。 这 screenshot_url 一小时后到期。
Примечание: 使用时 screenshot=true 参数, 您可以使用这些附加参数自定义屏幕截图输出:
mode: 调成viewport仅捕获视口而不是整个页面。默认为fullpage.width:指定最大宽度(以像素为单位)(仅适用于mode=viewport)。默认为屏幕宽度。height:指定最大高度(以像素为单位)(仅适用于mode=viewport)。默认为屏幕高度。
Источник: &screenshot=true&mode=viewport&width=1200&height=800
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# магазин
- 可选
- 类型
boolean
可选择通过 &store=true API-интерфейс API Crawlbase Cloud Storage (打开新窗口) (открывается новое окно).
Crawlbase 将送回给你 storage_url 在响应标头中(或者在 json 响应中,如果您使用 &format=json).
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# скребок
- 可选
- 类型
string
返回根据指定刮板解析的信息。 检查 所有可用数据抓取工具的列表 (打开新窗口) (открывается новое окно) 所有可用数据抓取工具的列表,以查看选择哪一个。
Загрузите файл JSON в формате JSON.
осторожность: Скребок 是一个可选参数。 如果您不使用它,您将收到页面的完整HTML, который можно использовать только в HTML.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"
# асинхронной
- 可选
- 类型
boolean - 目前仅支持使用此参数的 linkedin.com».
可选择通过 &async=true Добавьте URL-адрес. Crawlbase 将结果页面存储在 Crawlbase Cloud Storage (打开新窗口) (открывается новое окно).
Из-за async=true, Crawlbase 将返回请求标识符 rid 在 json 响应中。 您将需要存储 RID 以从存储中检索文档。 有了 RID,您就可以使用 云储存 (打开新窗口) (открывается новое окно) 检索结果页面。
您 可以 使用 async=true API-интерфейс API &async=true&autoparse=true.
请求示例 async=true Источник:
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"
响应示例 async=true Источник:
{ "rid": "1e92e8bff32c31c2728714d4" }
# автоанализ
- 可选
- 类型
boolean
可选地,如果您需要获取您请求的页面的抓取数据, 您可以通过 &autoparse=true 参数。
Доступ к JSON и URL-адресу.
осторожность: &autoparse=true 是一个可选参数。 如果您不使用它,您将收到页面的完整 HTML, 以便您可以自由地抓取它。
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"
# страна
- 可选
- 类型
string
如果您希望从特定国家/地区定位您的请求,您可以使用 &country= 参数, 如 &country=US (两个字符的国家代码)).
请注意,指定国家/地区可以减少您返回的成功请求数量, 因此请明智地使用它,并且仅在需要进行地理定位爬网时使用。
另请注意,像亚马逊这样的一些网站是通过不同的特殊代理路由的,无论是否在列表中,都允许所有国家/地区。
您可以访问以下国家
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"
# tor_network
- 可选
- 类型
boolean
如果你想通过 Tor 网络爬取洋葱网站,你可以通过 &tor_network=true 参数。
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"
# Скролл
- 可选
- 类型:
boolean
Использование JavaScript в JavaScript.
参数
scroll=true:启用滚动.scroll_interval:整数(秒)。设置滚动时长 页面加载后. Сообщение:10。 最大限度:60.
Источник: &scroll=true&scroll_interval=20
宠物行为研究
在规划婴儿食品行业的工艺要求时,安全性和可靠性是工艺设计中最重要的方面。
scroll=trueURL-адрес API, URL-адрес API, URL-адрес API, доступный URL-адрес, доступ к APIscroll_interval秒来触发动态内容加载(例如无限滚动)。滚动后, 捕获内容并返回。
If
scroll_interval不设置的话,默认是10秒。
Платежные реквизиты
启用滚动的请求根据服务器端总处理时间计费:
初始计费单位:
每
scroll=trueAPI-интерфейс 1 язык,涵盖第一个 8 秒 总处理时间(包括页面加载和滚动)。附加计费单位:
для каждого 额外 5 秒 处理时间超过前 8 秒, 1 个额外计费请求 被添加。
- Источник:
- Время проведения: 20 дней.
- 前 1 秒有 8 个计费请求
- 1-9 秒的计费请求 +13
- 1-14 秒的计费请求 +18
- +1 计费请求(19-20 秒,此部分计费为完整区块)
- 总计计费: 4 个请求
- 前 1 秒有 8 个计费请求
- 如果该过程在设的的scroll_interval之前完成, 则只计费实际处理时间。
заметки
Прокрутка прокрутки_интервала 为60秒。60秒后,滚动停止并返回数据。
连接时间: При использовании
scroll_interval=60,保持您的客户端连接打开最多 90 秒。站点特定的超时: 某些域名可能需要更长的服务器超时时间,并自动处理。结合
scroll-page_wait会增加总处理时间并影响计费。
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&scroll_interval=20&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"
# пользовательские_коды_успеха
- 可选
- 类型
string
HTTP-протокол HTTP状态代码,防止不必要的重试,同时仍保留响应中的原始状态代码。
Использование: custom_success_codes=403,429,503
当定位返回非标准成功代码(如 403 或500)的域时,此参数很有用,对于您的特定用例,这些代码应被视为成功。
Примечание: 通过使用此参数,您有责任定义什么构成对您的请求的成功响应。
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&custom_success_codes=403%2C429%2C503&url=https%3A%2F%2Fexample.com%2Fapi"