# этот Enterprise Crawler API
为了监测 Enterprise Crawler 要进行统计、管理作业、通过 API清除爬虫、暂停/恢复爬虫等操作,请按照以下说明进行操作:
Примечание: Поддержка JS, поддержка API и TCP, поддержка JS и поддержка JS.
# Использование API
获取爬虫的摘要,包括并发性、队列状态和爬取历史记录(成功和失败细目):
curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/stats'
按日期范围过滤历史记录:
curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/stats?history_from=yyyy-mm-dd&history_to=yyyy-mm-dd'
# Почтовый API
要清除特定的爬虫, 爬虫名称和令牌 (JS/TCP) и POST-файл:
curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/purge'
Примечание: 这将立即删除 所有页面 来自爬虫。
# Дополнительный API
要从爬虫中删除作业,请发送此 POST 请求,其中包含请求 RID、爬虫名称和令牌 (JS/TCP):
curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/delete_job?rid=RID'
# Новый API
Формат RID, метод GET (JS/TCP):
curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/find_by_rid/RID'
Отклик:
- 如果已排队:
{
"status": "QUEUED",
"request_info": {
"rid": "YOUR_RID",
"url": "YOUR_URL",
"retry": 3,
"created_at": 1600494969.189415
}
}
- Функция NOT_QUEUED: 如果请求已被抓取或者不在队列中。
{
"status": "NOT_QUEUED",
"request_info": {
"rid": "YOUR_RID"
}
}
# Открытый API
Формат POST (JS/TCP):
curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/pause'
# Открытый API
Формат загрузки файлов (JS/TCP) и формат POST:
curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/unpause'