# этот Enterprise Crawler API

为了监测 Enterprise Crawler 要进行统计、管理作业、通过 API清除爬虫、暂停/恢复爬虫等操作,请按照以下说明进行操作:

Примечание: Поддержка JS, поддержка API и TCP, поддержка JS и поддержка JS.

# Использование API

获取爬虫的摘要,包括并发性、队列状态和爬取历史记录(成功和失败细目):

curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/stats'

按日期范围过滤历史记录:

curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/stats?history_from=yyyy-mm-dd&history_to=yyyy-mm-dd'

# Почтовый API

要清除特定的爬虫, 爬虫名称和令牌 (JS/TCP) и POST-файл:

curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/purge'

Примечание: 这将立即删除 所有页面 来自爬虫。

# Дополнительный API

要从爬虫中删除作业,请发送此 POST 请求,其中包含请求 RID、爬虫名称和令牌 (JS/TCP):

curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/delete_job?rid=RID'

# Новый API

Формат RID, метод GET (JS/TCP):

curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/find_by_rid/RID'

Отклик:

  • 如果已排队:
{
  "status": "QUEUED",
  "request_info": {
    "rid": "YOUR_RID",
    "url": "YOUR_URL",
    "retry": 3,
    "created_at": 1600494969.189415
  }
}
  • Функция NOT_QUEUED: 如果请求已被抓取或者不在队列中。
{
  "status": "NOT_QUEUED",
  "request_info": {
    "rid": "YOUR_RID"
  }
}

# Открытый API

Формат POST (JS/TCP):

curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/pause'

# Открытый API

Формат загрузки файлов (JS/TCP) и формат POST:

curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/unpause'