# параметры
API имеет следующие параметры: Обязательными являются только токен и URL., остальные необязательны.
# знак
- необходимый
- Тип
string
Этот параметр обязателен для всех вызовов.
Это ваш токен аутентификации. У вас есть два токена: один для обычных запросов и другой для запросов JavaScript.
Используйте токен JavaScript, когда контент, который необходимо сканировать, перемещается с помощью JavaScript, либо потому, что эта страница создана с помощью JavaScript (React, Angular и т. д.), либо потому, что контент перемещается в браузере.
Обычный ток
_USER_TOKEN_
JavaScript-токен
_JS_TOKEN_
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# URL
- необходимый
- Тип
string
Этот параметр обязателен для всех вызовов.
Вам понадобится URL-адрес для официального. Убедитесь, что он начинается с http или https и что полностью закодирован.
Например, в следующем URL-адресе: https://github.com/crawlbase?tab=repositories URL-адрес должен быть закодирован при вызове API следующим образом: https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# формат
- По желанию
- Тип
string
Указывает форму ответа, либо json or html. По умолчаню html.
Этот формат html используется, Crawlbase отправить вам параметры обратно ответ в заголовках (см. HTML-ответ ниже).
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"
# довольно
- По желанию
- Тип
boolean
Если вы ожидаете json ответ, вы можете улучшить его читаемость, с помощью &pretty=true.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"
# user_agent
- По желанию
- Тип
string
Если вы хотите отправить запрос с помощью пользовательского агента, вы можете передать его сюда, и наши серверы перенаправят его на запрошенный URL-адрес.
Моя рекомендация НЕ Этот параметр и позвольте искусственному интеллекту сохраниться с этим.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"
# страница_ожидание
- По желанию
- Тип
number
Если вы используете токен JavaScript, вы можете дополнительно передать page_wait параметр для количества ожидания миллисекунды до того, как браузер захватывает полученный HTML-код.
Это важно в случаях, когда отрисовка страницы занимает несколько секунд или необходимо загрузить какой-либо ajax-код перед захватом HTML-кода.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# ajax_wait
- По желанию
- Тип
boolean
Если вы используете токен JavaScript, вы можете дополнительно передать ajax_wait Параметр ожидания заключается в ajax-запросах перед получением html-ответа.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# css_click_selector
- По желанию
- Тип
string
# Одиночный селектор CSS
Если вы используете токен JavaScript, вы можете дополнительно передать css_click_selector параметр для понимания элемента на странице, прежде чем браузер захватит полученный HTML-код.
Этот параметр принимает полностью указанный и действительный селектор CSS. Например, вы можете использовать идентификатор селектора, такой как #some-button, селектор класса, например .some-other-buttonили селектор атрибутов, такой как [data-tab-item="tab1"]. Важно убедиться, что селектор CSS правильно закодирован, чтобы избежать ошибок.
Обратите внимание: если селектор не найден на странице, запрос завершится ошибкой pc_status 595. Чтобы получить ответ, даже если селектор не найден, вы можете добавить альтернативный найденный селектор, например body, как запасной вариант. Например: #some-button,body.
# Несколько селекторов CSS
Для учета проявлений в ��оторых элементах может последовательно записываться несколько перед захватом обрезки страницы, css_click_selector параметр теперь может принять несколько селекторов CSS. Разделяйте каждый селектор вертикальной чертой (|) символ. Убедитесь, что все значения, включая разделители, закодированы в URL, чтобы избежать проблем с анализом.
Предполагается, что вы хотите нажать кнопку с идентификатором start-button а потом ссылка на класс next-page-link. Вы бы создали свой css_click_selector такой вопрос:
- Оригинальные подборки:
#start-button|.next-page-link - URL-кодированный:
%23start-button%7C.next-page-link
Добавьте этот параметр в ваш API-запрос, чтобы гарантировать, что оба элемента будут нажаты в указанном порядке.
Пожалуйста, убедитесь, что все указанные селекторы действительны и присутствуют на странице, чтобы избежать ошибок. Если какой-либо селектор не найден, запрос будет учитывать ошибки обработки, указанные выше, и завершится ошибкой. pc_status 595 если не включен резервный селектор.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# устройство
- По желанию
- Тип
string
Если вы не заметили user_agent, но хотите получать запросы от определенных устройств, вы можете использовать этот параметр.
Доступны два телефона: desktop и mobile.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# get_cookies
- По желанию
- Тип
boolean
При желании, если вам нужно получить файлы cookie, которые исходный веб-сайт устанавливает в ответ, вы можете использовать &get_cookies=true Параметр.
Файлы cookie возвращаются в заголовке (или в ответе JSON, если вы используете &format=json) как original_set_cookie.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# получить_заголовки
- По желанию
- Тип
boolean
При желании, если вам нужно получить заголовки, которые исходный веб-сайт устанавливает в ответе, вы можете использовать &get_headers=true Параметр.
Заголовки будут возвращены в ответ как original_header_name по умолчанию. Когда &format=json передается, заголовок возвращается как original_headers.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# заголовки_запроса
- По желанию
- Тип
string
При желании, если вам необходимо отправить заголовки запроса на исходный сайт, вы можете использовать &request_headers=EncodedRequestHeaders Параметр.
Примеры заголовков запроса: Принять-язык:en-GB|принять-кодирование:gzip
Пример кодировки: &request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip
Обратите внимание, что не все заголовки запросов разрешены API. Мы рекомендуем вам тестировать заголовки, отправленные с помощью этого тестового URL: https://postman-echo.com/headers
Если вам необходимо отправить дополнительные заголовки, которые не разрешены API, сообщите нам имена заголовков, и мы разрешим их для вашего токена.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"
# set_cookies
- По желанию
- Тип
string
По желанию, если вам необходимо отправить файлы cookie на исходный сайт, вы можете использовать &cookies=EncodedCookies Параметр.
Примеры файлов cookie: key1=value1; key2=value2; key3=value3
Пример кодировки: &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3
Мы рекомендуем вам протестировать отправленные файлы cookie, используя этот тестовый URL: https://postman-echo.com/cookies.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"
# cookies_session
- По желанию
- Тип
string
Если вам необходимо отправить файлы cookie, которые возвращаются при каждом запросе, на все запросы, вы можете использовать &cookies_session= Параметр.
The &cookies_session= параметр может иметь любое значение. Просто отформатируйте новое значение, чтобы создать новый файл cookie сеанса (это позволит вам отправлять возвращаемые файлы cookie из возможности вызовов в API последовательных вызовов с этим значением сеанса cookie). Значение может составлять максимум 32 символа, сеансы прекращаются через 300 секунд после последнего вызова API.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# Скриншот
- По желанию
- Тип
boolean
Если вы присутствуете JavaScript-токен, вы можете по желанию передать &screenshot=true параметр для получения снимка экрана в JPEG Форма всей просканированной страницы.
Crawlbase отправлю вам обратно screenshot_url в заголовках ответа (или в ответе json, если вы используете &format=json). screenshot_url заканчивается через час.
Примечание: При истории screenshot=true параметр, вы можете настроить вывод скриншота с помощью следующих дополнительных параметров:
mode: Установлено вviewportдля захвата только области просмотра вместо полной страницы. По умолчаниюfullpage.width: Укажите источник неисправности в пикселях (работает только сmode=viewport). По умолчанию — ширина экрана.height: Укажите высоту высоты в пикселях (работает только сmode=viewport). По умолчанию — высота экрана.
Праймер: &screenshot=true&mode=viewport&width=1200&height=800
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# магазин
- По желанию
- Тип
boolean
По желанию пройти &store=true параметр для сохранения ответа на ответ API в Crawlbase Cloud Storage (открывается новое окно) (открывается новое окно).
Crawlbase отправлю вам обратно storage_url в заголовках ответа (или в ответе json, если вы используете &format=json).
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# скребок
- По желанию
- Тип
string
Возвращает информацию, проанализированную в соответствии со скрапером. Прорат список всех доступных скребков данных (открывается новое окно) (открывается новое окно) список всех доступных скребков данных, чтобы увидеть, какой из них выбрать.
Ответ будет возвращен в формате JSON.
Пожалуйста, обратите внимание: Скребок — необязательный параметр. Если вы не используете его страницу, вы получите полный HTML-код, чтобы вы могли свободно его скрипить.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"
# асинхронной
- По желанию
- Тип
boolean - В настоящее время осуществляется только linkedin.com с использованием этого параметра. Свяжитесь с нами, если вам нужны другие домены в асинхронном режиме.
По желанию пройти &async=true параметр для асинхронного получения запрошенного URL. Crawlbase сохранить полученную страницу в Crawlbase Cloud Storage (открывается новое окно) (открывается новое окно).
В результате звонка с async=true, Crawlbase отправить вам запрос на повторную идентификацию rid в ответе JSON. Вам нужно будет сохранить RID для извлечения документа из хранилища. С RID вы можете затем использовать Облачное хранилище (открывается новое окно) (открывается новое окно) для получения результирующей страницы.
Вы можете использовать его async=true параметр в сочетании с другими параметрами API, например &async=true&autoparse=true.
Пример запроса с async=true вызов:
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"
Пример ответа с async=true вызов:
{ "rid": "1e92e8bff32c31c2728714d4" }
# автоанализ
- По желанию
- Тип
boolean
По желанию, если вам необходимо получить извлеченные данные запрошенной вами страницы, вы можете передать &autoparse=true Параметр.
Ответ возвращается в формате JSON. Структура ответа зависит от отправленного вами URL-адреса.
Пожалуйста, обратите внимание: &autoparse=true необязательный параметр. Если вы его не используете, вы получите полный HTML-код, чтобы вы могли свободно его сканировать.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"
# страна
- По желанию
- Тип
string
Если вы хотите, чтобы ваши запросы были геолоцированы из страны, вы можете использовать &country= вопрос, как &country=US (двухбуквенный код страны).
Пожалуйста, обратите внимание, что указанная страна может уменьшить количество запросов, поэтому используйте эту возможность с умом и только в тех случаях, когда требуется сканирование геолокации.
Также обратите внимание, что некоторые сайты, такие как Amazon, маршрутизируются через различные специальные прокси-серверы, и во всех странах это разрешено независимо от того, находятся ли они в списке или нет.
У вас есть доступ к соседним странам
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"
# tor_network
- По желанию
- Тип
boolean
Если вы хотите сканировать onion-сайты через сеть Tor, вы можете отправить &tor_network=true Параметр.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"
# Скролл
- По желанию
- Тип:
boolean
Включите автоматическую прокрутку для загрузки динамического измерения страницы при использовании сеанса браузера. Используется с токеном JavaScript.
параметры
scroll=true:Включает прокрутку.scroll_interval:Целое число (секунды). Устанавливает длительность прокрутки. после загрузки страницы. Дефолт:10. Максимум:60.
Праймер: &scroll=true&scroll_interval=20
Поведение
После показа
scroll=trueустановлен, API загружает URL в реальный браузер и программно прокручивает страницу доscroll_intervalсекунды для запуска динамической нагрузки (например, бесконечной прокрутки).После прокрутки спиртных напитков захватывается и возвращается.
If
scroll_intervalне установлено, по умолчанию 10 секунд.
Биллинг
Запросы с включенной прокруткой тарифа рассчитываются на основе общего времени обработки на стороне сервера:
Первоначальная расчетная единица:
Каждый
scroll=trueВызов API тарифицируется как 1 запрос,охватывающий первый (8%) от общего времени обработки (включая загрузку страницы и прокрутку).Дополнительные дополнительные тарификации:
Для каждого еще 5 секунд время обработки за разные первые 8 секунд, 1 дополнительный выставленный счет-запрос добавленлен
- Первичный храповик:
- Время обработки: 20 секунд
- 1 тарифицируемый запрос за первые 8 секунд
- +1 платный запрос за секунды 9–13
- +1 платный запрос за секунды 14–18
- +1 тарифицируемый запрос (19–20 с., эта часть тарифицируется как полный блок)
- Всего выставлено счетов: 4 запроса
- 1 тарифицируемый запрос за первые 8 секунд
- Если процесс завершается до установленного интервала прокрутки, оплачивается только фактическое время обработки.
Примечания
Максимально допустимый Scroll_interval 60 секунд. Через 60 секунд прокрутка останавливается и данные возвращаются.
Время подключения: При истории
scroll_interval=60, оставьте клиентское соединение открытым до 90 секунд.Специфические для сайта тайм-ауты: Домены могут обеспечить более длительное время ожидания сервера, что автоматически приводит к некоторым результатам. Объединение
scrollpage_waitможет увеличить общее время обработки и количество выставленных счетов.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&scroll_interval=20&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"
# пользовательские_коды_успеха
- По желанию
- Тип
string
Показаны пользовательские кодовые запросы HTTP, которые следует рассматривать как успешные ответы, предотвращающие ненужные повторные попытки и сохраняющие этот исходный код в ответе.
Грунтовка: custom_success_codes=403,429,503
Этот параметр используется при нацеливании на домены, возвращающие нестандартные коды успеха (например, 403 или 500), которые следует считать успешными для данного варианта использования.
Примечание: Используя этот параметр, вы берете на себя ответственность за определение того, что представляет собой успешный ответ на ваш запрос.
- виться
- рубин
- узел
- PHP
- питон
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&custom_success_codes=403%2C429%2C503&url=https%3A%2F%2Fexample.com%2Fapi"