# Параметры

L'API для соответствующих параметров, seul le token et l'url являются обязательными, остальное факультативно.

# знак

  • требуется
  • Тип string

Этот параметр является обязательным для всех апелляций

Подождите свой жетон аутентификации. Вы располагаете двумя жетонами: для обычных запросов и для других запросов JavaScript.

Используйте JavaScript вместе с содержимым, которое вы разработали для просмотра, созданным с помощью JavaScript, так что часть, которая будет создавать страницы с помощью JavaScript (React, Angular и т. д.), будет содержать часть, которая будет динамично развиваться в навигации.

Жетон нормальный

_USER_TOKEN_

Jeton JavaScript

_JS_TOKEN_

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# URL

  • требуется
  • Тип string

Этот параметр является обязательным для всех апелляций

Вы найдете URL-адрес в проводнике. Убедитесь, что вы начнете с http или https и т. д. это полностью закодировано.

Например, в соответствующем URL-адресе: https://github.com/crawlbase?tab=repositories URL-адрес имеет код обращения к API, соответствующий: https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# формат

  • опциональный
  • Тип string

Индивидуальный формат ответа, так что json or html. По умолчанию html.

Формат Si html используется, Crawlbase vous renverra les параметры ответа в les en-têtes (voir HTML-ответ ниже).

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"

# довольно

  • опциональный
  • Тип boolean

Если вы посетите json ответ: вы можете оптимизировать доступность и удобство использования &pretty=true.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"

# user_agent

  • опциональный
  • Тип string

Если вы хотите выполнить запрос с персональным агентом-пользователем, вы можете выполнить трансметрию и наши серверы трансметрируют требуемый URL-адрес.

Мы рекомендуем не использовать эти параметры и не допускать искусственного интеллекта.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# страница_ожидание

  • опциональный
  • Тип number

Если вы используете жетон JavaScript, вы сможете трансформировать page_wait параметр для количества посетителей миллисекунды прежде чем навигация не запишет полученный HTML-код.

Ceci - это утилита, когда страница открывается в течение нескольких секунд, например, в виде сообщения или ajax, и это требует оплаты перед тем, как HTML не будет захвачен.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# ajax_wait

  • опциональный
  • Тип boolean

Если вы используете жетон JavaScript, вы сможете трансформировать ajax_wait параметры для ответа на запросы ajax, которые завершатся до получения ответа html.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# css_click_selector

  • опциональный
  • Тип string

# Одиночный селектор CSS

Если вы используете жетон JavaScript, вы можете трансформировать его css_click_selector параметр, позволяющий кликнуть по элементу страницы до того, как навигация не запишет полученный HTML-код.

Этот параметр принимает указанный и действительный выбор CSS. Например, вы можете использовать идентификатор телефона, который вам нужен. #some-button, un sélecteur de classe comme .some-other-button, или выберите атрибут, который вам нужен [data-tab-item="tab1"]Самым важным является подтверждение того, что выбор CSS — это код исправления для устранения ошибок.

Обратите внимание на то, что выбор не является поиском на странице, а требование повторено pc_status 595. Чтобы получить ответ на ваш выбор, вы не можете выбрать его, как body, как решение проблемы безопасности. Пример примера: #some-button,body.

# Несколько селекторов CSS

Чтобы подготовить сценарии в уроках, возможно, потребуется кликнуть по дополнительным элементам последовательного управления перед захватом содержимого страницы, css_click_selector Параметр может быть изменен с помощью дополнительных настроек CSS. Séparez chaque sélecteur par un tuyau (|) характер. Уверяем вас, что значение всего, включая разделители, является кодом URL-адреса для устранения всех проблем анализа.

Предположим, вы хотите нажать на бутон с идентификатором start-button et puis un lien avec la classe next-page-link. Вы конструируете свой css_click_selector такой параметр:

  • Оригинальные селекторы: #start-button|.next-page-link
  • URL-код: %23start-button%7C.next-page-link

Используйте этот параметр по вашему запросу API, чтобы гарантировать, что два элемента принадлежат кликам в указанном порядке.

Убедитесь, что все выбранные вами элементы являются действительными и представлены на странице для предотвращения ошибок. Если вы выбрали не лучший вариант, спросите об указании конкретных ошибок, ответьте на них pc_status 595 à moins qu'un sélecteur de securs ne soit inclus.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# устройство

  • опциональный
  • Тип string

Если вы не хотите использовать указание user_agent, то вы можете получить запросы от конкретного устройства, вы можете использовать этот параметр.

Доступны два варианта: desktop et mobile.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# get_cookies

  • опциональный
  • Тип boolean

Если вы хотите получить файлы cookie, которые исходный веб-сайт определяет для ответа, вы можете использовать их. &get_cookies=true настройка.

Файлы cookie reviendront dans l'en-tête (ou dans la réponse json si vous utilisez &format=json) подобно original_set_cookie.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# получить_заголовки

  • опциональный
  • Тип boolean

Если вы хотите получить доступ к исходному веб-сайту, определенному для ответа, вы можете использовать его. &get_headers=true настройка.

Les en-têtes reviendront dans la reponse sous la forme original_header_name по умолчанию. Лорск &format=json это прошло, l'en-tete reviendra comme original_headers.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# заголовки_запроса

  • опциональный
  • Тип string

Если вы хотите отправить запрос на исходный веб-сайт, вы можете использовать его. &request_headers=EncodedRequestHeaders настройка.

Примеры запросов на тет-а-тет: принять-язык:en-GB|принять-кодирование:gzip

Пример кода: &request_headers=accept-language%3Afr-GB%7Caccept-encoding%3Agzip

Обратите внимание, что API не авторизируется для всех запросов. Мы рекомендуем вам протестировать посланников через этот URL-адрес теста: https://postman-echo.com/headers

Если вы разработали дополнительные сообщения, которые не были авторизованы по API, вы должны указать имена контактов и наши авторизации для вашего жетона.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# set_cookies

  • опциональный
  • Тип string

Если вы хотите использовать файлы cookie на исходном веб-сайте, вы можете использовать их. &cookies=EncodedCookies настройка.

Примеры файлов cookie: key1=value1; key2=value2; key3=value3

Пример кода: &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3

Мы рекомендуем вам протестировать файлы cookie, отправленные с использованием этого URL-адреса теста: https://postman-echo.com/cookies

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"

# cookies_session

  • опциональный
  • Тип string

Если вы разработаете отправку файлов cookie, которые будут восстановлены, а затем потребуют всех приложений, вы можете их использовать. &cookies_session= настройка.

&cookies_session= Параметр может быть неимпортирован в какое значение. Просто отправляйте новые значения для создания нового сеанса файлов cookie (cela vous permettra d'envoyer les cookies renvoyés par les appels suivants aux prochains appels d'API с этим значением сеанса файлов cookie). Значение может содержать максимум 32 символа, а срок действия сеансов истекает через 300 секунд после последнего обращения к API.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# Скриншот

  • опциональный
  • Тип boolean

Если вы используете Jeton JavaScript, vous pouvez éventuellement прохожий &screenshot=true параметр для получения захвата экрана в JPEG формат всей исследуемой страницы.

Crawlbase я вас отменяю screenshot_url в ответах на тет-а-тет (или в ответе json si vous utilisez &format=json). screenshot_url истекает через час.

Примечание: Когда вы используете screenshot=true параметры, которые вы можете персонализировать для вылазки по захвату экрана с этими дополнительными параметрами:

  • mode: Mis à viewport для уникального захвата окна на месте всей страницы. La valeur par défaut est fullpage.
  • width: Укажите максимальный размер в пикселях (уникальная функция с mode=viewport). Значение по умолчанию — это большой экран.
  • height: Укажите максимальную точность в пикселях (уникальная функция с mode=viewport). Значение по умолчанию — это высокая степень экрана.

Exemple: &screenshot=true&mode=viewport&width=1200&height=800

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# магазин

  • опциональный
  • Тип boolean

Пассёр en вариант &store=true параметр для хранения копии ответа API в Crawlbase Cloud Storage (открывает новое окно) (открывается новое окно).

Crawlbase я вас отменяю storage_url в ответах на тет-а-тет (или в ответе json si vous utilisez &format=json).

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# скребок

  • опциональный
  • Тип string

Отправьте проанализированную информацию в указанный скребок. Проверить список всех доступных скребков (ouvre une nouvelle fenêtre) (открывается новое окно) список всех доступных скребков для выбора выбранного вами уровня.

Возвращенный ответ в формате JSON.

Внимание: Скребок является опцией параметра. Если вы не используете его, вы получите полный HTML-код и получите доступ к скребку.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# асинхронной

  • опциональный
  • Тип boolean
  • На самом деле, сайт linkedin.com доступен по цене с этими параметрами. Contactez-nous si vous avez besoin d'autres Domaines в асинхронном режиме.

Пассёр en вариант &async=true параметр, позволяющий просматривать URL-адрес, требуемый асинхронным способом. Crawlbase Сохранение результатов на странице в Интернете Crawlbase Cloud Storage (открывает новое окно) (открывается новое окно).

В рамках апелляции async=true, Crawlbase вы получите идентификатор требования rid в ответе JSON. Вы храните RID для возврата документа на склад. Avec le RID, вы можете воспользоваться ванной комнатой Облачное хранилище (Ouvre une Nouvelle Fenêtre) (открывается новое окно) для восстановления полученной страницы.

Вы можете использовать async=true Комбинация параметров с другими параметрами API как пример &async=true&autoparse=true.

Пример требования avec async=true аппел:

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"

Пример ответа с async=true аппел:

{ "rid": "1e92e8bff32c31c2728714d4" }

# автоанализ

  • опциональный
  • Тип boolean

В качестве альтернативы, если вы можете получить дополнительные сведения о странице, которые вам нужны, вы можете пройти мимо &autoparse=true настройка.

Ответ будет отправлен в формате JSON. Структура ответа варьируется в зависимости от функции URL-адреса, который вы отправляете.

Внимание: &autoparse=true есть опция параметра. Если вы не использовали его, вы получите полный код HTML на странице, где можно восстановить свободное содержимое.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# страна

  • опциональный
  • Тип string

Если вы хотите, чтобы вы требовали, чтобы геолокализация была конкретной, вы можете использовать &country= параметр, как &country=US (код оплачивается за два символа).

Veuillez prendre en compte que la specication d'un pays peut reduire le nombre de reussies que vous recevez, alors utilisez-le judicieusement and uniquement lorsque des geolocalisation sont nécessaires.

Обратите внимание на то, что некоторые сайты в Интернете работают с Amazon через разные специальные прокси-серверы и что все платят авторизованно, что они чувствуют или не входят в список.

Vous avez accesses aux pays suivants

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"

# tor_network

  • опциональный
  • Тип boolean

Если вы хотите исследовать сайты Web Onion sur le réseau Tor, вы можете пройти мимо &tor_network=true настройка.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"

# Скролл

  • опциональный
  • Категория: boolean

Разрешите автоматическое загрязнение для зарядки динамического содержимого страницы во время сеанса навигации по экрану. Используется с жетоном JavaScript.

Параметры

  • scroll=true: Permet le défilement.

  • scroll_interval: Энтьер (секунды). Определите длительность осквернения. после оплаты страницы. По умолчанию: 10. Максимум: 60.

Exemple: &scroll=true&scroll_interval=20

какой тренинг

  • Когда scroll=true Это определение API заряжает URL-адрес в навигационном ролике и фактически оскверняет страницу по программе программирования. scroll_interval секунды для уменьшения заряда динамического содержимого (например, бесконечное загрязнение).

  • После осквернения содержание захватывается и пересылается.

  • If scroll_interval не определено, значение по умолчанию составляет 10 секунд.

биллинг

Активные действия по загрязнению фактур и функциям временного обслуживания в общей сложности:

  • Первоначальное объединение фактуры:

  • каждый scroll=true Приложение API работает как факт 1 требование, couvrant le premier 8 секунд полное время предательства (и включает в себя заряд и осквернение страницы).

  • Дополнительные единицы фактурирования:

  • Для каждого 5 seconds supplémentaires du Temps de Traement au-delà des 8 Premières Secondes, 1 дополнительный счет-фактура добавлен.

    • Exemple de calcul :
    • Время ожидания: 20 секунд.
      • 1 запрос на оплату 8 секунд премьеры
        • +1 фактическое требование за секунды с 9 по 13
        • +1 фактическое требование за секунды с 14 по 18
        • +1 требование фактуры (19–20 с, эта фракция est facturée comme un bloc complet)
        • Total facturé : 4 demandes
    • Если процесс завершается до определенного интервала загрязнения, то время предательства уже фактическое.

Замечания

  • Максимальный авторизованный интервал загрязнения примерно 60 секунд. Через 60 секунд осквернение настигло и отосланных.

  • Temps de connexion: Если вы используете scroll_interval=60, защитите своего клиента подключения в течение 90 секунд.

  • Особенности задержки истечения срока действия на сайте: Некоторые домены могут нуждаться в длительном обслуживании, а также в автоматическом режиме. scroll с page_wait Возможно увеличение общей температуры и влияние на фактурирование.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&scroll_interval=20&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"

# пользовательские_коды_успеха

  • опциональный
  • Тип string

Вы можете указать коды государственных HTTP-персоналистов, которые являются чертами, похожими на русские ответы, поэтому новые пробные попытки неэффективны и сохраняют исходный код в ответе.

Применение: custom_success_codes=403,429,503

Это параметр, который можно использовать для подключения к доменам, которые учитывают нестандартные коды подключения (например, 403 или 500), которые следует учитывать при определенных условиях использования.

Примечание: Используя этот параметр, вы берете на себя ответственность за определение того, что составляет ответную реакцию на ваши требования.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&custom_success_codes=403%2C429%2C503&url=https%3A%2F%2Fexample.com%2Fapi"