# Кеннгрёссен

Параметр API: Нур-дас-токен и URL-адрес обязательно, остальное необязательно.

# знак

  • необходимые
  • тип string

Параметр Dieser предназначен для всех дополнительных функций Anrufe.

Dies ist Ihr Authentifizierungstoken. Sie haben zwei Token: einen für Normale Anfragen и einen für JavaScript-Anfragen.

Если вы используете JavaScript-токен, когда вы запускаете его, когда вы сканируете его, с помощью генерируемого JavaScript, вы получаете возможность использовать JavaScript в качестве обычного веб-сайта (React, Angular usw.) или при динамическом запуске в браузере, генерируемом.

Нормальный токен

_USER_TOKEN_

JavaScript-токен

_JS_TOKEN_

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# URL

  • необходимые
  • тип string

Параметр Dieser предназначен для всех дополнительных функций Anrufe.

Sie benötigen eine URL zum Crawlen. Stellen Sie sicher, dass Sie mit http или https Beginnt und это полный код.

URL-адрес Beispielsweise in der folgenden: https://github.com/crawlbase?tab=repositories URL-адрес должен быть указан в API со следующим кодом: https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# формат

  • По желанию
  • тип string

Предоставьте Antwortformat, чтобы json or html. Der Standardwert ist html.

Формат Венна html вирт генуцт, Crawlbase sendet Ihnen die Antwortparameter in den Headern zurück (siehe HTML-Antwort ).

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"

# довольно

  • По желанию
  • тип boolean

Когда ты это сделаешь json Antwort können Sie die Lesbarkeit optimieren, indem Sie &pretty=true.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"

# user_agent

  • По желанию
  • тип string

Если вы хотите, чтобы ваш адрес был указан с помощью определенных правил, вы можете получить доступ к указанному URL-адресу и указать его на отдельном сервере.

Мы хотим НЕ Проверьте параметры и уберите параметры, необходимые для работы с интеллектуальными интеллектуальными устройствами.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# страница_ожидание

  • По желанию
  • тип number

Если вы используете JavaScript-токен, вы можете добавить необязательные следующие действия: page_wait Параметр zum Warten einer bestimmten Zeitspanne Миллисекунды Чтобы браузер быстрее получал результаты HTML-кода.

Dies ist in Fällen nutzlich, indenen das Rendern der Seite einige Sekunden Dauert order vor der der Erfassung des HTML etwas Ajax beladen werden muss.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# ajax_wait

  • По желанию
  • тип boolean

Если вы используете JavaScript-токен, вы можете добавить необязательные следующие действия: ajax_wait Параметр, um auf den Abschluss der Ajax-Anfragen zu warten, bevor die HTML-Antwort abgerufen wird.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# css_click_selector

  • По желанию
  • тип string

# Одиночный селектор CSS

Если вы используете JavaScript-токен, вы можете добавить его необязательно. css_click_selector Параметр, который находится в элементе на сайте по клику, позволяет браузеру быстро получить результат HTML-кода.

Укажите параметры, которые необходимо изменить и выбрать CSS-селектор. Sie können beispielsweise einen ID-Selektor wie #some-button, ein Klassenselektor wie .some-other-buttonили Attributselektor wie [data-tab-item="tab1"]. Если вам нужно изменить код, вы должны знать, что CSS-селектор богат кодиртом.

Bitte Beachten Sie, dass die Anfrage fehlschlägt, wenn der Selektor nicht auf der Seite gefunden wird. pc_status 595Um eine Antwort zu erhalten, auch wenn ein Selektor nicht gefunden wird, können Sie einen Universell gefundenen Selektor anhängen, wie body, как Fallback. Пример: #some-button,body.

# Несколько селекторов CSS

Um Szenarien zu berücksichtigen, in denen mehrere Elemente nacheinander angeklickt werden müssen, bevor der Seiteninhalt erfasst wird, css_click_selector Параметр должен быть выбран отдельно для CSS-селекторов. Trennen Sie die einzelnen Selektoren durch ein Pipe-Zeichen (|)-Цайхен. Если вы хотите, чтобы это было действительно так, вы должны знать, что URL-код — это анализ проблем, которые вы решаете.

Если вы хотите, чтобы ваш идентификатор был кликнут start-button и дань мне связь с классом next-page-link. Sie würden Ihre css_click_selector Параметры следующие:

  • Выборочные селекторы: #start-button|.next-page-link
  • URL-код: %23start-button%7C.next-page-link

Hängen Sie diesen Параметр в вашем API-интерфейсе и, в частности, этот элемент находится в зоне действия выбранного вами параметра.

Bitte stellen Sie sicher, dass alle angegebenen Selektoren gültig und auf der Seite vorhanden sind, um Fehler zu vermeiden. Если селектор не выбран, то после этого Anfrage der Oben angegebenen Fehlerbehandlung und Schlägt fehl mit pc_status 595 Если это так, то Fallback-Selektor вас заинтересует.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# устройство

  • По желанию
  • тип string

Если вы не хотите, чтобы User_Agent был выбран, вы можете выбрать лучший вариант, если вы хотите изменить этот параметр.

Есть несколько вариантов выбора: desktop и mobile.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# get_cookies

  • По желанию
  • тип boolean

Если вы хотите, чтобы файлы cookie были отключены, вы можете использовать веб-сайт на ответе, чтобы получить ответ. &get_cookies=true Параметры.

Файлы cookie сохраняются в заголовке (или в ответе в формате JSON, когда он добавлен) в исходное состояние. &format=json) Как original_set_cookie.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# получить_заголовки

  • По желанию
  • тип boolean

Если вы хотите, чтобы заголовок был отключен, вы можете просмотреть веб-сайт на фестивале Antwort, чтобы увидеть его. &get_headers=true Параметры.

Заголовок содержится в ответах на другие вопросы original_header_name standardmäßig. Wenn &format=json übergeben wird, wird der Header zurückgegeben als original_headers.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# заголовки_запроса

  • По желанию
  • тип string

Wenn Sie необязательно Anforderungsheader an die ursprüngliche Веб-сайт senden müssen, können Sie den &request_headers=EncodedRequestHeaders Параметры.

Информация для заголовка Anforderungsheader: Akzeptieren Sie die Sprache: en-GB | Akzeptieren Sie die Kodierung: gzip

Код файла: &request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip

Bitte Beachten Sie, dass nicht alle Anforderungsheader von der API zugelassen werden. Чтобы получить доступ к соответствующему заголовку с тестовым URL-адресом для тестирования: https://postman-echo.com/headers

Когда вы отправляете заголовок, API не может быть отправлен, вы можете указать имя заголовка с авторизацией и авторизацией для вашего токена.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# set_cookies

  • По желанию
  • тип string

Если вы хотите использовать файлы cookie и использовать веб-сайт, отправьте их, пожалуйста, добавьте дополнительный файл &cookies=EncodedCookies Параметры.

Примеры файлов cookie: key1=value1; key2=value2; key3=value3

Код файла: &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3

Чтобы получить доступ к файлам cookie с тестовым URL-адресом для тестирования: https://postman-echo.com/cookies

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"

# cookies_session

  • По желанию
  • тип string

Если вы хотите использовать Cookies, вы можете получить Anfrage zurückkommen, а также все возможные Aufrufe senden müssen, können Sie den &cookies_session= Параметры.

Умереть &cookies_session= Параметр cann ein beliebiger Wert sein. Senden Sie einfach einen neuen Wert, um eine neue Cookies-Sitzung zu erstellen (so können Sie die zurückgegebenen Cookies aus den nachfolgenden Aufrufen mit diesem Cookies-Sitzungswert an die nächsten API-Aufrufe senden). Der Wert kann max 32 Zeichen lang sein und Sitzungen laufen 300 Sekunden nach dem letzten API-Aufruf ab.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# Скриншот

  • По желанию
  • тип boolean

Когда вы это сделаете JavaScript-токенkönnen Sie опционально weitergeben &screenshot=true Параметр, um einen Скриншот im JPEG Отформатируйте общедоступную страницу.

Crawlbase senden wir Ihnen die screenshot_url в Antwortheadern (или в JSON-Antwort, когда вы &format=json). screenshot_url падает в любой момент.

Примечание: При использовании screenshot=true Параметр отображается на скриншоте-Ausgabe mit diesen zusätzlichen Параметр anpassen:

  • mode: Расстановки viewport um nur den Ansichtsbereich statt der gesamten Seite zu erfassen. Стандартный fullpage.
  • width: Максимальное время в пиксельном режиме (функционально с mode=viewport). Standardmäßig ist die Bildschirmbreite eingestellt.
  • height: Maximale Höhe в Pixeln angeben (funktioniert nur mit mode=viewport). Standardmäßig ist die Bildschirmhöhe eingestellt.

пример: &screenshot=true&mode=viewport&width=1200&height=800

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# магазин

  • По желанию
  • тип boolean

Необязательно weitergeben &store=true Параметр zum Speichern einer Kopie der API-Antwort im Crawlbase Cloud Storage (открытое новое окно) (открывается новое окно).

Crawlbase senden wir Ihnen die storage_url в Antwortheadern (или в JSON-Antwort, когда вы &format=json).

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# скребок

  • По желанию
  • тип string

Если вам нужна информация, вы можете получить доступ к анализу работы Scraper. Überprüfen Sie die Liste aller verfügbaren Daten-Scraper (öffnet neues Fenster) (открывается новое окно) Liste aller verfügbaren Daten-Scraper, um zu sehen, welchen Sie wählen sollten.

Ответы будут отображаться в формате JSON.

Пожалуйста, обратите внимание: Скребок является необязательным параметром. Если вы не знаете, что делать, вы можете использовать HTML-код на веб-сайте, газированные напитки могут быть легко очищены.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# асинхронной

  • По желанию
  • тип boolean
  • Derzeit wird mit diesem Параметр nur linkedin.com unterstützt. Sprechen Sie uns an, wenn Sie andere Domänen im asynchronen Modus benötigen.

Необязательно weitergeben &async=true Параметр, который позволяет асинхронно сканировать URL-адрес. Crawlbase speichert die resultierende Seite im Crawlbase Cloud Storage (открытое новое окно) (открывается новое окно).

Als Ergebnis eines Anrufs mit async=true, Crawlbase sendet Ihnen die Anforderungskennung zurück rid в JSON-Antwort. Sie müssen die RID speichern, um das Dokument aus dem Speicher abzurufen. Mit der RID können Sie dann die Облачное хранилище (öffnet neues Fenster) (открывается новое окно) um die resultierende Seite abzurufen.

Sie können die Verwendung async=true Параметр в комбинации с другими API-параметрами wie zum Beispiel &async=true&autoparse=true.

Beispiel einer Anfrage mit async=true Вызов:

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"

Beispiel einer Antwort mit async=true Вызов:

{ "rid": "1e92e8bff32c31c2728714d4" }

# автоанализ

  • По желанию
  • тип boolean

Если дополнительные данные Scraped-Daten der von Ihnen angeforderten Seite abrufen möchten, können Sie Folgendes weitergeben: &autoparse=true Параметры.

Ответы будут отображаться в формате JSON. Структура ответов варьируется по URL-адресу вашего сайта.

Пожалуйста, обратите внимание: &autoparse=true Это необязательный параметр. Если вы не знаете, что делать, вы можете использовать HTML-код на веб-сайте, газированные напитки могут быть легко очищены.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# страна

  • По желанию
  • тип string

Wenn Sie möchten, dass Ihre Anfragen von einem bestimmten Land aus geolocalisiert werden, können Sie die die &country= Параметр, wie &country=US (дважды в год) (Земельный кодекс).

Bitte Beachten Sie, dass die Angabe eines Landes die Anzahl der erfolgreichen Anfragen verringern kann. Verwenden Sie es daher mit Bedacht und nur, wenn Geolokalisierungs-Crawls erforderlich sind.

На некоторых веб-сайтах Amazon есть специальные прокси-серверы, которые можно использовать и на всех землях, которые могут быть загружены, но не всегда, когда вы находитесь в списке или ничего.

Sie haben Zugriff auf folgende Länder

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"

# tor_network

  • По желанию
  • тип boolean

Wenn Sie Onion-Websites über das Tor-Netzwerk crownen möchten, können Sie die &tor_network=true Параметры.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"

# Скролл

  • По желанию
  • Тип: boolean

Автоматическая прокрутка страниц с динамической нагрузкой во время просмотра веб-страниц. Доступ к JavaScript-токену.

Кеннгрёссен

  • scroll=true: Aktiviert das Scrollen.

  • scroll_interval: Ганззал (Секунден). Фестиваль Legt die Scrolldauer nach dem Laden der Seite. Стандарт: 10Максимальный: 60.

пример: &scroll=true&scroll_interval=20

Verhalten

  • Когда scroll=true Для этого необходимо указать URL-адрес API в браузере и программу прокрутки на веб-сайте для вашего сайта. scroll_interval Sekunden, um das dynamische Laden von Inhalten auszulösen (z. B. unendliches Scrollen).

  • Nach dem Scrollen wird der Inhalt erfasst und zurückgegeben.

  • If scroll_interval это не праздник, стандартная настройка длится 10 секунд.

выставление счетов

Чтобы активировать режим прокрутки, выберите один из следующих серверов:

  • Ursprüngliche Abrechnungseinheit:

  • . scroll=true API-Aufruf wird abgerechnet als 1 Анфраге, die den ersten 8 секунд der Gesamten Verarbeitungszeit (einschließlich Seitenladen und Scrollen).

  • Zusätzliche Abrechnungseinheiten:

  • Для каждого zusätzliche 5 Sekunden der Verarbeitungszeit über die ersten 8 Sekunden hinaus, 1 zusätzliche в Rechnung gestellte Anfrage добавлен.

    • Beispielrechnung:
    • Срок действия: 20 секунд.
      • 1 бесплатный выпуск в течение 8 секунд
        • +1 дополнительная запись Anfrage für Sekunden 9–13
        • +1 дополнительная запись Anfrage für Sekunden 14–18
        • +1 abgerechnete Anfrage (19–20 с, dieser Bruchteil wird als ganzer Block abgerechnet)
        • Gesamtbetrag: 4 Anfragen
    • Если вы используете прокрутку-интервал в режиме прокрутки, это означает, что вы можете получить тат-набор значений в процессе работы.

Notizen

  • Максимальный интервал прокрутки время ожидания 60 секунд. Через 60 секунд вы сможете увидеть, как Bildlauf bedet und die Daten werden zurückgegeben.

  • Verbindungszeit: Wenn Sie verwenden scroll_interval=60, остановите привязку клиента в течение 90 секунд.

  • Site-spezifische Timeouts: В некоторых случаях можно автоматически увеличить время ожидания сервера. scroll с page_wait kann die Gesamtverarbeitungszeit verlängern und die Abrechnung beeinflussen.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&scroll_interval=20&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"

# пользовательские_коды_успеха

  • По желанию
  • тип string

В случае, если вы используете определенные HTTP-коды состояния, вы также можете ответить на этот вопрос. Таким образом, если вы не заметили Wiederholungsversuche vermieden, вы должны указать код статуса в Antwort erhalten bleibt.

Используйте: custom_success_codes=403,429,503

Этот параметр не является обязательным, если не заданы стандартные коды ошибок (например, 403 или 500).

Примечание: Durch die Verwendung dieses Параметры übernehmen Sie die Verantwortung für die Definition, был eine erfolgreiche Antwort auf Ihre Anfragen darstellt.

  • виться
  • рубин
  • узел
  • PHP
  • питон
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&custom_success_codes=403%2C429%2C503&url=https%3A%2F%2Fexample.com%2Fapi"