В этом блоге мы покажем, как использовать Crawlbase Smart AI Proxy Чтобы извлечь ASIN для выбранного продукта Amazon, мы также покажем, как передать Crawlbase Crawling APIs параметры к Smart AI Proxy для улучшенного скрапинга с большим контролем на пути к данным сканирования. В конце у нас будет структурированный JSON страницы продукта Amazon для легкого использования. Мы также ответим на несколько часто задаваемых вопросов о веб-скрапинге Amazon и страницах продуктов Amazon, также известных как страницы ASIN.

Вы можете использовать наш скрапер Amazon для извлечения всех видов данных с платформы. Попробуйте сейчас.

Пошаговое руководство: извлечение Amazon ASIN с помощью Crawlbase Smart AI Proxy

Шаг 1: Начните с создания бесплатного Crawlbase учетная запись для доступа к вашему Smart AI Proxy маркер.

Шаг 2: Перейдите в Crawlbase Smart AI Proxy Главная чтобы получить бесплатный токен доступа, который находится в разделе «Сведения о подключении».

Smart AI Proxy подробности о подключении на Crawlbase приборная панель

Шаг 3: Выберите продукт Amazon, который вы хотите сканировать. Для этого примера давайте сканировать это Чехол OtterBox для iPhone 14 Pro Max (ТОЛЬКО) Commuter Series Продукт Amazon. URL-адрес следующий:

https://www.amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/

Шаг 4: Чтобы отправить запрос в Smart AI Proxy, скопируйте следующую строку и вставьте ее в терминал:

1
curl -x "http://[электронная почта защищена]:8012" -k "https://www.amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/"

Эту команду curl также можно найти в Crawlbase Smart AI Proxy Документация. Не забудьте заменить «USER_TOKEN» на свой токен доступа и вставить URL-адрес продукта, который вы хотите сканировать.

Как вы видите, команда curl имеет 2 параметра: -x, который эквивалентен —proxy, позволяет пользователю отправлять хост прокси:порт, а также аутентификацию прокси. Crawlbase Smart AI Proxy не требует пароля для аутентификации, так как имена пользователей прокси уникальны и безопасны, достаточно использовать имя пользователя или USER_TOKEN для аутентификации прокси. Если вам, однако, требуется добавить пароль в вашем приложении для веб-скрейпинга, то добавьте любую строку, которую вы предпочитаете, например, название вашей компании или просто добавьте Crawlbase .

В curl команду, мы также добавили -k флаг (или --insecure) означает «небезопасный». Когда вы используете -k флаг с curl, он сообщает команде, что нужно разрешить подключение к сайтам, защищенным SSL/TLS (HTTPS), без проверки подлинности сертификата, представленного сервером. Эта опция требуется на Smart AI Proxy, это позволяет нам обрабатывать пересылку на Crawling API и обходить капчи и блоки перед отправкой запроса на исходный запрашиваемый веб-сайт. Обязательно использовать флаг -k или —insecure при отправке запросов на Smart AI Proxy.

Шаг 5: Если все сделано правильно, вы должны получить HTML-ответ, аналогичный показанному на этом снимке экрана.

Ответ в формате HTML

В приведенном выше примере мы просканировали целевую страницу Amazon и видим, что искомый нами ASIN присутствует в виде currentAsin:

Текущий ASIN

Скрапинг Amazon ASIN с помощью Python и Smart AI Proxy

В последнем разделе мы использовали curl для создания простого запроса, который возвращает данные, извлеченные для страницы продукта, откуда мы извлекли ASIN. Для более продвинутого использования мы теперь углубимся в использование Python для автоматизации этих запросов и анализа ответа.

Для кода Python мы будем использовать requests только библиотека и создайте файл с именем smartproxy_amazon_scraper.py.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
Импортировать Запросы

Имя пользователя = 'user_token' # замените на свой user_token, который вы получили из панели управления.
пароль = '' # пароль пустой, он не используется для аутентификации.
proxy_auth = f'{имя пользователя}:{пароль}'

URL = 'https://www.amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/'
proxy_url = f"http://{proxy_auth}@smartproxy.crawlbase.com:8012"
прокси = {"http": proxy_url, "https": proxy_url}

ответ = запросы.получить(url=url, прокси=прокси, проверка=Ложь)

Распечатать(«Код ответа:», ответ.код_статуса)
Распечатать(«Тело ответа:», ответ.содержание)

Затем вы можете просто запустить приведенный выше скрипт в своем terminal с python smartproxy_amazon_scraper.py.

Ответ в формате HTML

Это успешный ответ, который вы получаете в своем терминале в виде HTML. Вы можете проанализировать этот ответ и структурировать данные, которые затем можно сохранить в базе данных для легкого поиска и анализа.

Настройка запросов с помощью Crawling API Параметры

Давайте углубимся в изучение того, как настроить Smart AI Proxy запросы с использованием CrawlbaseАвтора Crawling API Параметры. Вы можете просто передать эти параметры в Smart AI Proxy как заголовки с префиксом CrawlbaseAPI-Parameters: ... Например:

Пример №1:

В этом скрипте Python мы устанавливаем CrawlbaseAPI-Parameters в autoparse=true. Этот вызов API инструктирует Smart AI Proxy для автоматического анализа страницы и возврата ответа JSON. Затем вы можете использовать эти структурированные данные в соответствии с вашими требованиями.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
# запросы на установку pip
Импортировать Запросы
Импортировать JSON

Имя пользователя = 'user_token' # замените на свой user_token, который вы получили из панели управления.
пароль = '' # пароль пустой, он не используется для аутентификации.
proxy_auth = f'{имя пользователя}:{пароль}'

URL = 'https://www.amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/'
proxy_url = f"http://{proxy_auth}@smartproxy.crawlbase.com:8012"
прокси = {"http": proxy_url, "https": proxy_url}

заголовки = {
"Crawlbase"API-Параметры": "автоанализ=истина"
}

ответ = запросы.получить(url=url, прокси=прокси, заголовки=заголовки, проверка=Ложь)

данные = json.loads (response.text)

Распечатать(«Код ответа:», ответ.код_статуса)
Распечатать(«Ответ: тело поцарапано:», json.dumps(данные, отступ=4))

После выполнения указанного выше вызова в терминале вы получите ответ в формате JSON, и вы увидите, что данные теперь выглядят гораздо более структурированными.

Ответ в формате JSON

Пример # 2:

Чтобы добиться геолокации для ваших запросов из определенной страны, просто включите параметр «country=», используя двухбуквенный код страны, например «страна=США». Увидеть ниже:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
# запросы на установку pip

Импортировать Запросы

Имя пользователя = 'user_token' # замените на свой user_token, который вы получили из панели управления.
пароль = '' # пароль пустой, он не используется для аутентификации.
proxy_auth = f'{имя пользователя}:{пароль}'

URL = 'https://www.amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/'
proxy_url = f"http://{proxy_auth}@smartproxy.crawlbase.com:8012"
прокси = {"http": proxy_url, "https": proxy_url}

заголовки = {
"Crawlbase"API-Параметры": "страна=GB"
}

ответ = запросы.получить(url=url, прокси=прокси, заголовки=заголовки, проверка=Ложь)

Распечатать(«Код ответа:», ответ.код_статуса)
Распечатать(«Тело ответа:», ответ.содержание)

После выполнения вышеуказанного вызова в терминале вы получите ответ в формате HTML, как показано ниже:

HTML ответ Smart AI Proxy параметр страны

Вы можете сохранить выходной HTML как smartproxy_amazon_scraper.html на локальном компьютере. Когда вы откроете HTML-файл в браузере, вы увидите, что на странице указано Соединенное Королевство под «Доставить» Это означает, что ваш запрос к Amazon был направлен из GB, как мы указали API в коде выше.

Страница товара на Amazon для чехла для телефона

В двух приведенных выше примерах мы показали вам, как можно успешно сканировать веб-страницу, используя Crawlbase Smart AI Proxy а также как вы можете легко использовать потенциал наших Crawlbase Crawling API через CrawlbaseAPI-параметры. В частности, мы представили autoparse=true параметр, который обеспечивает структурированный вывод для более легкой обработки данных, и country=GB параметр (или любой допустимый двухбуквенный код страны), который упрощает целевую геолокацию.

Crawlbase Smart AI Proxy Упрощенная переадресация!

Обычно прокси-серверы не выполняют перенаправления URL-адресов, но Crawlbase Smart AI Proxy делает. Вот почему мы называем это Smart AI Proxy. Smart AI Proxy использования Crawling API функции для обработки URL-перенаправлений путем перехвата входящих запросов, оценки правил перенаправления, установленных пользователями, и отправки соответствующих кодов статуса HTTP клиентам. Он эффективно перенаправляет пользователей с исходного URL-адреса на целевой URL-адрес на основе указанного типа перенаправления (например, 301 или 302).

Давайте продемонстрируем один сценарий перенаправления, указав тот же URL, что и раньше, но на этот раз мы удалим «Www» префикс из URL. Измененный URL вызовет перенаправление, демонстрируя, как Crawlbase Smart AI Proxy обрабатывает этот тип перенаправления. Результирующий URL без префикса «www» будет выглядеть так:

https://amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/

Мы продолжим использовать код Python, предоставленный ранее, и вызов API для настройки перенаправлений URL будет следовать той же структуре, что и раньше. Фрагмент кода будет выглядеть следующим образом:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
# запросы на установку pip

Импортировать Запросы
Импортировать JSON

Имя пользователя = 'user_token' # замените на свой user_token, который вы получили из панели управления.
пароль = '' # пароль пустой, он не используется для аутентификации.
proxy_auth = f'{имя пользователя}:{пароль}'

URL = 'https://amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/'
proxy_url = f"http://{proxy_auth}@smartproxy.crawlbase.com:8012"
прокси = {"http": proxy_url, "https": proxy_url}

заголовки = {
"Crawlbase"API-Параметры": "автоанализ=истина"
}

ответ = запросы.получить(url=url, прокси=прокси, заголовки=заголовки, проверка=Ложь)

данные = json.loads (response.text)

Распечатать(«Код ответа:», ответ.код_статуса)
Распечатать(«Ответ: тело поцарапано:», json.dumps(данные, отступ=4))

После выполнения указанного выше вызова API в терминале вы получите ответ в формате JSON. В ответе вы можете заметить, что «исходный_статус» поле имеет значение «301.»

JSON-ответ Smart AI Proxy перенаправление URL-адресов вызов

Соскребите Amazon ASIN с помощью Smart AI Proxy

Масштабный скрапинг Amazon ASIN позволяет разработчикам быстро извлекать важную информацию о продукте. Эти ключевые данные имеют решающее значение для изучения рынка, установления цен и сравнения конкурентов. Используя инструменты веб-скрейпингапользователи могут автоматизировать сбор ASIN-кодов из больших списков продуктов, экономя много времени и энергии.

Обобщить, Crawlbase Smart AI Proxy представляет собой революционное решение, предлагающее индивидуальное геопозиционирование, неограниченную пропускную способность, сканирование на основе искусственного интеллекта, ротация IP-адресов, и высокий уровень успеха. Его разнообразные функции, включая огромный пул прокси-серверов, анонимное сканирование и мониторинг в реальном времени, делают его важным инструментом для разработчиков, позволяя им преуспевать в динамичной сфере сбора веб-данных. Зарегистрироваться сейчас и получите выгоду 5000 бесплатных запросов с Crawlbase Smart AI Proxy!

Часто задаваемые вопросы (FAQ)

В: Что такое Amazon ASIN?

A: Amazon ASIN (Amazon Standard Identification Number) — это уникальный 10-значный буквенно-цифровой код, присваиваемый товарам, продаваемым на торговой площадке Amazon. Он служит идентификатором товара и используется для различения товаров в обширном каталоге Amazon. Он всегда начинается с «B0».

A: Сбор данных Amazon полностью законен, если данные общедоступны. Однако крайне важно избегать сбора данных, требующих учетных данных для входа, и гарантировать, что собранные наборы данных не содержат конфиденциального или защищенного авторским правом контента.

В: Что такое SKU?

A: SKU (Stock Keeping Unit) — это уникальный код, который присваивается продавцами или розничными торговцами для отслеживания и управления своими запасами. В отличие от ASIN, SKU не привязан к платформе Amazon и может использоваться в различных каналах продаж

В: Почему важно собирать ASIN-коды товаров, представленных на Amazon?

  • Сбор ASIN-кодов для товаров, представленных на Amazon, важен, поскольку ASIN-коды выступают в качестве уникальных идентификаторов для каждого товара на обширной торговой площадке Amazon.
  • Получая ASIN-коды с помощью веб-скрапинга, разработчики могут собирать основные сведения о продуктах, ценах, доступности и отзывах клиентов, что позволяет им создавать собственные приложения, анализировать тенденции и сравнивать продукты по категориям.
  • Скрапинг ASIN позволяет разработчикам беспрепятственно интегрировать данные о продуктах Amazon в свои приложения и веб-сайты.
  • Отслеживая ASIN и контролируя их эффективность с течением времени, компании и разработчики могут оптимизировать маркетинговые стратегии, управлять запасами и оставаться конкурентоспособными в сфере электронной коммерции.

В: Каковы основные особенности Crawlbase Smart AI Proxy?

A: Ключевые особенности Smart AI Proxy ротация IP-адресов для сохранения анонимности во время процесса сканирования. Пул ротационных IP-адресов включает 140 миллионов жилых и прокси-серверы дата-центров.Отель Smart AI Proxy также очень полезно для обхода CAPTCHA-проблем и обеспечения 99% успеха при сканировании и извлечении данных. Smart AI Proxy также предлагает настраиваемую геолокацию для доступа к данным в определенном регионе.