В этом блоге мы покажем, как использовать Crawlbase Умный прокси-сервер ИИ для извлечения ASIN для выбранного продукта Amazon. Мы также покажем, как передать Crawlbase Crawling APIs в Smart AI Proxy для улучшенного парсинга и большего контроля над процессом сканирования данных. В итоге мы получим структурированный JSON-файл страницы товара Amazon для удобства использования. Мы также ответим на несколько часто задаваемых вопросов о парсинге Amazon и страницах товаров Amazon (ASIN-страницах).

Вы можете использовать наш скрапер Amazon для извлечения всех видов данных с платформы. Попробуйте сейчас.

Пошаговое руководство: извлечение Amazon ASIN с помощью Crawlbase Умный прокси-сервер ИИ

Шаг 1: Начните с создания бесплатного Crawlbase учетная запись для доступа к вашему токену Smart AI Proxy.

Шаг 2: Перейдите в Crawlbase Панель управления Smart AI Proxy чтобы получить бесплатный токен доступа, который находится в разделе «Сведения о подключении».

Подробности подключения Smart AI Proxy можно найти здесь: Crawlbase приборная панель

Шаг 3: Выберите продукт Amazon, который вы хотите сканировать. Для этого примера давайте сканировать это Чехол OtterBox для iPhone 14 Pro Max (ТОЛЬКО) Commuter Series Продукт Amazon. URL-адрес следующий:

https://www.amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/

Шаг 4: Чтобы отправить запрос в Smart AI Proxy, скопируйте следующую строку и вставьте ее в терминал:

1
curl -x "http://[электронная почта защищена]:8012" -k "https://www.amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/"

Эту команду curl также можно найти в Crawlbase Документация по прокси-серверу Smart AI. Не забудьте заменить «USER_TOKEN» на свой токен доступа и вставить URL-адрес продукта, который вы хотите сканировать.

Как вы видите, команда curl имеет 2 параметра: -x, который эквивалентен —proxy, позволяет пользователю отправлять хост прокси:порт, а также аутентификацию прокси. Crawlbase Smart AI Proxy не требует пароля для аутентификации, поскольку имена пользователей прокси-сервера уникальны и защищены. Для аутентификации достаточно использовать имя пользователя или USER_TOKEN. Если же вам требуется добавить пароль в приложение для парсинга веб-страниц, добавьте любую строку, например, название вашей компании, или просто… Crawlbase .

В curl команду, мы также добавили -k флаг (или --insecure) означает «небезопасный». Когда вы используете -k флаг с curl, он разрешает команде подключаться к сайтам, защищённым SSL/TLS (HTTPS), без проверки подлинности сертификата, предоставленного сервером. Эта опция обязательна для Smart AI Proxy и позволяет нам управлять переадресацией на Crawling API и обходить капчи и блокировки перед отправкой запроса на исходный запрашиваемый сайт. При отправке запросов к Smart AI Proxy обязательно используйте флаг -k или —insecure.

Шаг 5: Если все сделано правильно, вы должны получить HTML-ответ, аналогичный показанному на этом снимке экрана.

Ответ в формате HTML

В приведенном выше примере мы просканировали целевую страницу Amazon и видим, что искомый нами ASIN присутствует в виде currentAsin:

Текущий ASIN

Сбор Amazon ASIN с помощью Python и Smart AI Proxy

В последнем разделе мы использовали curl для создания простого запроса, который возвращает данные, извлеченные для страницы продукта, откуда мы извлекли ASIN. Для более продвинутого использования мы теперь углубимся в использование Python для автоматизации этих запросов и анализа ответа.

Для кода Python мы будем использовать requests только библиотека и создайте файл с именем smartproxy_amazon_scraper.py.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
Импортировать Запросы

Имя пользователя = 'user_token' # замените на свой user_token, который вы получили из панели управления.
пароль = '' # пароль пустой, он не используется для аутентификации.
proxy_auth = f'{имя пользователя}:{пароль}'

URL = 'https://www.amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/'
proxy_url = f"http://{proxy_auth}@smartproxy.crawlbase.com:8012"
прокси = {"http": proxy_url, "https": proxy_url}

ответ = запросы.получить(url=url, прокси=прокси, проверка=Ложь)

Распечатать(«Код ответа:», ответ.код_статуса)
Распечатать(«Тело ответа:», ответ.содержание)

Затем вы можете просто запустить приведенный выше скрипт в своем terminal python smartproxy_amazon_scraper.py.

Ответ в формате HTML

Это успешный ответ, который вы получаете в своем терминале в виде HTML. Вы можете проанализировать этот ответ и структурировать данные, которые затем можно сохранить в базе данных для легкого поиска и анализа.

Настройка запросов с помощью Crawling API Параметры

Давайте углубимся в изучение того, как настраивать запросы Smart AI Proxy с помощью CrawlbaseАвтора Crawling API Параметры. Вы можете просто передать эти параметры в Smart AI Proxy как заголовки с префиксом CrawlbaseAPI-Parameters: ... Например:

Пример №1:

В этом скрипте Python мы устанавливаем CrawlbaseAPI-Parameters в autoparse=trueЭтот вызов API даёт указание прокси-серверу Smart AI автоматически проанализировать страницу и вернуть ответ в формате JSON. Затем вы можете использовать эти структурированные данные по своему усмотрению.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
# запросы на установку pip
Импортировать Запросы
Импортировать JSON

Имя пользователя = 'user_token' # замените на свой user_token, который вы получили из панели управления.
пароль = '' # пароль пустой, он не используется для аутентификации.
proxy_auth = f'{имя пользователя}:{пароль}'

URL = 'https://www.amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/'
proxy_url = f"http://{proxy_auth}@smartproxy.crawlbase.com:8012"
прокси = {"http": proxy_url, "https": proxy_url}

заголовки = {
"Crawlbase"API-Параметры": "автоанализ=истина"
}

ответ = запросы.получить(url=url, прокси=прокси, заголовки=заголовки, проверка=Ложь)

данные = json.loads (response.text)

Распечатать(«Код ответа:», ответ.код_статуса)
Распечатать(«Ответ: тело поцарапано:», json.dumps(данные, отступ=4))

После выполнения указанного выше вызова в терминале вы получите ответ в формате JSON, и вы увидите, что данные теперь выглядят гораздо более структурированными.

Ответ в формате JSON

Пример # 2:

Чтобы добиться геолокации для ваших запросов из определенной страны, просто включите параметр «country=», используя двухбуквенный код страны, например «страна=США». Увидеть ниже:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
# запросы на установку pip

Импортировать Запросы

Имя пользователя = 'user_token' # замените на свой user_token, который вы получили из панели управления.
пароль = '' # пароль пустой, он не используется для аутентификации.
proxy_auth = f'{имя пользователя}:{пароль}'

URL = 'https://www.amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/'
proxy_url = f"http://{proxy_auth}@smartproxy.crawlbase.com:8012"
прокси = {"http": proxy_url, "https": proxy_url}

заголовки = {
"Crawlbase"API-Параметры": "страна=GB"
}

ответ = запросы.получить(url=url, прокси=прокси, заголовки=заголовки, проверка=Ложь)

Распечатать(«Код ответа:», ответ.код_статуса)
Распечатать(«Тело ответа:», ответ.содержание)

После выполнения вышеуказанного вызова в терминале вы получите ответ в формате HTML, как показано ниже:

HTML-ответ параметра страны Smart AI Proxy

Вы можете сохранить выходной HTML как smartproxy_amazon_scraper.html на локальном компьютере. Когда вы откроете HTML-файл в браузере, вы увидите, что на странице указано Соединенное Королевство под «Доставить» Это означает, что ваш запрос к Amazon был направлен из GB, как мы указали API в коде выше.

Страница товара на Amazon для чехла для телефона

В двух приведенных выше примерах мы показали вам, как можно успешно сканировать веб-страницу, используя Crawlbase Smart AI Proxy, а также как вы можете легко использовать потенциал нашего Crawlbase Crawling API через CrawlbaseAPI-параметры. В частности, мы представили autoparse=true параметр, который обеспечивает структурированный вывод для более легкой обработки данных, и country=GB параметр (или любой допустимый двухбуквенный код страны), который упрощает целевую геолокацию.

Crawlbase Умный прокси-сервер с искусственным интеллектом упрощает перенаправления!

Обычно прокси-серверы не выполняют перенаправления URL-адресов, но Crawlbase Smart AI Proxy работает. Именно поэтому мы называем его Smart AI Proxy. Smart AI Proxy использует Crawling API функции для обработки URL-перенаправлений путем перехвата входящих запросов, оценки правил перенаправления, установленных пользователями, и отправки соответствующих кодов статуса HTTP клиентам. Он эффективно перенаправляет пользователей с исходного URL-адреса на целевой URL-адрес на основе указанного типа перенаправления (например, 301 или 302).

Давайте продемонстрируем один сценарий перенаправления, указав тот же URL, что и раньше, но на этот раз мы удалим «Www» префикс из URL. Измененный URL вызовет перенаправление, демонстрируя, как Crawlbase Smart AI Proxy обрабатывает этот тип перенаправления. Результирующий URL без префикса «www» будет выглядеть следующим образом:

https://amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/

Мы продолжим использовать код Python, предоставленный ранее, и вызов API для настройки перенаправлений URL будет следовать той же структуре, что и раньше. Фрагмент кода будет выглядеть следующим образом:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
# запросы на установку pip

Импортировать Запросы
Импортировать JSON

Имя пользователя = 'user_token' # замените на свой user_token, который вы получили из панели управления.
пароль = '' # пароль пустой, он не используется для аутентификации.
proxy_auth = f'{имя пользователя}:{пароль}'

URL = 'https://amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/'
proxy_url = f"http://{proxy_auth}@smartproxy.crawlbase.com:8012"
прокси = {"http": proxy_url, "https": proxy_url}

заголовки = {
"Crawlbase"API-Параметры": "автоанализ=истина"
}

ответ = запросы.получить(url=url, прокси=прокси, заголовки=заголовки, проверка=Ложь)

данные = json.loads (response.text)

Распечатать(«Код ответа:», ответ.код_статуса)
Распечатать(«Ответ: тело поцарапано:», json.dumps(данные, отступ=4))

После выполнения указанного выше вызова API в терминале вы получите ответ в формате JSON. В ответе вы можете заметить, что «исходный_статус» поле имеет значение «301.»

JSON-ответ на вызов URL-адресов перенаправления Smart AI Proxy

Собирайте Amazon ASIN с помощью Smart AI Proxy

Масштабный скрапинг Amazon ASIN позволяет разработчикам быстро извлекать важную информацию о продукте. Эти ключевые данные имеют решающее значение для изучения рынка, установления цен и сравнения конкурентов. Используя инструменты веб-скрейпингапользователи могут автоматизировать сбор ASIN-кодов из больших списков продуктов, экономя много времени и энергии.

Обобщить, Crawlbase Умный прокси-сервер ИИ представляет собой революционное решение, предлагающее индивидуальное геопозиционирование, неограниченную пропускную способность, сканирование на основе искусственного интеллекта, ротация IP-адресов, и высокий уровень успеха. Его разнообразные функции, включая огромный пул прокси-серверов, анонимное сканирование и мониторинг в реальном времени, делают его важным инструментом для разработчиков, позволяя им преуспевать в динамичной сфере сбора веб-данных. Зарегистрироваться сейчас и получите выгоду 5000 бесплатных запросов Crawlbase Умный прокси-сервер ИИ!

FAQ

В: Что такое Amazon ASIN?

A: Amazon ASIN (Amazon Standard Identification Number) — это уникальный 10-значный буквенно-цифровой код, присваиваемый товарам, продаваемым на торговой площадке Amazon. Он служит идентификатором товара и используется для различения товаров в обширном каталоге Amazon. Он всегда начинается с «B0».

A: Сбор данных Amazon полностью законен, если данные общедоступны. Однако крайне важно избегать сбора данных, требующих учетных данных для входа, и гарантировать, что собранные наборы данных не содержат конфиденциального или защищенного авторским правом контента.

В: Что такое SKU?

A: SKU (Stock Keeping Unit) — это уникальный код, который присваивается продавцами или розничными торговцами для отслеживания и управления своими запасами. В отличие от ASIN, SKU не привязан к платформе Amazon и может использоваться в различных каналах продаж

В: Почему важно собирать ASIN-коды товаров, представленных на Amazon?

  • Сбор ASIN-кодов для товаров, представленных на Amazon, важен, поскольку ASIN-коды выступают в качестве уникальных идентификаторов для каждого товара на обширной торговой площадке Amazon.
  • Получая ASIN-коды с помощью веб-скрапинга, разработчики могут собирать основные сведения о продуктах, ценах, доступности и отзывах клиентов, что позволяет им создавать собственные приложения, анализировать тенденции и сравнивать продукты по категориям.
  • Скрапинг ASIN позволяет разработчикам беспрепятственно интегрировать данные о продуктах Amazon в свои приложения и веб-сайты.
  • Отслеживая ASIN и контролируя их эффективность с течением времени, компании и разработчики могут оптимизировать маркетинговые стратегии, управлять запасами и оставаться конкурентоспособными в сфере электронной коммерции.

В: Каковы основные особенности Crawlbase Умный прокси-сервер ИИ?

A: Ключевые особенности Smart AI Proxy: ротация IP-адресов для сохранения анонимности во время процесса сканирования. Пул ротационных IP-адресов включает 140 миллионов жилых и прокси-серверы дата-центровSmart AI Proxy также очень полезен для обхода CAPTCHA и гарантирует 99%-ную успешность сканирования и парсинга. Smart AI Proxy также предлагает настраиваемое геолокационное определение для доступа к данным в определённом регионе.