В этом блоге мы покажем, как использовать Crawlbase Smart AI Proxy Чтобы извлечь ASIN для выбранного продукта Amazon, мы также покажем, как передать Crawlbase Crawling APIs параметры к Smart AI Proxy для улучшенного скрапинга с большим контролем на пути к данным сканирования. В конце у нас будет структурированный JSON страницы продукта Amazon для легкого использования. Мы также ответим на несколько часто задаваемых вопросов о веб-скрапинге Amazon и страницах продуктов Amazon, также известных как страницы ASIN.
Вы можете использовать наш скрапер Amazon для извлечения всех видов данных с платформы. Попробуйте сейчас.
Пошаговое руководство: извлечение Amazon ASIN с помощью Crawlbase Smart AI Proxy
Шаг 1: Начните с создания бесплатного Crawlbase учетная запись для доступа к вашему Smart AI Proxy маркер.
Шаг 2: Перейдите в Crawlbase Smart AI Proxy Главная чтобы получить бесплатный токен доступа, который находится в разделе «Сведения о подключении».

Шаг 3: Выберите продукт Amazon, который вы хотите сканировать. Для этого примера давайте сканировать это Чехол OtterBox для iPhone 14 Pro Max (ТОЛЬКО) Commuter Series Продукт Amazon. URL-адрес следующий:
https://www.amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/
Шаг 4: Чтобы отправить запрос в Smart AI Proxy, скопируйте следующую строку и вставьте ее в терминал:
1 | curl -x "http://[электронная почта защищена]:8012" -k "https://www.amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/" |
Эту команду curl также можно найти в Crawlbase Smart AI Proxy Документация. Не забудьте заменить «USER_TOKEN» на свой токен доступа и вставить URL-адрес продукта, который вы хотите сканировать.
Как вы видите, команда curl имеет 2 параметра: -x, который эквивалентен —proxy, позволяет пользователю отправлять хост прокси:порт, а также аутентификацию прокси. Crawlbase Smart AI Proxy не требует пароля для аутентификации, так как имена пользователей прокси уникальны и безопасны, достаточно использовать имя пользователя или USER_TOKEN для аутентификации прокси. Если вам, однако, требуется добавить пароль в вашем приложении для веб-скрейпинга, то добавьте любую строку, которую вы предпочитаете, например, название вашей компании или просто добавьте Crawlbase .
В curl команду, мы также добавили -k флаг (или --insecure) означает «небезопасный». Когда вы используете -k флаг с curl, он сообщает команде, что нужно разрешить подключение к сайтам, защищенным SSL/TLS (HTTPS), без проверки подлинности сертификата, представленного сервером. Эта опция требуется на Smart AI Proxy, это позволяет нам обрабатывать пересылку на Crawling API и обходить капчи и блоки перед отправкой запроса на исходный запрашиваемый веб-сайт. Обязательно использовать флаг -k или —insecure при отправке запросов на Smart AI Proxy.
Шаг 5: Если все сделано правильно, вы должны получить HTML-ответ, аналогичный показанному на этом снимке экрана.

В приведенном выше примере мы просканировали целевую страницу Amazon и видим, что искомый нами ASIN присутствует в виде currentAsin:

Скрапинг Amazon ASIN с помощью Python и Smart AI Proxy
В последнем разделе мы использовали curl для создания простого запроса, который возвращает данные, извлеченные для страницы продукта, откуда мы извлекли ASIN. Для более продвинутого использования мы теперь углубимся в использование Python для автоматизации этих запросов и анализа ответа.
Для кода Python мы будем использовать requests только библиотека и создайте файл с именем smartproxy_amazon_scraper.py.
1 | Импортировать Запросы |
Затем вы можете просто запустить приведенный выше скрипт в своем terminal с python smartproxy_amazon_scraper.py.

Это успешный ответ, который вы получаете в своем терминале в виде HTML. Вы можете проанализировать этот ответ и структурировать данные, которые затем можно сохранить в базе данных для легкого поиска и анализа.
Настройка запросов с помощью Crawling API Параметры
Давайте углубимся в изучение того, как настроить Smart AI Proxy запросы с использованием CrawlbaseАвтора Crawling API Параметры. Вы можете просто передать эти параметры в Smart AI Proxy как заголовки с префиксом CrawlbaseAPI-Parameters: ... Например:
Пример №1:
В этом скрипте Python мы устанавливаем CrawlbaseAPI-Parameters в autoparse=true. Этот вызов API инструктирует Smart AI Proxy для автоматического анализа страницы и возврата ответа JSON. Затем вы можете использовать эти структурированные данные в соответствии с вашими требованиями.
1 | # запросы на установку pip |
После выполнения указанного выше вызова в терминале вы получите ответ в формате JSON, и вы увидите, что данные теперь выглядят гораздо более структурированными.

Пример # 2:
Чтобы добиться геолокации для ваших запросов из определенной страны, просто включите параметр «country=», используя двухбуквенный код страны, например «страна=США». Увидеть ниже:
1 | # запросы на установку pip |
После выполнения вышеуказанного вызова в терминале вы получите ответ в формате HTML, как показано ниже:

Вы можете сохранить выходной HTML как smartproxy_amazon_scraper.html на локальном компьютере. Когда вы откроете HTML-файл в браузере, вы увидите, что на странице указано Соединенное Королевство под «Доставить» Это означает, что ваш запрос к Amazon был направлен из GB, как мы указали API в коде выше.

В двух приведенных выше примерах мы показали вам, как можно успешно сканировать веб-страницу, используя Crawlbase Smart AI Proxy а также как вы можете легко использовать потенциал наших Crawlbase Crawling API через CrawlbaseAPI-параметры. В частности, мы представили autoparse=true параметр, который обеспечивает структурированный вывод для более легкой обработки данных, и country=GB параметр (или любой допустимый двухбуквенный код страны), который упрощает целевую геолокацию.
Crawlbase Smart AI Proxy Упрощенная переадресация!
Обычно прокси-серверы не выполняют перенаправления URL-адресов, но Crawlbase Smart AI Proxy делает. Вот почему мы называем это Smart AI Proxy. Smart AI Proxy использования Crawling API функции для обработки URL-перенаправлений путем перехвата входящих запросов, оценки правил перенаправления, установленных пользователями, и отправки соответствующих кодов статуса HTTP клиентам. Он эффективно перенаправляет пользователей с исходного URL-адреса на целевой URL-адрес на основе указанного типа перенаправления (например, 301 или 302).
Давайте продемонстрируем один сценарий перенаправления, указав тот же URL, что и раньше, но на этот раз мы удалим «Www» префикс из URL. Измененный URL вызовет перенаправление, демонстрируя, как Crawlbase Smart AI Proxy обрабатывает этот тип перенаправления. Результирующий URL без префикса «www» будет выглядеть так:
https://amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/
Мы продолжим использовать код Python, предоставленный ранее, и вызов API для настройки перенаправлений URL будет следовать той же структуре, что и раньше. Фрагмент кода будет выглядеть следующим образом:
1 | # запросы на установку pip |
После выполнения указанного выше вызова API в терминале вы получите ответ в формате JSON. В ответе вы можете заметить, что «исходный_статус» поле имеет значение «301.»

Соскребите Amazon ASIN с помощью Smart AI Proxy
Масштабный скрапинг Amazon ASIN позволяет разработчикам быстро извлекать важную информацию о продукте. Эти ключевые данные имеют решающее значение для изучения рынка, установления цен и сравнения конкурентов. Используя инструменты веб-скрейпингапользователи могут автоматизировать сбор ASIN-кодов из больших списков продуктов, экономя много времени и энергии.
Обобщить, Crawlbase Smart AI Proxy представляет собой революционное решение, предлагающее индивидуальное геопозиционирование, неограниченную пропускную способность, сканирование на основе искусственного интеллекта, ротация IP-адресов, и высокий уровень успеха. Его разнообразные функции, включая огромный пул прокси-серверов, анонимное сканирование и мониторинг в реальном времени, делают его важным инструментом для разработчиков, позволяя им преуспевать в динамичной сфере сбора веб-данных. Зарегистрироваться сейчас и получите выгоду 5000 бесплатных запросов с Crawlbase Smart AI Proxy!
Часто задаваемые вопросы (FAQ)
В: Что такое Amazon ASIN?
A: Amazon ASIN (Amazon Standard Identification Number) — это уникальный 10-значный буквенно-цифровой код, присваиваемый товарам, продаваемым на торговой площадке Amazon. Он служит идентификатором товара и используется для различения товаров в обширном каталоге Amazon. Он всегда начинается с «B0».
В: Законно ли заниматься парсингом Amazon?
A: Сбор данных Amazon полностью законен, если данные общедоступны. Однако крайне важно избегать сбора данных, требующих учетных данных для входа, и гарантировать, что собранные наборы данных не содержат конфиденциального или защищенного авторским правом контента.
В: Что такое SKU?
A: SKU (Stock Keeping Unit) — это уникальный код, который присваивается продавцами или розничными торговцами для отслеживания и управления своими запасами. В отличие от ASIN, SKU не привязан к платформе Amazon и может использоваться в различных каналах продаж
В: Почему важно собирать ASIN-коды товаров, представленных на Amazon?
- Сбор ASIN-кодов для товаров, представленных на Amazon, важен, поскольку ASIN-коды выступают в качестве уникальных идентификаторов для каждого товара на обширной торговой площадке Amazon.
- Получая ASIN-коды с помощью веб-скрапинга, разработчики могут собирать основные сведения о продуктах, ценах, доступности и отзывах клиентов, что позволяет им создавать собственные приложения, анализировать тенденции и сравнивать продукты по категориям.
- Скрапинг ASIN позволяет разработчикам беспрепятственно интегрировать данные о продуктах Amazon в свои приложения и веб-сайты.
- Отслеживая ASIN и контролируя их эффективность с течением времени, компании и разработчики могут оптимизировать маркетинговые стратегии, управлять запасами и оставаться конкурентоспособными в сфере электронной коммерции.
В: Каковы основные особенности Crawlbase Smart AI Proxy?
A: Ключевые особенности Smart AI Proxy ротация IP-адресов для сохранения анонимности во время процесса сканирования. Пул ротационных IP-адресов включает 140 миллионов жилых и прокси-серверы дата-центров.Отель Smart AI Proxy также очень полезно для обхода CAPTCHA-проблем и обеспечения 99% успеха при сканировании и извлечении данных. Smart AI Proxy также предлагает настраиваемую геолокацию для доступа к данным в определенном регионе.











