Добро пожаловать в Amazon Buy Box Data Scraping, ваш шлюз к эффективному мониторингу Amazon Buy Box и извлечению данных! Если вы когда-либо делали покупки на Amazon, вы, вероятно, сталкивались с Buy Box, не зная об этом. Этот заметный раздел на странице продукта содержит кнопку «Добавить в корзину» или «Купить сейчас» и имеет решающее значение для покупателей и продавцов. Нажатие этой кнопки означает покупку у продавца в Buy Box.

Коробка для покупок на Amazon

Теперь вы можете задаться вопросом: «Что такого особенного в кнопке?» Что ж, Buy Box — это больше, чем просто кнопка. Amazon использует сложный алгоритм, чтобы определить, какой продавец получит это привилегированное место. Этот алгоритм оценивает множество факторов, включая цену, варианты доставки, эффективность продавца и многое другое.

Amazon Похожие товары Купить коробку

Когда покупатель нажимает на интересующий его продукт, переход за пределы опции «Купить ящик» означает прокрутку значительно дальше вниз к разделу «Сравнить с похожими товарами» или «Другие продавцы на Amazon». Это еще больше повышает желательность получения «Купить ящик». Продавец, выигравший «Купить ящик», получает львиную долю продаж этого продукта. Исследования показали, что «Купить ящик» получает около 90% всех продаж на Amazon. Это существенный кусок пирога.

Те, кто имеет опыт работы с Amazon, возможно, помнят о существовании утилиты, известной как «Featured Merchant». К 2018 году Amazon модернизировал Featured Merchant Status в Buy Box. Перенесемся в 2023 год, и теперь Amazon официально обозначает Buy Box как «Рекомендуемое предложение".

Как продавец Amazon, вы, скорее всего, мечтаете увидеть свои продукты в этом желанном Buy Box. Очевидно, потому что это прямой путь для покупателей, чтобы добавить предлагаемый продукт в корзину. У вас должны быть отличные цены, лучшие отзывы и эффективность продавца, чтобы попасть в этот список. Поэтому продавцам важно не только следить за Buy Box, но и отслеживать факторы, которые влияют на то, кто его выигрывает. С миллионами продуктов, представленных на Amazon, конкуренция очень жесткая. Следовательно, попадание в Buy Box может иметь огромное значение для ваших продаж.

Чтобы попасть на Buy Box, вам нужны идеи и стратегии. Прокрутите вниз, чтобы узнать, как отслеживать цену Buy Box и другие элементы данных с помощью скрапинга данных.

Оглавление

  1. Почему каждому продавцу Amazon нужно место на Buy Box?
  • Необходимость сбора данных
  1. Проблемы и решения в мониторинге Buy Box
  • Меры против царапин
  • Обработка IP-банов и капч
  1. Настройка среды разработки
  • Установка Python
  • Установка необходимых библиотек
  • Выбор правильной среды разработки IDE
  1. Доступ к страницам продуктов Amazon
  • Crawlbase Библиотека Python
  • Получение правильного Crawlbase Токены
  • Выполнение HTTP-запросов к Amazon
  • Обработка динамического контента
  1. Сбор данных о покупке Box
  • Проверка HTML для получения селекторов CSS
  • Структурирование вашего скребка данных
  • Хранение извлеченных данных в CSV-файле
  1. Выводы
  2. FAQ

Почему каждому продавцу Amazon нужно место на Buy Box?

Теперь, когда мы установили важность Buy Box, давайте углубимся в то, почему он так важен для продавцов. Независимо от того, являетесь ли вы владельцем малого бизнеса или крупного предприятия, обеспечение Buy Box является конечной целью при продаже на Amazon.

Почему покупка на Amazon имеет значение
  1. Прозрачность: Товары, представленные в Buy Box, имеют максимальную видимость. Они появляются в верхней части списка товаров, что делает их первым выбором для покупателей. Эта первоклассная недвижимость увеличивает вероятность того, что ваш товар будет замечен и продан.
  2. Увеличение продаж: Победа в Buy Box означает значительный рост продаж. Как уже упоминалось, большинство покупателей Amazon нажимают «Добавить в корзину» на товаре в Buy Box, не сравнивая несколько вариантов. Это приводит к большему количеству конверсий и доходов для продавцов.
  3. Доверие клиентов: Алгоритм Amazon выбирает продукты для Buy Box на основе цены, эффективности продавца и удовлетворенности клиентов. Это означает, что продукты в Buy Box воспринимаются как надежные и заслуживающие доверия. Продавцы, которые постоянно выигрывают Buy Box, как правило, завоевывают доверие клиентов.
  4. Конкурентное преимущество: Buy Box дает продавцам заметное преимущество на жестко конкурентном рынке Amazon. Это особенно выгодно для продавцов, представляющих новые продукты или нацеленных на определенные ниши.

Необходимость сбора данных

Почему продавцам необходимо рассматривать скрапинг данных как важный инструмент для мониторинга Buy Box? Ответ кроется в динамической природе ландшафта электронной коммерции и постоянно развивающихся алгоритмах, которые определяют победителя Buy Box. Давайте рассмотрим необходимость скрапинга данных в этом контексте.

Необходимость сбора данных Buy Box
  • Мониторинг в режиме реального времени: Buy Box постоянно меняется. Алгоритмы Amazon решают в режиме реального времени, кто его получит, основываясь на многих факторах. Продавцы должны постоянно следить за тем, кто находится в Buy Box и почему, чтобы оставаться конкурентоспособными. Без сбора данных это была бы сложная и трудоемкая работа. Сбор данных упрощает задачу, предоставляя обновления в режиме реального времени.
  • Цены на продукцию: Ценообразование является одним из основных факторов Amazon при распределении Buy Box, поэтому продавцам необходимо знать данные о ценах на аналогичные продукты, чтобы сравнивать и соответствующим образом корректировать свои цены. соскобпродавцы могут автоматически отслеживать изменения цен на свои товары и товары конкурентов.
  • Анализ конкурентов: Продавцы могут собирать обширные данные о своих конкурентах, включая списки продуктов, цены и показатели эффективности продавца. Эта информация полезна для разработки стратегий, чтобы превзойти конкурентов и получить Buy Box.
  • Адаптация и оптимизация стратегии: Игра Buy Box не является универсальной. То, что работает для одного продукта, может не работать для другого. Чтобы добиться успеха, продавцам необходимо уметь адаптировать и оптимизировать свои стратегии. Сбор данных дает продавцам информацию, необходимую для принятия обоснованных решений. Он предоставляет основу данных для оценки эффективности различных тактик, будь то корректировка цен, объединение продуктов или улучшение показателей эффективности продавца.
  • Эффективность и масштабируемость: Огромная торговая площадка Amazon предлагает бесчисленное множество списков товаров, продавцов и категорий. Инструменты для сканирования данных позволяют эффективно отслеживать множество продуктов и продавцов одновременно. Такая масштабируемость имеет важное значение для продавцов, желающих расширить свое присутствие на Amazon и конкурировать в нескольких категориях продуктов.

Короче говоря, веб-скрапинг позволяет продавцам Amazon собирать информацию в режиме реального времени о ценах на товары, показателях конкурентов и других переменных, которые влияют на их право на участие в Buy Box.

Проблемы и решения в мониторинге Buy Box

При извлечении данных с веб-сайтов, особенно сайтов электронной коммерции, таких как Amazon, вы столкнетесь с рядом проблем. Amazon применяет строгие меры по борьбе с извлечением данных для защиты своих данных. Кроме того, вы можете столкнуться с такими проблемами, как запреты по IP и капчи. Однако эти проблемы можно эффективно преодолеть с помощью правильных инструментов и стратегий. Одним из таких инструментов, который оказывается бесценным в этом контексте, является Crawlbase Crawling API, мощное решение для веб-скрапинга.

Меры против царапин

Как и многие другие онлайн-платформы, Amazon использует различные меры против парсинга, чтобы предотвратить автоматизированный сбор данных. Понимание того, как работают эти меры, имеет решающее значение для успешного ориентирования в ландшафте парсинга веб-страниц. Вот некоторые распространенные меры против парсинга, используемые Amazon:

  1. CAPTCHAs: Вы, вероятно, сталкивались с подобными головоломками при просмотре веб-страниц. CAPTCHA разработаны для проверки того, является ли пользователь человеком или ботом. Они бывают разных видов, например, распознавание изображений, искажённый текст или выбор определённых объектов на изображениях. Автоматическим парсерам сложно обходить CAPTCHA, поскольку они требуют визуального распознавания и взаимодействия, аналогичного человеческому.
  2. Ограничение скорости: Amazon может ограничить количество запросов, которые может сделать один IP-адрес в течение определенного периода времени. Чрезмерные и быстрые запросы запускают механизмы ограничения скорости, замедляя или полностью блокируя доступ к сайту.
  3. Блокировка IP: Amazon может временно или навсегда заблокировать доступ к сайту с IP-адресов, демонстрирующих скрейпинговое поведение. Если ваш IP-адрес заблокирован, вы сможете получить доступ к сайту после снятия блокировки.

Обработка IP-банов и капч

Баны по IP и капчи — это обычные препятствия, с которыми сталкиваются веб-скрейперы. Amazon, как и многие другие веб-сайты, может временно или навсегда заблокировать ваш IP-адрес, если обнаружит действия по скрапингу. Кроме того, капчи могут быть развернуты для различения поведения человека и бота. Капчи предназначены для проверки личности пользователя и часто их довольно сложно обойти.

В этих сценариях Crawlbase Crawling API оказывается надежным союзником. Этот API использует ротация IP-адресов для обхода запретов по IP. Позволяет делать запросы из пула вращающиеся прокси-серверы, предотвращая легкое обнаружение и блокировку ваших действий по скрапингу. Более того, Crawlbase API может эффективно обрабатывать капчи, позволяя вам автоматизировать решение капчи, экономя ваше драгоценное время и обеспечивая бесперебойный парсинг. Этот API предлагает мощные решения для двух наиболее важных задач в парсинге веб-страниц, что делает его важным инструментом для извлечь данные о продуктах из Amazon.

Настройка среды разработки

В этом разделе будут рассмотрены предпосылки для успешного сбора данных, включая настройку среды разработки и выбор подходящей среды разработки IDE.

Установка Python

Python — это основной язык программирования, который мы будем использовать для веб-скрапинга. Если Python еще не установлен в вашей системе, выполните следующие действия:

  1. Скачать Python: Посетите официальный сайт Python python.org и загрузите последнюю версию Python. Выберите подходящий установщик для вашей операционной системы (Windows, macOS или Linux).

  2. Установка:: Запустите загруженный установщик и следуйте инструкциям по установке. Отметьте опцию, которая добавляет Python в PATH вашей системы во время установки. Этот шаг имеет решающее значение для запуска Python из командной строки.

  3. Проверить установку: Откройте командную строку или терминал и введите следующую команду, чтобы проверить, правильно ли установлен Python:

1
python --version

Вы должны увидеть установленную версию Python.

Установка необходимых библиотек

Python предлагает богатую экосистему библиотек, упрощающих веб-скрапинг. Для этого проекта вам понадобится crawlbase библиотека для создания веб-запросов с Crawlbase API и Beautiful Soup Библиотека для разбора HTML-контента. Для установки этих библиотек используйте следующие команды:

  1. Crawlbase: crawlbase библиотека представляет собой оболочку Python для Crawlbase API, который позволит нам эффективно выполнять веб-запросы.
1
pip установить crawlbase
  1. Красивый суп: Beautiful Soup — библиотека для разбора HTML и XML-документов. Она особенно полезна для извлечения данных из веб-страниц.
1
Пип установить BeautifulSoup4
  1. Панды: Pandas — это мощная библиотека для обработки данных, которая поможет вам эффективно организовать и проанализировать собранные данные.
1
пип установить панды

Установив эти библиотеки, вы получите инструменты, необходимые для загрузки веб-страниц с помощью Crawlbase API и анализировать их содержимое в процессе сбора данных.

Выбор правильной среды разработки IDE

Интегрированная среда разработки (IDE) предоставляет среду кодирования с такими функциями, как подсветка кода, автодополнение и инструменты отладки. Хотя вы можете писать код Python в простом текстовом редакторе, IDE может значительно улучшить ваш опыт разработки.

Вот несколько популярных IDE для Python, которые стоит рассмотреть:

  1. PyCharm: PyCharm — это надежная IDE с бесплатной версией Community Edition. Она предлагает такие функции, как анализ кода, визуальный отладчик и поддержку веб-разработки.

  2. Код Visual Studio (код VS): VS Code — бесплатный редактор кода с открытым исходным кодом, разработанный Microsoft. Его обширная библиотека расширений делает его универсальным для различных задач программирования, включая веб-скрапинг.

  3. Jupyter Notebook: Jupyter Notebook отлично подходит для интерактивного кодирования и исследования данных. Он широко используется в проектах по науке о данных.

  4. Spyder: Spyder — это IDE, разработанная для научных и связанных с данными задач. Она предоставляет такие функции, как проводник переменных и интерактивная консоль.

Выберите IDE, которая лучше всего подходит вашим предпочтениям и рабочему процессу. После установки Python, настройки необходимых библиотек и готовности выбранной IDE вы готовы к извлечению данных Buy Box со страниц продуктов Amazon.

Доступ к страницам продуктов Amazon

Теперь, когда у вас настроена среда разработки, пришло время углубиться в технические аспекты доступа Страницы продуктов Amazon для сбора данных Buy Box. В этом разделе мы рассмотрим использование Crawlbase Библиотека Python, создание HTTP-запросы на Amazon и обработка динамического контента.

Crawlbase Библиотека Python

The Crawlbase Библиотека Python это легкая и независимая оболочка для Crawlbase API, упрощающие тонкости веб-скрейпинга. Этот универсальный инструмент упрощает такие задачи, как отправка HTTP-запросов на веб-сайты, умело обрабатывая Ротация IP, и изящно маневрируя через веб-препятствия, включая CAPTCHA. Чтобы начать свой путь веб-скрейпинга с этой библиотекой, вы можете легко выполнить следующие шаги:

  1. Импортировать: Владеть грозным Crawling API из Crawlbase библиотеки, вы должны начать с импорта необходимого класса CrawlingAPI. Этот основополагающий шаг прокладывает путь для доступа к диапазону Crawlbase API. Вот краткий обзор того, как можно импортировать эти API:
1
от база сканирования Импортировать CrawlingAPI
  1. Инициализация: С вашим Crawlbase API-токен надежно в руках, следующий важный шаг включает инициализацию класса CrawlingAPI. Этот поворотный момент связывает ваш код с огромными возможностями Crawlbase:
1
api = CrawlingAPI({ токен: 'ВАШ_ТОКЕН_БАЗЫ_КРАНА' })
  1. Отправка запроса: Как только ваш класс CrawlingAPI будет готов с вашим Crawlbase API-токен, вы готовы отправлять запросы на ваши целевые веб-сайты. Вот практический пример создания запроса GET, предназначенного для извлечения списков iPhone со страницы поиска Walmart:
1
2
3
ответ = api.get('https://www.facebook.com/britneyspears')
if ответ['status_code'] == 200:
Распечатать(ответ['тело'])

Достаточно воспользоваться ИИ-ассистентом презентера Crawlbase Библиотека Python в качестве вашего верного спутника, вы можете уверенно отправиться в свою одиссею веб-скрейпинга. Для более глубокого погружения в ее возможности вы можете изучить дополнительные детали здесь.

Получение правильного Crawlbase Токены

Прежде чем мы сможем раскрыть всю мощь API, нам необходимо получить API-токен. Crawlbase Crawling API. Crawlbase предоставляет два типа токенов: обычный токен (TCP) для статических веб-сайтов и токен JavaScript (JS) для динамических или управляемых JavaScript веб-сайтов. Поскольку Amazon в значительной степени полагается на JavaScript для динамической загрузки контента, мы выберем токен JavaScript. Чтобы все прошло гладко, Crawlbase щедро предлагает первоначальную квоту в 1,000 бесплатных запросов на Crawling API.

1
2
3
4
от база сканирования Импортировать CrawlingAPI

# Инициализируем Crawling API с вашей Crawlbase JavaScript-токен
api = CrawlingAPI({ токен: 'YOU_CRAWLBASE_JS_TOKEN' })

Вы можете получить свой Crawlbase знак здесь после создания на нем учетной записи.

Выполнение HTTP-запросов к Amazon

Вооружившись нашим токеном JavaScript, мы готовы настроить Crawlbase Crawling API. Но прежде чем продолжить, давайте углубимся в структуру выходного ответа. Ответ, который вы получите, может быть в двух форматах: HTML или JSON. Выбор по умолчанию для Crawling API имеет формат HTML.

HTML-ответ:

1
2
3
4
5
6
7
Заголовки:
URL: "URL, который был просканирован"
оригинальный_статус: 200
pc_status: 200

Тело:
HTML-код страницы

Мы можем прочитать больше о Crawling API ответ здесь. Для примера мы выберем вариант по умолчанию. Мы будем использовать инициализированный объект API для выполнения запросов. Укажите URL, который вы собираетесь скрейпить, используя api.get(url, options={}) функции.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
от база сканирования Импортировать CrawlingAPI

# Инициализируем Crawling API с вашей Crawlbase знак
api = CrawlingAPI({ токен: 'YOU_CRAWLBASE_JS_TOKEN' })

# URL страницы поиска Amazon, которую вы хотите скопировать
amazon_product_url = 'https://www.amazon.com/Motorola-Stylus-Battery-Unlocked-Emerald/dp/B0BFYRV4CD'

# Сделайте запрос на очистку страницы поиска Amazon
ответ = api.get(amazon_product_url)

# Проверьте, был ли запрос успешным
if ответ['status_code'] == 200:
# Извлеченный HTML-контент после декодирования байтовых данных
# latin1 также будет обрабатывать китайские символы
html_content = ответ['тело'].decode('латинский1')

# Сохраните HTML-контент в файл
открытый('output.html', 'w', кодировка='utf-8') as файл:
файл.запись(html_content)
еще:
Распечатать(«Не удалось получить страницу. Код статуса:», ответ['status_code'])

В предоставленном фрагменте кода мы защищаем полученный HTML-контент, сохраняя его в HTML-файле. Это действие имеет решающее значение для подтверждения успешного получения целевых HTML-данных. Затем мы можем просмотреть файл, чтобы проверить определенный контент в просканированном HTML.

output.html Предварительный просмотр:

output.html Предварительный просмотр

Как вы можете видеть выше, в просканированном HTML нет никакой полезной информации. Это потому, что Amazon загружает свой важный контент динамически с помощью JavaScript и Ajax.

Обработка динамического контента

На страницах продуктов Amazon часто присутствует динамический контент, загружаемый через вызовы JavaScript и Ajax. Этот динамизм может стать проблемой при извлечении данных. Однако с Crawlbase Crawling API, с этими проблемами можно эффективно справиться.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
от база сканирования Импортировать CrawlingAPI

# Инициализируем Crawling API с вашей Crawlbase знак
api = CrawlingAPI({ токен: 'YOU_CRAWLBASE_JS_TOKEN' })

# URL страницы поиска Amazon, которую вы хотите скопировать
amazon_product_url = 'https://www.amazon.com/Motorola-Stylus-Battery-Unlocked-Emerald/dp/B0BFYRV4CD'

# вариантов для Crawling API
варианты = {
'page_wait': 2000,
'ajax_wait': 'правда'
}

# Сделайте запрос на очистку страницы поиска Amazon с параметрами
ответ = api.get(amazon_product_url, параметры)

# Проверьте, был ли запрос успешным
if ответ['status_code'] == 200:
# Извлеченный HTML-контент после декодирования байтовых данных
html_content = ответ['тело'].decode('латинский1')

# Сохраните HTML-контент в файл
открытый('output.html', 'w', кодировка='utf-8') as файл:
файл.запись(html_content)
еще:
Распечатать(«Не удалось получить страницу. Код статуса:», ответ['status_code'])

Crawlbase позволяет вам определить конкретные параметры, которые обеспечивают точный захват динамически визуализируемого контента. Два ключевых параметра, которые следует учитывать, включают:

  • страница_ожидание: Этот необязательный параметр позволяет указать длительность ожидания в миллисекундах перед захватом результирующего HTML-кода. Используйте этот параметр, когда странице требуется дополнительное время для рендеринга или когда запросы AJAX должны быть полностью загружены перед захватом HTML.
  • ajax_wait: Другой необязательный параметр, адаптированный для токена JavaScript, позволяет указать, должен ли скрипт ожидать завершения запросов AJAX перед получением ответа HTML. Это бесценно, когда контент зависит от выполнения запросов AJAX.

Используя эти параметры, вы можете эффективно перемещаться и извлекать данные со страниц товаров Amazon, даже при наличии динамического контента.

output.html Предварительный просмотр:

output.html Предварительный просмотр

Со знанием Crawlbase и как делать HTTP-запросы к Amazon, теперь вы готовы создать свой buy box tracker. В следующем разделе мы рассмотрим тонкости скрапинга данных Buy Box и извлечения необходимой информации.

Сбор данных о покупке Box

Сбор данных из Buy Box на страницах продуктов Amazon является ключевым шагом в мониторинге и отслеживании этой желанной позиции. Однако, чтобы делать это эффективно, вам необходимо понимать структуру веб-страниц Amazon и знать, какие конкретные данные в Buy Box имеют решающее значение для ваших целей отслеживания.

Проверка HTML для получения селекторов CSS

Чтобы извлечь данные из Buy Box, вам сначала нужно определить элементы HTML, содержащие интересующую вас информацию. Этот процесс включает проверку структуры HTML страниц продуктов Amazon для поиска селекторов CSS, соответствующих данным, которые вы хотите извлечь.

Итак, какие данные важны в Buy Box?

  1. Название продукта: Название продукта, представленное в поле «Купить», необходимо для отслеживания изменений в объявлениях.
  2. Цена: Отслеживание текущей цены товара в Buy Box имеет решающее значение, поскольку она часто колеблется из-за различных факторов.
  3. Информация о продавце: Информация о продавце, включая его имя и то, является ли он продавцом Amazon или сторонним продавцом, имеет решающее значение для понимания того, кто в данный момент занимает Buy Box.
  4. Доступность: Проверка доступности товара помогает продавцам оценить конкуренцию за Buy Box.
  5. Кнопка "Добавить в корзину": Отслеживание изменений на кнопке «Добавить в корзину» имеет важное значение, поскольку позволяет определить, могут ли клиенты приобрести товар непосредственно из Buy Box.

Давайте опишем, как можно проверить структуру HTML и извлечь эту информацию из селекторов CSS:

Проверьте страницу продукта Amazon
  1. Открыть веб-страницу: Перейдите на сайт Amazon и перейдите на страницу продукта, который вас заинтересовал.
  2. Щелкните правой кнопкой мыши и выберите «Проверить».: Используйте свое мастерство щелчка правой кнопкой мыши на элементе, который вы хотите извлечь (например, Buy Box), и выберите «Inspect» или «Inspect Element» из контекстного меню. Это мистическое заклинание вызовет инструменты разработчика браузера.
  3. Найдите исходный HTML-код: В пределах инструментов разработчика исходный код HTML веб-страницы раскроет свои секреты. Наведите курсор на различные элементы на панели HTML и наблюдайте, как соответствующие части веб-страницы магически подсвечиваются.
  4. Определите селекторы CSS: Чтобы извлечь данные из определенного элемента, щелкните его правой кнопкой мыши в инструментах разработчика и изящно выберите «Копировать» > «Копировать селектор». Этот элегантный маневр перенесет селектор CSS для этого элемента в буфер обмена, готовый к использованию в ваших заклинаниях по веб-скрапингу.

Получив эти селекторы, вы можете приступить к структурированию своего инструмента для извлечения данных, чтобы эффективно извлекать необходимую информацию.

Структурирование вашего скребка данных

Теперь, когда мы успешно получили HTML-контент динамической страницы продукта Amazon и знаем, как получить селектор CSS, пришло время извлечь ценные данные для Amazon Buy Box из извлеченного контента. В этом разделе, ориентированном на разработчиков, мы создадим скрипт Python, который умело извлечет данные о продукте со страницы результатов поиска Walmart.

Этот скрипт воплощает в себе суть веб-скрапинга: выполнение HTTP-запросов, анализ HTML-контента и извлечение важной информации, которую мы ищем.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
от база сканирования Импортировать CrawlingAPI
от bs4 Импортировать КрасивыйСуп
Импортировать JSON

защиту initialize_crawlbase_api(знак):
возвращают CrawlingAPI({токен: токен})

защиту scrape_amazon_product_html(html_контент):
суп = КрасивыйСуп(html_content, 'html.парсер')
информация_о_продукте = {}

защиту получить_текст_или_по_умолчанию(селектор, по умолчанию="Не найдено"):
элемент = суп.select_one(селектор)
возвращают элемент.текст.полоска() if элемент еще по умолчанию

защиту присутствует_элемент(селектор):
элемент = суп.select_one(селектор)
возвращают "Подарок" if элемент еще "Отсутствует"

информация_о_продукте[Кнопка «Купить сейчас»] = присутствует_элемент('span#submit\\.buy-now')
информация_о_продукте[«Кнопка «Добавить в корзину»»] = присутствует_элемент('span#submit\\.add-to-cart')
информация_о_продукте['Доступность'] = получить_текст_или_по_умолчанию('#промежуток доступности')
информация_о_продукте[«Название продукта»] = получить_текст_или_по_умолчанию('#названиепродукта')
информация_о_продукте['Цена'] = получить_текст_или_по_умолчанию('.a-price .a-offscreen')
информация_о_продукте[«Имя грузоотправителя»] = получить_текст_или_по_умолчанию('#fulfillerInfoFeature_feature_div span.offer-display-feature-text-message')
информация_о_продукте[«Имя продавца»] = получить_текст_или_по_умолчанию('#merchantInfoFeature_feature_div span.offer-display-feature-text-message')

возвращают информация_о_продукте

защиту scrape_amazon_product_info(API, URL-адрес):
варианты = {
'page_wait': 2000,
'ajax_wait': 'правда'
}
ответ = api.get(url, параметры)

if ответ['status_code'] == 200:
html_content = ответ['тело'].decode('латинский1')
возвращают scrape_amazon_product_html(html_content)
еще:
Распечатать(«Не удалось получить страницу. Код статуса:», ответ['status_code'])
возвращают Ничто

защиту main():
api = initialize_crawlbase_api('YOU_CRAWLBASE_JS_TOKEN')
product_info = scrape_amazon_product_info(api, 'https://www.amazon.com/Motorola-Stylus-Battery-Unlocked-Emerald/dp/B0BFYRV4CD')

if информация_о_продукте:
Распечатать(json.dumps(product_info, отступ=2))

if __имя__ == "__основной__":
Основной ()

Этот скрипт Python собирает данные о продуктах Amazon, используя Crawlbase Crawling API и библиотека BeautifulSoup. Она начинается с инициализации Crawling API с токеном, специфичным для пользователя. Основная функциональность инкапсулирована в scrape_amazon_product_info функция, которая извлекает данные из указанного URL-адреса продукта Amazon. Эта функция делает HTTP-запрос к указанному URL-адресу и проверяет, равен ли код статуса ответа 200, что указывает на успешный запрос. В случае успеха она анализирует HTML-контент с помощью BeautifulSoup.

Внутри scrape_amazon_product_html Функция, она использует различные селекторы CSS для извлечения определенной информации из HTML, такой как наличие кнопки «Купить сейчас», наличие кнопки «Добавить в корзину», доступность продукта, название продукта, цена, имя отправителя и имя продавца. Она обрабатывает случаи, когда элемент не найден, и назначает значение по умолчанию «Не найдено».

Наконец, скрипт вызывает main функция, которая инициализирует Crawling API, извлекает данные о продукте из URL-адреса продукта Amazon и выводит извлеченные данные в виде красиво отформатированного объекта JSON. Этот код обеспечивает понятный и структурированный способ извлечения важной информации со страниц продуктов Amazon, что делает его ценным инструментом для отслеживания и мониторинга данных о продуктах.

Пример вывода:

1
2
3
4
5
6
7
8
9
{
«Кнопка «Купить сейчас»»: "Подарок",
«Кнопка «Добавить в корзину»»: "Подарок",
"Доступность": "В наличии",
«Название продукта»: «Motorola Moto G Stylus 5G | 2021 | Аккумулятор на 2 дня | Разблокирован | Сделано для США 4/128 ГБ | Камера 48 МП | Космический изумруд»,
"Цена": "149.99 $",
«Название грузоотправителя»: "Amazon.com",
«Имя продавца»: "Amazon.com"
}

Хранение извлеченных данных в CSV-файле

После успешного скрапинга данных Buy Box со страниц продуктов Amazon следующим логическим шагом будет эффективное хранение этой ценной информации. CSV (значения, разделенные запятыми) — широко используемый формат для хранения табличных данных, особенно полезный при скрапинге AliExpress с помощью Python. Он обеспечивает простой и понятный человеку способ хранения структурированных данных, что делает его отличным выбором для сохранения ваших скрапинговых данных Amazon Buy Box.

Мы расширим наш предыдущий скрипт для скрапинга страницы поиска, включив в него шаг сохранения важной информации из скрапинга в CSV-файл. Для этого мы воспользуемся популярной библиотекой Python pandas. Ниже представлена ​​обновленная версия скрипта:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
от база сканирования Импортировать CrawlingAPI
от bs4 Импортировать КрасивыйСуп
Импортировать панд as pd

защиту initialize_crawlbase_api(знак):
возвращают CrawlingAPI({токен: токен})

защиту scrape_amazon_product_html(html_контент):
суп = КрасивыйСуп(html_content, 'html.парсер')
информация_о_продукте = {}

защиту получить_текст_или_по_умолчанию(селектор, по умолчанию="Не найдено"):
элемент = суп.select_one(селектор)
возвращают элемент.текст.полоска() if элемент еще по умолчанию

защиту присутствует_элемент(селектор):
элемент = суп.select_one(селектор)
возвращают "Подарок" if элемент еще "Отсутствует"

информация_о_продукте[Кнопка «Купить сейчас»] = присутствует_элемент('span#submit\\.buy-now')
информация_о_продукте[«Кнопка «Добавить в корзину»»] = присутствует_элемент('span#submit\\.add-to-cart')
информация_о_продукте['Доступность'] = получить_текст_или_по_умолчанию('#промежуток доступности')
информация_о_продукте[«Название продукта»] = получить_текст_или_по_умолчанию('#названиепродукта')
информация_о_продукте['Цена'] = получить_текст_или_по_умолчанию('.a-price .a-offscreen')
информация_о_продукте[«Имя грузоотправителя»] = получить_текст_или_по_умолчанию('#fulfillerInfoFeature_feature_div span.offer-display-feature-text-message')
информация_о_продукте[«Имя продавца»] = получить_текст_или_по_умолчанию('#merchantInfoFeature_feature_div span.offer-display-feature-text-message')

возвращают информация_о_продукте

защиту scrape_amazon_product_info(API, URL-адрес):
варианты = {
'page_wait': 2000,
'ajax_wait': 'правда'
}
ответ = api.get(url, параметры)

if ответ['status_code'] == 200:
html_content = ответ['тело'].decode('латинский1')
возвращают scrape_amazon_product_html(html_content)
еще:
Распечатать(«Не удалось получить страницу. Код статуса:», ответ['status_code'])
возвращают Ничто

защиту main():
api = initialize_crawlbase_api('YOU_CRAWLBASE_JS_TOKEN')
product_info = scrape_amazon_product_info(api, 'https://www.amazon.com/Motorola-Stylus-Battery-Unlocked-Emerald/dp/B0BFYRV4CD')

if информация_о_продукте:
# Создать DataFrame из словаря product_info
df = pd.DataFrame([product_info])
# Сохраните DataFrame в CSV-файл
df.to_csv('amazon_product_info.csv', индекс=Ложь)

if __имя__ == "__основной__":
Основной ()

Обновленный код сохраняет данные в CSV-файл, используя библиотеку Pandas. Сначала он создает Pandas DataFrame из product_info словарь, где каждая пара ключ-значение в словаре соответствует столбцу в DataFrame. Затем он сохраняет DataFrame как файл CSV. pd.DataFrame([product_info]) оператор создает DataFrame с одной строкой данных, гарантируя, что данные организованы в табличной структуре. Наконец, df.to_csv('amazon_product_info.csv', index=False) экспортирует DataFrame в CSV-файл с именем amazon_product_info.csv при этом исключается индексация по умолчанию, которую Pandas добавляет в CSV, что приводит к чистому и структурированному хранению извлеченной информации о товарах Amazon.

amazon_product_info.csv Предварительный просмотр:

Предварительный просмотр выходного CSV-файла

Выводы

Надеюсь, теперь вы сможете легко скрейпить данные Amazon Buy Box. Для получения дополнительных руководств по скрейпингу Amazon перейдите по ссылкам ниже:

📜 Как скопировать отзывы на Amazon
📜 Как скопировать страницы поиска Amazon
📜 Как очистить данные о продуктах Amazon

Для получения дополнительных руководств по скрапингу Amazon ознакомьтесь с нашими руководствами по скрапингу Цены на Амазон, Amazon PPC-реклама, Амазонка ASIN, Amazon отзывам, Изображения Амазон и Данные Amazon в Ruby.

У нас есть обширная библиотека подобных руководств для других сайтов электронной коммерции, например, для скрапинга. Walmart, eBay и AliExpress Данные о продукте.

Если у вас есть вопросы или вам нужна помощь, не стесняйтесь обращаться к нам. здесь, Мы здесь, чтобы помочь!

FAQ

В. Что такое Amazon Buy Box и почему он важен?

Amazon Buy Box — это важная функция на страницах продуктов, где клиенты могут мгновенно совершать покупки. Она жизненно важна, поскольку существенно влияет на продажи. Когда вы нажимаете «Добавить в корзину» или «Купить сейчас», вы покупаете у продавца в Buy Box. Победа в Buy Box — это как занять поул-позицию в гонке электронной коммерции. Она важна как для покупателей, так и для продавцов, поскольку большинство продаж на Amazon происходит через этот ящик. Продавец, занимающий Buy Box, пользуется высокой видимостью, большими продажами и доверием клиентов.

В. Зачем продавцам нужно собирать данные для мониторинга Buy Box?

Продавцам необходимо собирать данные, чтобы идти в ногу с динамичной и конкурентной природой Buy Box. Buy Box постоянно меняется в зависимости от цены, доступности и производительности продавца. Чтобы добиться успеха, продавцы должны адаптировать свои стратегии в режиме реального времени. Сбор данных обеспечивает мониторинг в режиме реального времени и данные по различным аспектам, включая цены и производительность конкурентов. Он помогает продавцам оптимизировать свои стратегии и обеспечить себе место в Buy Box.

В. Как сбор данных решает такие проблемы, как меры по борьбе со сбором данных?

Такие сайты, как Amazon, имеют защиту от парсинга, например, отслеживание необычного поведения или блокировку IP-адресов. Инструменты для парсинга данных, такие как Crawlbase Crawling API, разработаны для обхода этих мер. Они могут менять IP-адреса, что затрудняет их блокировку Amazon. Кроме того, они могут автоматически обходить капчи, что позволяет продолжать сбор данных без перерывов.

В. Что мне нужно, чтобы начать сбор данных Buy Box на Amazon?

Чтобы начать скрапить данные Buy Box, вам понадобится несколько вещей. Во-первых, у вас должен быть установлен Python на вашем компьютере. Вам также понадобятся специальные библиотеки для веб-скрапинга, такие как Crawlbase, Beautiful Soup и Pandas. Эти библиотеки помогут вам делать запросы, анализировать веб-страницы и эффективно организовывать данные. Кроме того, вам понадобится Crawlbase токен, который дает вам доступ к сайту Amazon через Crawlbase Crawling API. Вы можете начать сбор данных Buy Box с помощью этих инструментов и вашего токена.