Если вы перегружены ручным извлечением данных о ценах и хотите узнать, как извлекать цены из Amazon с помощью ИИ, то вы в правильном месте. По мере того, как вы будете читать этот блог, мы сосредоточимся на автоматизированных методах извлечения, особенно тех, которые включают автоматическое извлечение XPath. Мы проведем вас через настройку вашей настройки извлечения, использование ИИ для получения именно тех данных, которые вам нужны, и овладение искусством автоматического извлечения данных с помощью XPath. Независимо от того, являетесь ли вы небольшим интернет-магазином или крупным гигантом электронной коммерции, эти методы станут вашими суперспособностями в цифровом мире.

CrawlbaseАвтора Crawling API позволяет вам собирать цены Amazon в сочетании с вашим предпочтительным инструментом ИИ. Вы можете зарегистрироваться, чтобы использовать наш готовый к использованию Amazon Скребок; Ваши первые 1000 запросов бесплатны.

CrawlbaseАвтора Crawling API позволяет вам собирать цены Amazon в сочетании с вашим предпочтительным инструментом ИИ. Вы можете зарегистрироваться, чтобы использовать наш готовый к использованию Amazon Скребок; Ваши первые 1000 запросов бесплатны.

Оглавление

  1. Важность автоматизированного скрапинга Amazon

  2. Изучение необходимых API

  • Crawlbase Crawling API
  • API-интерфейс OpenAI GPT
  1. Подготовка
  • Установка Python и необходимых библиотек
  • Создание виртуальной среды
  • Приобретение токенов для Crawlbase и ОпенАИ
  1. Автоматизация сбора цен на Amazon
  • Получение HTML-кода страницы поиска Amazon
  • Использование OpenAI для извлечения XPath цен
  • Сбор цен на товары Amazon
  1. Выводы
  2. Часто задаваемые вопросы (FAQ)

Важность автоматизированного скрапинга Amazon

Для выполнения скрапинга вам необходимо знать селектор CSS или Селектор XPath для элементов. Поэтому, если вы парсите тысячи веб-сайтов, вам нужно вручную определить селектор для каждого из них. И если страница меняется, вам нужно изменить и это. Вот где в игру вступает автоматизированный парсинг веб-сайтов Amazon, предлагая решающее преимущество тем, кто эффективно использует его возможности.

Определение данных, необходимых для сбора цен на Amazon

Страницы поиска Amazon богаты данными, но не все из них могут быть релевантны вашим конкретным целям парсинга. Определение точных элементов данных, которые вам нужны, имеет важное значение для эффективного и целенаправленного парсинга:

  • информация о продукте: Определите, какие детали продукта важны для ваших целей. Это может включать названия продуктов, цены, оценки клиентов и описания. Определение этих элементов поможет вам извлечь правильную информацию.
  • URL-адреса продуктов: Если вы намерены глубже изучить конкретные продукты, сбор URL-адресов отдельных страниц продуктов имеет решающее значение. Это позволяет вам получить доступ к более подробной информации по каждому элементу.
  • Управление пагинацией: Понимание того, как структурирована пагинация на страницах поиска Amazon, имеет решающее значение для сбора данных с нескольких страниц результатов. Вам нужно будет найти и использовать соответствующие элементы для эффективной навигации по страницам.

По мере продвижения в этом блоге мы применим эти знания к нашим автоматизированным методам скрапинга. Вы узнаете, как находить и извлекать нужные вам данные со страниц поиска Amazon, что позволит вам собирать ценную информацию и принимать решения на основе данных в мире электронной коммерции.

Как собирать цены на Amazon: пошаговое руководство

Прежде чем приступить к автоматизированному скрапингу, вы должны убедиться, что у вас есть правильные инструменты и настройки. В этом разделе будут рассмотрены начальные подготовительные шаги, включая установку Python, создание виртуальной среды и получение необходимых токенов для Crawlbase и OpenAI.

1. Установите Python и необходимые библиотеки

Python является краеугольным камнем проектов веб-скрейпинга, и несколько библиотек будут играть ключевую роль в вашем путешествии. Давайте начнем с того, что убедимся, что у вас установлен Python и следующие библиотеки:

Установка Python: Если у вас не установлен Python, загрузите последнюю версию с официального сайта Python и следуйте инструкциям по установке для вашей операционной системы.

Необходимые библиотеки: Для успешного отслеживания этого блога необходимы следующие библиотеки.

  1. Crawlbase Библиотека Python: Для взаимодействия с Crawlbase Crawling API, вам понадобится Crawlbase Библиотека Python. Эта библиотека упрощает процесс создания запросов к Crawlbase для веб-скрапинга. Установите его с помощью:
1
pip установить crawlbase
  1. Библиотека OpenAI Python: Поскольку вы будете использовать GPT OpenAI для получения XPath, вам необходимо установить библиотеку OpenAI Python. Эта библиотека позволяет вам эффективно взаимодействовать с API OpenAI. Установите ее с помощью:
1
пип установить опенай
  1. lxml: Библиотека Python lxml — это надежный и эффективный инструмент для анализа и работы с документами XML и HTML. Она предоставляет мощный и удобный интерфейс для навигации и манипулирования структурированными данными.
1
pip установить lxml

2. Создайте виртуальную среду

Создание виртуальной среды — это лучшая практика в разработке Python. Она гарантирует, что ваш проект имеет изолированную среду с необходимыми пакетами. Вот как настроить виртуальную среду:

  1. Установить Virtualenv: Если у вас не установлен virtualenv, вы можете сделать это с помощью pip:
1
пип установить виртуалэнв
  1. Создать виртуальную среду: Перейдите в каталог вашего проекта и выполните следующую команду, чтобы создать виртуальную среду:
1
виртуальный
  1. Активируйте виртуальную среду: В зависимости от вашей операционной системы команда активации может отличаться:
  • В Windows:
1
venv\Скрипты\активировать
  • В macOS и Linux:
1
источник venv/bin/активировать

Ваша виртуальная среда теперь настроена и активирована. Вы можете устанавливать пакеты, специфичные для проекта, не вмешиваясь в общесистемную установку Python.

3. Приобретайте токены для Crawlbase и ОпенАИ

Для использования Crawlbase Crawling API и OpenAI GPT API, вам нужно будет получить необходимые токены или ключи API. Вот как их получить:

Crawlbase Токены: Посетить Crawlbase . и зарегистрируйте учетную запись. После регистрации вы найдете свой API-токен или ключ в документации. Crawlbase предоставляет два типа токенов: обычный токен (TCP) для статических веб-сайтов и токен JavaScript (JS) для динамических или управляемых JavaScript веб-сайтов. Для Amazon нам нужен токен JS. Сохраните этот токен в безопасности, так как он будет необходим для доступа к Crawlbase API. Для легкого старта, Crawlbase дает 1000 бесплатных запросов на его Crawling API.

Токен OpenAI GPT: Посетить Веб-сайт OpenAI и создайте учетную запись, если вы этого еще не сделали. Получите доступ к своему токену API из настроек учетной записи OpenAI. Этот токен необходим для выполнения запросов к API OpenAI GPT.

В следующих разделах этого блога мы проведем вас через практические шаги эффективного и действенного извлечения цен на продукты со страниц поиска Amazon. Оставайтесь с нами, пока мы исследуем инструменты и методы, которые дадут вам конкурентное преимущество в электронной коммерции.

Автоматизация сбора цен на Amazon

Теперь, когда вы хорошо подготовлены и оснащены необходимыми инструментами и токенами, пришло время погрузиться в суть автоматизированного скрапинга. Этот раздел проведет вас через подробные шаги по скрапингу цен на товары Amazon с помощью Crawlbase Crawling API и OpenAI.

Получение HTML-кода страницы поиска Amazon

Первым шагом в автоматизации сбора цен является получение HTML-контента страниц поиска Amazon. Этот HTML-контент — это то место, где встроена информация о продукте, включая цены. Как и многие современные веб-сайты, страницы поиска Amazon используют сложные технологии, такие как JavaScript и Ajax, для загрузки своего контента. Это может усложнить сбор данных с этих страниц. Но, с Crawlbase Crawling API, у вас есть инструменты для эффективного решения этих задач. Ниже приведен скрипт Python для извлечения HTML страницы поиска Amazon для запроса macbook .

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
от база сканирования Импортировать CrawlingAPI

# Инициализируем Crawling API с вашей Crawlbase знак
api = CrawlingAPI({ токен: 'YOU_CRAWLBASE_JS_TOKEN' })

# URL страницы поиска Amazon, которую вы хотите скопировать
amazon_search_url = 'https://www.amazon.com/s?k=macbook'

# вариантов для Crawling API
варианты = {
'page_wait': 2000,
'ajax_wait': 'правда'
}

# Сделайте запрос на очистку страницы поиска Amazon с параметрами
ответ = api.get(amazon_search_url, параметры)

# Проверьте, был ли запрос успешным
if ответ['status_code'] == 200:
# Извлеченный HTML-контент после декодирования байтовых данных
html_content = ответ['тело'].decode('латинский1')

# Сохраните HTML-контент в файл
с открытый('output.html', 'w', кодировка='utf-8') as файл:
файл.запись(html_content)
еще:
Распечатать(«Не удалось получить страницу. Код статуса:», ответ['status_code'])

При использовании токена JavaScript с Crawlbase API, вы можете указать некоторые специальные параметры, чтобы гарантировать, что вы точно захватываете динамически отрисованный контент. Вы можете прочитать о них здесь.

  • страница_ожидание: Этот необязательный параметр позволяет указать количество миллисекунд ожидания, прежде чем браузер захватит полученный HTML-код. Используйте этот параметр в ситуациях, когда для отображения страницы требуется время или когда необходимо загрузить запросы AJAX перед захватом HTML.
  • ajax_wait: Еще один необязательный параметр для токена JavaScript. Позволяет указать, следует ли ожидать завершения запросов AJAX перед получением ответа HTML. Это важно, когда контент зависит от запросов AJAX.

output.html Предварительный просмотр:

Просмотр просканированного HTML-кода

Использование OpenAI для извлечения XPath цен

В нашем стремлении автоматизировать извлечение цен на продукты из страниц поиска Amazon мы обращаемся к замечательным возможностям OpenAI, в частности к модели GPT (Generative Pre-trained Transformer). Давайте обновим предыдущий пример и добавим код для использования OpenAI для генерации точных выражений XPath для извлечения цен на продукты из HTML-контента, эффективно используя Подсказки GPT-4 для оптимальной точности:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
Импортировать openai
Импортировать асинцио
от база сканирования Импортировать CrawlingAPI

# Замените 'your_openai_api_key' на ваш ключ API OpenAI
openai.api_key = 'your_openai_api_key'

# Инициализируем Crawling API с вашей Crawlbase знак
api = CrawlingAPI({ токен: 'YOU_CRAWLBASE_JS_TOKEN' })

# URL страницы поиска Amazon, которую вы хотите скопировать
amazon_search_url = 'https://www.amazon.com/s?k=macbook'

# Варианты для Crawling API
варианты = {
'page_wait': 2000
}

асинхронной защиту получить_xpath(HTML):
ответ = Ждите openai.Completion.create(
двигатель=«ГПТ-3.5-турбо»,
сообщения=[
{"роль": "система", "содержание": «В качестве вспомогательного субъекта ваша роль заключается в том, чтобы умело определить всеобъемлющее выражение XPath, охватывающее путь от исходного HTML-кода до элемента цены продукта в подсказке. Ваш ответ должен состоять исключительно из полного XPath, без дополнительных пояснений, примечаний или любого дополнительного текста. Допускается многократное повторение одного и того же ответа».},
{"роль": «Пользователь», "содержание": html}
]
)
возвращают ответ.выборы[0].сообщение["содержание"]

асинхронной защиту main():
# Сделайте запрос на очистку страницы поиска Amazon с параметрами
ответ = api.get(amazon_search_url, параметры)

# Проверьте, был ли запрос успешным
if ответ['status_code'] == 200:
# Извлеченный HTML-контент после декодирования байтовых данных
html_content = ответ['тело'].decode('латинский1')
xpath = Ждите получить_xpath(html_content)
Распечатать(xpath)
еще:
Распечатать(«Не удалось получить страницу. Код статуса:», ответ['status_code'])

if __имя__ == "__основной__":
асинхронный.запуск(main())

Этот код является мостом между вашим HTML-контентом и точными выражениями XPath, необходимыми для поиска и извлечения цен на продукты. Он инициирует связь с движком OpenAI GPT-3.5 Turbo, предоставляет инструкции и получает сгенерированные выражения XPath, адаптированные под ваши потребности в скрапинге. Сгенерированный XPath затем легко доступен для ваших задач по скрапингу веб-страниц, оптимизируя процесс и повышая точность.

4. Сбор цен на товары Amazon

Чтобы вывести ваш процесс парсинга на новый уровень, мы улучшим предыдущий пример скрипта, добавив функцию под названием find_max_price. Эта функция использует библиотеку Python lxml для анализа HTML-контента и выбора всех цен на продукты на основе сгенерированного выражения XPath. Затем она преобразует выбранные строки цен в числовые значения и определяет самую высокую цену с помощью max() функция. Наконец, скрипт выводит самую высокую цену Macbook, найденную на странице поиска Amazon, предоставляя вам ценную точку данных.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Импортировать openai
Импортировать асинцио
Импортировать lxml
от база сканирования Импортировать CrawlingAPI

# Замените 'your_openai_api_key' на ваш ключ API OpenAI
openai.api_key = 'your_openai_api_key'

# Инициализируем Crawling API с вашей Crawlbase знак
api = CrawlingAPI({ токен: 'YOU_CRAWLBASE_JS_TOKEN' })

# URL страницы поиска Amazon, которую вы хотите скопировать
amazon_search_url = 'https://www.amazon.com/s?k=macbook'

# Варианты для Crawling API
варианты = {
'page_wait': 2000
}

асинхронной защиту получить_xpath(HTML):
ответ = Ждите openai.Completion.create(
двигатель=«ГПТ-3.5-турбо»,
сообщения=[
{"роль": "система", "содержание": «Ваша роль как вспомогательного субъекта заключается в том, чтобы умело указать всеобъемлющее выражение XPath, которое прослеживает путь от исходного HTML-кода до элементов заголовка и цены продукта в подсказке. Ваш ответ должен включать только полный XPath для обоих элементов без дополнительных пояснений, примечаний или дополнительного текста. Повторение одного и того же ответа несколько раз допустимо».},
{"роль": «Пользователь», "содержание": html}
]
)
возвращают ответ.выборы[0].сообщение["содержание"]

защиту найти_макс_цену(html_content, xpath):
parsed_html = html.fromstring(html_content)
# Используйте сгенерированное выражение XPath для выбора и извлечения цен на продукты
price_strings = проанализированный_html.xpath(xpath)

# Преобразовать строки цен в значения с плавающей точкой
цены = [плавать(цена) для цена in строки_цены]

# Найдите самую высокую цену
самая высокая_цена = Макс(Цены)

# Распечатать самую высокую цену
Распечатать(«Самая высокая цена на MacBook:», самая высокая_цена)

асинхронной защиту main():
# Сделайте запрос на очистку страницы поиска Amazon с параметрами
ответ = api.get(amazon_search_url, параметры)

# Проверьте, был ли запрос успешным
if ответ['status_code'] == 200:
# Извлеченный HTML-контент после декодирования байтовых данных
html_content = ответ['тело'].decode('латинский1')
xpath = Ждите получить_xpath(html_content)

find_max_price(html_content, xpath)

еще:
Распечатать(«Не удалось получить страницу. Код статуса:», ответ['status_code'])

if __имя__ == "__основной__":
асинхронный.запуск(main())

Пример вывода:

1
Самая высокая цена макбука: 5,299

Благодаря этому дополнению ваш скрипт скрапинга теперь не только извлекает данные, но и обрабатывает их, чтобы предоставить вам ценную информацию, например, самую высокую цену Macbook, найденную на странице поиска Amazon. Вы также можете узнать, как обрабатывать пагинацию во время скрапинга и сохранять результаты в правильном формате. Для этого вы можете обратиться к этому Блог. Наслаждайтесь расширенными возможностями парсинга!

Заключение

Мы надеемся, что этот блог поможет вам автоматизировать ваши усилия по парсингу и сэкономит вам много времени. Если вы заинтересованы в парсинге данных о продуктах Walmart или его страниц поиска, рассмотрите возможность изучения следующих руководств:

📜 Как скопировать отзывы на Amazon
📜 Как скопировать страницы поиска Amazon
📜 Как очистить данные о продуктах Amazon

Вы можете найти дополнительные руководства, такие как скрапинг amazon ASIN, Обзоры Amazon в Node, Изображения Амазон и Данные Amazon в Ruby. Кроме того, для получения руководств по извлечению данных из электронной коммерции за пределами Walmart, ознакомьтесь с нашими руководствами по извлечению данных о продуктах из Walmart, eBay и AliExpress.

Не стесняйтесь обращаться к нам здесь если вам нужна дополнительная помощь или у вас есть дополнительные вопросы.

Часто задаваемые вопросы (FAQ)

В: Что мне делать с извлеченными данными о ценах Amazon?

То, что вы делаете с данными о ценах, собранными с Amazon, во многом зависит от ваших намерений и соблюдения соответствующих правовых норм. Если вы планируете использовать данные для личного использования или анализа, вы, как правило, можете это делать, если это соответствует положениям и условиям Amazon и применимым законам о веб-скрапинге в вашем регионе. Однако для распространения, продажи или публикации собранных данных, особенно в коммерческих целях, часто требуется явное разрешение от Amazon.

В: Какую пользу может принести автоматизированный сбор данных Amazon моему бизнесу в сфере электронной коммерции?

Автоматизированный парсинг предлагает несколько преимуществ для предприятий электронной коммерции. Он позволяет вам непрерывно отслеживать конкурентные парсинг цен и предложения продуктов. Он обеспечивает глубокое понимание тенденций продуктов, предпочтений клиентов и рыночного спроса, что бесценно для разработки продуктов и целевого маркетинга. Кроме того, точная и актуальная информация о продуктах на вашем веб-сайте электронной коммерции обеспечивает бесперебойный процесс покупок для клиентов.

В: Могу ли я адаптировать автоматизированный парсинг Amazon для обработки изменений в макетах веб-сайтов?

Да, автоматизированный парсинг может адаптироваться к изменениям в макетах веб-сайтов Amazon. Когда веб-сайты обновляют свой дизайн или структуру, автоматизированный парсинг может использовать такие методы, как селекторы CSS и гибкие выражения XPath, чтобы гарантировать, что сбор данных останется непрерывным. Эта адаптивность ценна, позволяя вам поддерживать точность и актуальность данных, даже когда веб-сайты меняют свой внешний вид.

В: Что такое ценовой скрапер Amazon?

Скребок цен Amazon — это инструмент или скрипт, который автоматически извлекает цены на продукты из Amazon. Он имитирует то, как люди используют Amazon, собирая информацию о ценах на продукты в режиме реального времени, включая скидки, исходные цены и изменения цен с течением времени.