Houzz — это платформа, на которой домовладельцы, дизайнеры и строители объединяются для поиска продуктов, вдохновения и услуг. Это одна из ведущих онлайн-платформ для ремонта дома, дизайна интерьера и покупки мебели. С более чем 65 миллионами уникальных пользователей и 10 миллионами объявлений о товарах Houzz — это сокровищница данных для предприятий, разработчиков и исследователей. Платформа предлагает идеи, которые можно использовать для создания электронной коммерции, проведения маркетинговых исследований или анализа тенденций дизайна.
В этом блоге мы расскажем вам, как скрапинговать списки поиска Houzz и страницы продуктов с помощью Python. Мы покажем вам, как оптимизировать ваш скрапер с помощью Crawlbase Smart AI Proxy поэтому вы можете беспрепятственно и эффективно выполнять парсинг даже с веб-сайтов, на которых установлены меры по борьбе с парсингом.
Давайте начнем!
Содержание
- Установка Python и необходимых библиотек
- Выбор IDE
- Проверка структуры HTML
- Написание скрейпера списков поиска Houzz
- Обработка нумерации страниц
- Хранение данных в файле JSON
- Полный пример кода
- Проверка структуры HTML
- Написание Houzz Product Page Scraper
- Хранение данных в файле JSON
- Полный пример кода
- Зачем использовать Crawlbase Smart AI Proxy?
- Как добавить его в свой Scraper?
Зачем собирать данные Houzz?
Сбор данных Houzz может быть невероятно полезен по ряду причин. Благодаря своей большой коллекции товаров для дома, мебели и декора, Houzz предлагает множество данных, которые могут помочь компаниям и частным лицам принимать обоснованные решения. Ниже приведены некоторые причины для сбора данных Houzz.

- Исследования рынка: Если вы работаете в сфере домашнего декора или мебели, вы можете анализировать тенденции в области продуктов, стратегии ценообразования и предпочтения клиентов, извлекая сведения о продуктах и отзывы клиентов из Houzz.
- Анализ конкурентов: Для предприятий электронной коммерции парсинг Houzz предоставит вам информацию о ценах конкурентов, наличии товаров и рейтингах клиентов, что позволит вам оставаться конкурентоспособными.
- Агрегация данных о продуктах: Если вы создаете веб-сайт или приложение, сравнивающее продукты на нескольких платформах, извлеките данные из Houzz, чтобы включить его огромный каталог продуктов в свои данные.
- Анализ настроений клиентов: Собирайте отзывы и оценки, чтобы анализировать настроения клиентов относительно определенных продуктов или брендов. Помогите брендам улучшить свои предложения или помогите покупателям принимать более обоснованные решения.
- Решения на основе данных: используйте данные Houzz, чтобы принимать обоснованные решения о том, какие продукты размещать на складе, как устанавливать на них цены и что ищут клиенты.
Ключевые данные для извлечения из Houzz
При извлечении данных из Houzz вы можете сосредоточиться на нескольких ключевых фрагментах информации. Вот точки данных для извлечения из Houzz:
- Имя: Название продукта.
- Цена: Цена товара.
- Описание: Полная информация о характеристиках и материалах.
- Фотографии: Изображения продукта в высоком разрешении.
- Рейтинги и обзоры: Отзывы клиентов о продукте.
- Характеристики: Размеры, материалы и т.д.
- продавец: Информация о продавце или магазине.
- O компании: Название компании.
- Локация: Местонахождение предприятия.
- Номер телефона: Номер рабочего телефона.
- Вебсайт: Бизнес-сайт.
- Эл. адрес: Деловой адрес электронной почты (если указан на веб-сайте).
Настройка среды Python
Чтобы начать собирать данные Houzz, вам нужно настроить среду Python. Это включает установку Python, необходимых библиотек и интегрированной среды разработки (IDE) для упрощения кодирования.
Установка Python и необходимых библиотек
Сначала вам нужно установить Python на свой компьютер. Вы можете скачать последнюю версию с сайта python.org. После установки откройте терминал или командную строку, чтобы убедиться, что Python установлен, введя:
1 | python --version |
Далее вам нужно установить библиотеки для веб-скрейпинга. Две основные из них: requests для загрузки веб-страниц и BeautifulSoup для разбора HTML. Установите их, введя:
1 | Pip запрашивает установку beautifulsoup4 |
Эти библиотеки необходимы для извлечения данных из HTML-структуры Houzz и обеспечения бесперебойности процесса.
Выбор IDE
IDE упрощает написание и управление кодом Python. Некоторые популярные варианты включают:
- Visual Studio Code: легкий, бесплатный редактор с отличными расширениями для разработки на Python.
- PyCharm: Специализированная среда разработки Python со множеством встроенных функций для отладки и навигации по коду.
- Jupyter Notebook: Отлично подходит для интерактивного кодирования и немедленного просмотра результатов.
Выберите IDE, которая подходит вам и вашему стилю кодирования. После настройки среды вы будете готовы начать создавать свой Houzz-скрейпер.
Скрапинг списков поиска Houzz
В этом разделе мы сосредоточимся на скрапинге списков поиска Houzz, которые отображают все продукты на сайте. Мы рассмотрим, как найти селекторы CSS, просматривая HTML, напишем скрапер для извлечения данных, обработаем пагинацию и сохраним данные в файле JSON.
Проверка структуры HTML
Прежде всего, вам нужно проверить HTML-код страницы Houzz, с которой вы хотите извлечь данные о продуктах. Например, чтобы извлечь данные о туалетных столиках и консолях для раковин, используйте URL:
1 | https://www.houzz.com/products/bathroom-vanities-and-sink-consoles/best-sellers--best-sellers |
Откройте инструменты разработчика в браузере и перейдите по этому URL-адресу.

Вот некоторые ключевые факторы, на которые следует обратить внимание:
- Название продукта: Найдено в
<a>тег с классомhz-product-card__product-titleкоторый содержит название продукта. - Цена: В
<span>тег с классомhz-product-priceгде отображается цена товара. - Рейтинг: В
<span>тег с классомstar-ratingкоторый показывает среднюю оценку продукта (доступную черезaria-labelатрибут). - URL изображения: Изображение продукта находится в
<img>тег и вы можете получить URL изsrcатрибутов. - Ссылка на продукт: Каждый продукт ссылается на свою подробную страницу в
<a>тег, к которому можно получить доступ черезhrefатрибутов.
Используя эти селекторы, вы можете выбрать необходимые данные для своего парсера.
Написание скрейпера списков поиска Houzz
Теперь, когда вы знаете, где находятся данные, давайте напишем скрапер. Следующий код использует requests библиотека для извлечения страницы и BeautifulSoup для анализа HTML.
1 | Импортировать Запросы |
Обработка нумерации страниц
Чтобы скрапинговать несколько страниц, нам нужно реализовать отдельную функцию, которая будет обрабатывать логику пагинации. Эта функция проверит, есть ли ссылка «следующая страница», и вернет URL для этой страницы. Затем мы можем перебрать все списки.
Вот как можно написать функцию пагинации:
1 | защиту получить_следующую_страницу_url(суп): |
Мы вызовем эту функцию в нашей основной функции извлечения, чтобы продолжить извлечение товаров со всех доступных страниц.
Хранение данных в файле JSON
Далее мы создадим функцию для сохранения извлеченных данных в файл JSON. Эту функцию можно вызвать после извлечения листингов.
1 | защиту сохранить_в_json(данные, имя файла='houzz_products.json'): |
Полный пример кода
Теперь давайте объединим все, включая пагинацию, в полный фрагмент кода.
1 | Импортировать Запросы |
Этот полнофункциональный скрапер извлечет списки товаров из Houzz, плавно обрабатывая пагинацию.
Пример вывода:
1 | [ |
Далее мы рассмотрим, как извлекать более подробную информацию из отдельных страниц продуктов.
Скрапинг страниц продуктов Houzz
После скрапинга списков поиска мы собираем больше информации с отдельных страниц продуктов. Это даст нам больше информации о каждом продукте, включая спецификации и дополнительные изображения. В этом разделе мы рассмотрим HTML страницы продукта, напишем скрапер для извлечения данных, а затем сохраним эти данные в файле JSON.
Проверка структуры HTML
Чтобы выполнить парсинг страниц товаров, вам сначала необходимо просмотреть HTML-структуру конкретной страницы товара.
1 | https://www.houzz.com/products/the-sequoia-bathroom-vanity-acacia-30-single-sink-freestanding-prvw-vr~170329010 |
Откройте инструменты разработчика в браузере и перейдите по этому URL-адресу.

Вот некоторые ключевые факторы, на которые следует обратить внимание:
- Название продукта: В пределах
spanс классомview-product-title. - Цена: В пределах
spanс классомpricing-info__price. - Описание: В пределах
divс классомvp-redesign-description. - Фотографии: Дополнительные изображения внутри
imgтеги внутриdiv.alt-images__thumb.
Знание этого является ключом к написанию вашего скрапера.
Написание Houzz Product Page Scraper
Теперь, когда мы знаем, где найти данные, мы можем создать функцию для скрапинга страницы продукта. Вот как можно написать код для извлечения необходимых данных:
1 | Импортировать Запросы |
Хранение данных в файле JSON
Как и в случае с поисковыми листингами, мы можем сохранять данные, которые мы собираем со страниц продуктов, в файл JSON для легкого доступа и анализа. Вот функция, которая берет данные о продуктах и сохраняет их в файле JSON:
1 | защиту сохранить_продукт_в_json(данные_продукта, имя_файла='houzz_product.json'): |
Полный пример кода
Чтобы объединить все, что мы обсудили, вот полный пример кода, который включает как сбор отдельных страниц продуктов, так и сохранение этих данных в файл JSON:
1 | Импортировать Запросы |
Этот код извлечет подробную информацию со страницы одного продукта Houzz и сохранит ее в файле JSON.
Пример вывода:
1 | { |
В следующем разделе мы обсудим, как оптимизировать процесс парсинга с помощью Crawlbase Smart AI Proxy.
Оптимизация с помощью Crawlbase Smart AI Proxy
При парсинге таких сайтов, как Houzz, блокировки по IP-адресам и CAPTCHA могут замедлить работу. Crawlbase Smart AI Proxy помогает обойти эти проблемы, меняя IP-адреса и автоматически обрабатывая CAPTCHA. Это позволяет вам собирать данные без перерывов.
Зачем использовать Crawlbase Smart AI Proxy?
- Ротация IP: Избегайте блокировок по IP-адресам, используя пул из тысяч чередующихся прокси-серверов.
- Обработка CAPTCHA: Crawlbase автоматически обходит CAPTCHA, поэтому вам не придется решать их вручную.
- Повышенная эффективность: Ускорьте сбор данных, выполняя запросы без прерываний из-за ограничений скорости или блокировок.
- Глобальное покрытие: Вы можете собирать данные из любого места, выбирая прокси-серверы из разных регионов мира.
Как добавить его в свой скребок?
Интегрировать Crawlbase Smart AI Proxy, измените URL-адрес вашего запроса для маршрутизации через их API:
1 | Импортировать Запросы |
Это обеспечит бесперебойную и эффективную работу вашего скребка при очистке Houzz.
Оптимизируйте Houzz Scraper с помощью Crawlbase
Houzz предоставляет ценную информацию для ваших проектов. Вы можете исследовать тенденции в сфере обустройства дома и анализировать рыночные цены. Следуя инструкциям в этом блоге, вы можете легко собрать важную информацию, например, сведения о продукте, цены и отзывы клиентов.
Использование библиотек Python, таких как Requests и BeautifulSoup, упрощает процесс скрапинга. Кроме того, использование Crawlbase Smart AI Proxy помогает вам получить доступ к необходимым данным, не сталкиваясь с такими проблемами, как блокировка по IP или CAPTCHA.
Если вы заинтересованы в изучении сбора данных с других платформ электронной коммерции, ознакомьтесь со следующими подробными руководствами.
📜 Как скрейпить Amazon
📜 Как взломать Walmart
📜 Как скрейпить AliExpress
📜 Как очистить Zalando
📜 Как соскребать Costco
Если у вас есть какие-либо вопросы или пожелания, наш команда поддержки всегда готов помочь вам в вашем путешествии по веб-скрейпингу. Удачи в вашем путешествии по скрапингу!
Часто задаваемые вопросы (FAQ)
В. Законно ли извлекать данные о товарах из Houzz?
Да, сбор данных о продуктах из Houzz разрешен, если вы следуете их условиям обслуживания. Обязательно прочтите TOS Houzz и уважайте их robots.txt файл, чтобы вы могли выполнять очистку ответственно и этично.
В. Почему мне следует использовать такой прокси-сервер, как Crawlbase Smart AI Proxy для парсинга Houzz?
Используя прокси-сервер, например Crawlbase Smart AI Proxy предотвращает IP-баны, которые могут произойти, если вы делаете слишком много запросов к веб-сайту за короткий промежуток времени. Прокси также обходят CAPTCHA-проблемы и географические ограничения, так что вы можете легко извлекать данные из Houzz или любого другого веб-сайта.
В. Могу ли я извлечь из Houzz как списки товаров, так и сведения о них?
Да, вы можете скрейпить и то, и другое. В этом блоге мы продемонстрировали, как извлечь важную информацию из списков поиска Houzz и отдельных страниц продуктов. Выполняя аналогичные шаги, вы можете расширить свой скрейпер для сбора различных точек данных, таких как цены, отзывы, спецификации и даже контактные данные компании.












