Хотите поковырять Zalando? Вы в правильном месте. Zalando — один из лучших сайтов для онлайн-шопинга в сфере моды с огромным ассортиментом товаров от одежды до аксессуаров. Возможно, вы проводите маркетинговые исследования или создаете приложение для моды — в любом случае, знание того, как получить хорошие данные прямо с сайта, может быть полезным.
В этом блоге мы покажем вам, как создать надежный скрапер Zalando с помощью кукольник - известный инструмент для веб-скрапинга. Вы узнаете, как извлекать данные о продукте, такие как цены, размеры и уровни запасов. Мы также дадим вам советы о том, как работать с CAPTCHA, блокировкой IP и как масштабировать ваш скрапер с Crawlbase Smart AI Proxy.
Давайте начнем!
Содержание
- Зачем собирать данные о продуктах с Zalando?
- Ключевые данные для извлечения из Zalando
- Настройка среды Node.js
- Установка Node.js
- Установка необходимых библиотек
- Выбор IDE
- Проверка HTML на наличие селекторов
- Написание скрапера листингов продуктов Zalando
- Обработка нумерации страниц
- Хранение данных в файле JSON
- Проверка HTML на наличие селекторов
- Написание скрапера сведений о продукте Zalando
- Хранение данных в файле JSON
- Что такое Crawlbase Smart AI Proxy?
- Как использовать Crawlbase Smart AI Proxy с Кукловодом
- Преимущества использования Crawlbase Smart AI Proxy
Зачем собирать данные о продуктах с Zalando?
Скрапинг Zalando — отличный способ получить данные о продуктах для различных целей. Независимо от того, отслеживаете ли вы цены, отслеживаете наличие продуктов или анализируете модные тенденции, доступ к этим данным дает вам преимущество. Zalando — одна из крупнейших онлайн-платформ моды в Европе с широким ассортиментом товаров от обуви и одежды до аксессуаров.
Скрапинг Zalando позволяет извлекать названия продуктов, цены, обзоры и информацию о наличии. Эти данные можно использовать для сравнения цен, создания маркетинговых стратегий на основе данных или даже для создания автоматизированного ценового трекера. Если вы ведете бизнес в сфере электронной коммерции или просто хотите следить за последними модными тенденциями, скрэпинг данных о продуктах Zalando поможет вам оставаться впереди.
Использование скрапера для получения данных из Zalando экономит время и усилия на ручной поиск и копирование информации о продукте. При правильной настройке вы можете получить тысячи деталей о продукте в кратчайшие сроки и эффективно, что делает процесс сбора данных более рационализированным.
Ключевые данные для извлечения из Zalando
При скрапинге Zalando вы можете извлечь несколько важных сведений о продукте. Эти данные полезны для отслеживания тенденций, понимания цен или анализа поведения рынка. Ниже приведены основные данные, на которые следует обратить внимание:

- Наименование товара: Название продукта помогает вам идентифицировать и классифицировать то, что продается.
- Цена продукта: Знание цен, включая скидки, необходимо для отслеживания ценовых тенденций и сравнения с конкурентами.
- Описание товара:: Здесь содержится конкретная информация о продукте, например, материал, стиль и другие ключевые характеристики.
- Отзывы о товаре: Обзоры предоставляют информацию о качестве и популярности продукта и полезны для анализа настроений.
- Доступность продукта: Проверка наличия товара на складе помогает понять спрос и скорость его распродажи.
- изображения продуктов: Изображения дают четкое представление о продукте, что важно для понимания модных тенденций и стилей.
- Бренд:: Знание бренда позволяет лучше анализировать его эффективность и сравнивать различные бренды.
Настройка среды Node.js
Для эффективного скрапинга Zalando вам нужно настроить среду Node.js. Этот процесс включает установку Node.js, необходимых библиотек и выбор подходящей интегрированной среды разработки (IDE). Вот как это сделать пошагово:
Установка Node.js
- Скачать Node.js: Перейти на официальную Сайт Node.js чтобы получить его последнюю версию для вашей операционной системы. Node.js поставляется с npm (Node Package Manager), который вы будете использовать для установки других библиотек.
- Установите Node.js: Следуйте инструкциям по установке для вашей операционной системы. Вы можете проверить, установлена ли она, открыв терминал или командную строку и введя:
1 | узел -v |
Эта команда должна отобразить установленную версию Node.js.
Установка необходимых библиотек
- Создать новую папку проекта: Создайте папку для вашего проекта по скрапингу. Откройте терминал внутри этой папки.
- Инициализировать npm: Внутри папки вашего проекта запустите:
1 | инициализация npm -y |
Эта команда создает package.json файл, который отслеживает зависимости вашего проекта.
- Установить необходимые библиотеки: Вам понадобится несколько библиотек, чтобы упростить скрапинг. Установите Puppeteer и любые другие библиотеки, которые вам могут понадобиться:
1 | npm установить кукловод axios |
- Создать основной файл: В папке вашего проекта создайте файл с именем
scraper.js. Этот файл будет содержать ваш код для скрапинга.
Выбор IDE
Выбор IDE может облегчить кодирование. Некоторые из популярных включают:
- Visual Studio Code: Популярный редактор с множеством расширений для работы с JavaScript.
- Вебсторм: Мощная IDE, специально разработанная для JavaScript и веб-разработки, но она не бесплатна.
- Atom: Текстовый редактор с возможностью настройки и удобства использования.
Теперь, когда у вас настроена среда и scraper.js создано. Давайте начнем с парсинга листингов продуктов Zalando.
Скрапинг списков продуктов Zalando
После настройки среды мы можем начать создавать скрапер для списков продуктов Zalando. Мы скраперим раздел сумок с этого URL:
https://en.zalando.de/catalogue/?q=handbags
Мы извлечем URL-адрес страницы продукта, заголовок, название магазина, цену и URL-адрес изображения из каждого листинга. Мы также обработаем пагинацию для перехода по нескольким страницам.
Проверка HTML на наличие селекторов
Сначала мы должны проверить HTML страницы со списком продуктов, чтобы найти правильные селекторы. Откройте инструменты разработчика в вашем браузере и перейдите к спискам сумок.

Обычно вы будете искать такие элементы, как:
- Страница продукта URL: Это ссылка на страницу отдельного продукта.
- Название продукта: Обычно в
<h3>тег в<div>элемент. - Бренд:: Это можно найти в
<h3>тег в<div>элемент. - Цена: Найдено в
<span>тег с указанием ценового класса. - URL изображения: Содержится в
<img>тег в каждой карточке продукта.
Написание скрапера листингов продуктов Zalando
Теперь, когда у вас есть селекторы, вы можете написать скрапер для сбора списков продуктов. Вот пример фрагмента кода с использованием Puppeteer:
1 | Const кукловод = требовать(«кукловод»); |
Код Пояснение:
scrapeProductListingsФункция: эта функция переходит на страницу продукта Zalando с неограниченным лимитом времени ожидания и извлекает название продукта, цену, URL-адрес и URL-адрес изображения.- Сбор данных: Функция возвращает массив объектов продукта, содержащих извлеченную информацию.
Пример вывода:
1 | Продукт Объявления[ |
Обработка нумерации страниц
Чтобы собрать больше списков, вам нужно управлять пагинацией. Zalando использует &p= параметр в URL для навигации между страницами. Вот как изменить ваш скрапер для обработки нескольких страниц:
1 | // Функция для обработки пагинации |
Код Пояснение:
scrapeAllProductListingsФункция: Эта функция проходит по указанному количеству страниц, создает URL для каждой страницы и вызываетscrapeProductListingsфункция сбора данных с каждой страницы.- Обработка страниц: Товары со всех страниц объединены в один массив.
Хранение данных в файле JSON
Наконец, полезно сохранить извлеченные данные в файле JSON для последующего анализа. Вот как это сделать:
1 | Const кукловод = требовать(«кукловод»); |
Код Пояснение:
saveDataToJsonФункция: Эта функция сохраняет извлеченные списки продуктов в файл JSON (zalando_product_listings.json), чтобы вы могли легко получить доступ к данным
Далее мы рассмотрим, как извлечь данные о товарах с отдельных страниц товаров.
Подробная информация о продукте Zalando
Теперь, когда вы извлекли листинги, следующим шагом будет сбор данных с отдельных страниц продуктов. Это позволит вам получить более конкретные данные, такие как описания продуктов, сведения о материалах и отзывы клиентов, которые недоступны на страницах листингов.
Чтобы извлечь сведения о товаре, мы сначала проверим структуру страницы товара и определим соответствующие элементы HTML, содержащие необходимые нам данные.
Проверка HTML на наличие селекторов
Посетите любую страницу отдельного продукта Zalando и используйте инструменты разработчика вашего браузера для проверки структуры HTML.

Обычно вам нужно будет найти такие элементы, как:
- Название продукта: Обычно в течение
<span>тег с такими классами какEKabf7 R_QwOV. - Бренд:: Обычно в течение
<span>тег с такими классами какz2N-Fg yOtBvf. - информация о продукте: Расположен в
<div>однойdata-testid="pdp-accordion-details". - Цена: В
<span>тег с такими классами какdgII7d Km7l2y. - Доступные размеры: Часто указывается в
<div>однойdata-testid="pdp-accordion-size_fit". - URL-адреса изображений: Содержится в
<img>тег в<ul>с такими классами какXLgdq7 _0xLoFW.
Написание скрапера сведений о продукте Zalando
Как только у вас появятся правильные селекторы, вы сможете написать скрапер для сбора данных о товаре, таких как название, описание, цена, доступные размеры и URL-адреса изображений.
Вот пример кода для извлечения информации о продуктах Zalando с помощью Puppeteer:
1 | Const кукловод = требовать(«кукловод»); |
Пояснение к коду:
scrapeProductDetailsФункция: Эта функция переходит к URL-адресу продукта, ждет загрузки контента и извлекает название продукта, описание, цену, доступные размеры и URL-адреса изображений. Чтобы получить доступ к соответствующему контенту, функция сначала ждет, пока кнопки «Подробности» и «Размеры» станут видимыми с помощьюawait page.waitForSelector(), затем нажимает на нихawait page.click(). Это расширяет соответствующие разделы, позволяя извлекать их содержимое.- Массив URL-адресов продуктов: Этот массив содержит URL-адреса страниц продуктов, которые вы хотите извлечь.
Пример вывода:
1 | Продукт детали соскоблены успешно[ |
Хранение данных в файле JSON
После того, как вы соскребете данные о продукте, хорошей идеей будет сохранить данные в файле JSON. Это облегчит доступ и анализ в дальнейшем. Вот как сохранить соскребенные данные о продукте в файле JSON.
1 | Const фс = требовать('фс'); |
Код Пояснение:
saveDataToJsonФункция: Эта функция записывает извлеченные данные о продукте в файл JSON (zalando_product_details.json), отформатированный для удобства чтения.- Хранение данных : После сбора данных данные передаются в функцию для сохранения в структурированном формате.
В следующем разделе мы рассмотрим, как можно оптимизировать ваш парсер с помощью Crawlbase Smart AI Proxy чтобы избежать блокировки во время очистки.
Оптимизация с помощью Crawlbase Smart AI Proxy
При парсинге Zalando вас могут заблокировать или ограничить. Чтобы этого избежать, используйте прокси-сервис. Crawlbase Smart AI Proxy помогает вам безопасно и быстро парсить. Вот как интегрировать его в ваш парсер Zalando.
Как использовать Crawlbase Smart AI Proxy с Кукловодом
Интегрируя Crawlbase Smart AI Proxy в ваш сценарий Кукловода просто. Вам понадобится ваш Crawlbase API-ключ для начала работы.
Вот как это сделать:
- Подписаться на Crawlbase: Перейдите к Crawlbase сайт и завести аккаунт. После регистрации вы получите API-токен.
- Обновите свой сценарий кукловода: Измените существующий скребок, чтобы использовать Crawlbase прокси.
Вот обновленная версия вашего скрапера продуктов Zalando с Crawlbase Smart AI Proxy:
1 | Const кукловод = требовать(«кукловод»); |
Код Пояснение:
- Настройка прокси-сервера: Заменить
_USER_TOKEN_с твоим настоящим Crawlbase токен. Это говорит Кукловоду использовать Crawlbase прокси для всех запросов. - Параметры запуска браузера:
argsПараметр вpuppeteer.launch()Метод указывает прокси-сервер для использования. Таким образом, все ваши запросы проходят через Crawlbase прокси.
Оптимизируйте свой Zalando Scraper с помощью Crawlbase
Скрапинг Zalando может предоставить полезную информацию для ваших проектов. В этом блоге мы показали вам, как настроить среду Node.js и скрапинг листингов и подробностей продуктов. Всегда проверяйте правила скрапинга Zalando, чтобы оставаться в рамках их ограничений.
Использование Puppeteer с Crawlbase Smart AI Proxy делает ваш парсинг более быстрым и надежным. Хранение ваших данных в JSON упрощает управление и анализ. Помните, что макеты веб-сайтов могут меняться, поэтому поддерживайте ваши парсеры в актуальном состоянии.
Если вы заинтересованы в изучении сбора данных с других платформ электронной коммерции, ознакомьтесь со следующими подробными руководствами.
📜 Как скрейпить Amazon
📜 Как взломать Walmart
📜 Как скрейпить AliExpress
📜 Как скрейпить Etsy
Если у вас есть какие-либо вопросы или пожелания, наш команда поддержки всегда готов помочь вам в вашем путешествии по веб-скрейпингу. Удачи в вашем путешествии по скрапингу!
Часто задаваемые вопросы (FAQ)
В. Законен ли парсинг Zalando?
Извлечение данных из Zalando может иметь правовые последствия. Обязательно ознакомьтесь с условиями обслуживания веб-сайта, чтобы узнать, что они говорят о извлечении данных. Некоторые веб-сайты явно не разрешают извлечение данных, в то время как другие разрешают это при определенных условиях. Соблюдая правила веб-сайта, вы можете избежать юридических проблем и соблюдать этические нормы.
В. Какие инструменты мне понадобятся для парсинга Zalando?
Для скрапинга Zalando вам понадобятся специальные инструменты, поскольку сайт использует рендеринг JavaScript. Сначала установите Node.js, который позволяет запускать код JavaScript вне браузера. Затем используйте Puppeteer, мощную библиотеку, которая управляет браузером Chrome без заголовка, чтобы вы могли взаимодействовать с контентом, отрендеренным JavaScript. Также рассмотрите возможность использования Crawlbase Crawling API, которые могут помочь с ротацией IP и обходом блокировок. Вместе эти инструменты помогут вам извлечь данные из динамических страниц Zalando.
В. Зачем использовать Crawlbase Smart AI Proxy при очистке Zalando?
. Crawlbase Smart AI Proxy для Zalando парсинг хорош по нескольким причинам. Он не даст вам быть заблокированным сайтом, он меняет IP-адреса, чтобы имитировать поведение обычного пользователя. Таким образом, ваш парсинг будет более эффективным, и вы сможете собирать данные непрерывно, без перерывов. Crawlbase Smart AI Proxy также ускорит процесс парсинга, что позволит вам собирать данные быстрее и эффективнее.












