Tokopedia, одна из крупнейших платформ электронной коммерции в Индонезии, имеет более 90 миллионов активных пользователей и 350 миллионов посещений в месяц. Платформа предлагает широкий ассортимент товаров: от электроники, моды, продуктов питания до средств личной гигиены. Для предприятий и разработчиков сбор данных Tokopedia может дать вам представление о тенденциях в области продуктов, ценовой стратегии и предпочтениях клиентов.
Tokopedia использует JavaScript для отображения своего контента; традиционный метод извлечения данных не работает. Crawlbase Crawling API помогает, легко обрабатывая контент, отрисованный с помощью JavaScript. В этом уроке вы узнаете, как использовать Python и Crawlbase для извлечения из результатов поиска Tokopedia и страниц продуктов названий, цен и рейтингов.
Давайте начнем!
Содержание
- Зачем собирать данные Tokopedia?
- Ключевые данные для извлечения из Tokopedia
- Crawlbase Crawling API для соскобов Tokopedia
- Crawlbase Библиотека Python
- Установка Python и необходимых библиотек
- Выбор IDE
- Проверка HTML на наличие селекторов CSS
- Написание скребка списков поиска
- Обработка нумерации страниц в Токопедии
- Хранение данных в файле JSON
- Полный код
- Проверка HTML на наличие селекторов CSS
- Написание скрапера страницы продукта
- Хранение данных в файле JSON
- Полный код
Зачем собирать данные Tokopedia?
Сбор данных Tokopedia может быть полезен для бизнеса и разработчиков. Будучи одной из крупнейших платформ электронной коммерции в Индонезии, Tokopedia располагает большим объемом информации о продуктах, ценах и поведении клиентов. Извлекая эти данные, вы можете преуспеть на онлайн-рынке.
Существует множество причин, по которым стоит извлекать данные из Tokopedia:

- Исследования рынка: Знание текущего спроса поможет вам с планированием запасов и маркетинга. Возможности всегда можно найти, глядя на общие тенденции.
- Сравнение цен: Можно скрафтить Tokopedia и получить несколько цен на продукты из разных категорий. Это позволит корректировать цены, чтобы оставаться конкурентоспособными.
- Анализ конкурентов: Сбор данных о продукции конкурентов поможет вам понять, как они себя позиционируют и в чем их слабые стороны.
- Информация о клиентах: Изучение обзоров и рейтингов продуктов поможет понять основные плюсы и минусы различных товаров с точки зрения покупателей.
- Доступность продукта: Следите за товарами, чтобы знать, когда запасы популярных товаров подходят к концу, и увеличивайте запасы, чтобы успокоить покупателей.
В следующем разделе мы увидим, что можно почерпнуть из Tokopedia.
Ключевые данные для извлечения из Tokopedia
При парсинге Tokopedia сосредоточьтесь на важных точках данных, и вы получите полезные идеи для вашего бизнеса или исследования. Вот точки данных, которые нужно захватить:
- Наименование товара: Идентифицирует продукт.
- Цена: Для мониторинга цен и анализа конкуренции.
- Рейтинги и обзоры: Для удобства использования и удобства использования продукции.
- Доступность: Для уровня запасов и доступности продукции.
- Информация о продавце: Подробная информация о сторонних поставщиках, рейтингах продавцов и местоположении.
- изображения продуктов: Изображения для визуального представления и понимания продукта.
- Описание товара:: Подробную информацию о продукте.
- Категория и теги: Для упорядочивания продуктов и категоризированного анализа.
Концентрация на этих аспектах данных позволяет собирать полезные идеи из Tokopedia, которые могут помочь в уточнении или принятии лучших решений. Далее мы рассмотрим, как настроить среду Python для скрапинга.
Crawlbase Crawling API для соскобов Tokopedia
Crawlbase Crawling API делает парсинг Tokopedia быстрым и простым. Поскольку веб-сайт Tokopedia использует динамический контент, большая часть данных загружается через JavaScript, что затрудняет парсинг традиционными методами. Но Crawlbase Crawling API отображает страницы как настоящий браузер, чтобы вы могли получить доступ к данным.
Вот почему Crawlbase Crawling API подходит для парсинга Tokopedia:
- Обрабатывает динамический контент: Crawlbase обрабатывает страницы с большим объемом JavaScript, поэтому все данные о продуктах полностью загружаются и готовы к извлечению.
- Ротация IP: Чтобы избежать блокировки системами безопасности Tokopedia, Crawlbase автоматически меняет IP-адреса, позволяя вам заниматься парсингом, не беспокоясь об ограничениях скорости или банах.
- Быстрая производительность: Crawlbase позволяет эффективно извлекать огромные объемы данных, экономя время и ресурсы.
- Настраиваемый запросs: Вы можете изменить заголовки, файлы cookie и запросы управления в соответствии со своими потребностями.
С этими особенностями, Crawlbase Crawling API делает парсинг Tokopedia проще и эффективнее.
Crawlbase Библиотека Python
Crawlbase также предоставляет библиотеку Python, чтобы сделать веб-скрапинг еще проще. Для использования этой библиотеки вам понадобится токен доступа, который вы можете получить регистрацией в Crawlbase.
Вот пример функции для отправки запроса Crawlbase Crawling API:
1 | от база сканирования Импортировать CrawlingAPI |
Внимание: Crawlbase предоставляет два типа токенов. Нормальный токен для статических сайтов. Токен JavaScript (JS) для динамического или отображаемого в браузере контента, необходимого для парсинга Tokopedia. Crawlbase предлагает 1,000 бесплатных запросов, чтобы помочь вам начать, и вы можете зарегистрироваться без кредитной карты. Для получения более подробной информации см. Crawlbase Crawling API документации.
В следующем разделе мы узнаем, как настроить среду Python для сбора данных Tokopedia.
Настройка среды Python
Чтобы начать скрейпинг Tokopedia, вам нужно настроить среду Python. Выполните следующие шаги, чтобы начать:
Установка Python и необходимых библиотек
Убедитесь, что Python установлен на вашем компьютере. Вы можете скачать его здесь. После установки выполните следующую команду для установки необходимых библиотек:
1 | pip установить crawlbase beautifulsoup4 |
- Crawlbase: Для взаимодействия с Crawlbase Crawling API для обработки динамического контента.
- КрасивыйСуп: Для анализа и извлечения данных из HTML.
Эти инструменты необходимы для эффективного извлечения данных из Tokopedia.
Выбор IDE
Выберите IDE для бесперебойной разработки:
- Visual Studio Code: Легкий и часто используемый.
- PyCharm: Полнофункциональная IDE с мощными возможностями Python.
- Jupyter Notebook: Идеально подходит для интерактивного кодирования и тестирования.
После настройки среды вы можете начать парсинг Tokopedia. Далее мы рассмотрим, как создать парсер Tokopedia SERP.
Очистка списков поиска в Токопедии
Теперь, когда у вас есть готовая среда Python, мы можем начать скрейпинг списков поиска Tokopedia. В этом разделе мы проведем вас через проверку HTML, написание скрейпера, обработку пагинации и сохранение данных в файле JSON.
Проверка структуры HTML
Сначала вам нужно проверить HTML страницы результатов поиска Tokopedia, с которой вы хотите извлечь листинги продуктов. В этом примере мы будем извлекать листинги гарнитур со следующего URL:
1 | https://www.tokopedia.com/search?q=headset |
Откройте инструменты разработчика в браузере и перейдите по этому URL-адресу.

Вот некоторые ключевые факторы, на которые следует обратить внимание:
- Название продукта: Найдено в
<span>тег с классомOWkG6oHwAppMn1hIBsC3pQ==который содержит название продукта. - Цена: В
<div>тег с классомELhJqP-Bfiud3i5eBR8NWg==отображающий цену товара. - Название магазина: Найдено в
<span>тег с классомX6c-fdwuofj6zGvLKVUaNQ==. - Ссылка на продукт: Ссылка на страницу продукта найдена в
<a>тег с классомNq8NlC5Hk9KgVBJzMYBUsg==, доступный черезhrefатрибутов.
Написание скребка списков поиска
Мы напишем функцию, которая делает запрос к Crawlbase Crawling API, извлекает HTML, а затем анализирует данные с помощью BeautifulSoup.
Вот код для извлечения результатов поиска:
1 | от база сканирования Импортировать CrawlingAPI |
Эта функция сначала извлекает HTML с помощью Crawlbase Crawling API а затем анализирует данные с помощью BeautifulSoup для извлечения информации о продукте.
Обработка нумерации страниц в Токопедии
Результаты поиска Tokopedia распределены по нескольким страницам. Чтобы вычистить все списки, нам нужно обработать пагинацию. Каждая последующая page можно получить доступ, добавив параметр страницы к URL-адресу, например ?page=2.
Вот как обрабатывать пагинацию:
1 | # Функция для извлечения нескольких страниц списков поиска |
Эта функция просматривает страницы результатов поиска, извлекает списки продуктов с каждой страницы и объединяет результаты.
Хранение данных в файле JSON
После скрапинга данных вы можете сохранить их в файле JSON для легкого доступа и использования в будущем. Вот как это можно сделать:
1 | # Функция сохранения данных в файл JSON |
Полный пример кода
Ниже представлен полный код для извлечения результатов поиска Tokopedia для гарнитур, включая разбиение на страницы и сохранение данных в файл JSON:
1 | от база сканирования Импортировать CrawlingAPI |
Пример вывода:
1 | [ |
В следующем разделе мы рассмотрим сбор данных со страниц отдельных продуктов на Tokopedia для получения подробной информации.
Парсинг страниц продуктов Токопедии
Теперь, когда мы скопировали списки поиска, давайте перейдем к скопированию информации о продукте с отдельных страниц продукта. В этом разделе мы скопируем название продукта, цену, название магазина, описание и URL изображения со страницы продукта Tokopedia.
Проверка HTML на наличие селекторов CSS
Прежде чем писать скрапер, нам нужно проверить HTML-структуру страницы продукта, чтобы найти правильные селекторы CSS для данных, которые мы хотим скрафтить. Для этого примера мы скраппируем страницу продукта со следующего URL:
1 | https://www.tokopedia.com/thebigboss/headset-bluetooth-tws-earphone-bluetooth-stereo-bass-tbb250-beige-8d839 |
Откройте инструменты разработчика в браузере и перейдите по этому URL-адресу.

Вот на чем нам нужно сосредоточиться:
- Продукт Имя: Найдено в
<h1>тег с атрибутомdata-testid="lblPDPDetailProductName". - Цена: Цена указана в
<div>тег с атрибутомdata-testid="lblPDPDetailProductPrice". - Название магазина: Название магазина находится внутри
<a>тег с атрибутомdata-testid="llbPDPFooterShopName". - Описание товара:: Расположен в
<div>тег с атрибутомdata-testid="lblPDPDescriptionProduk"который содержит подробную информацию о продукте. - URL-адрес изображения: Основное изображение продукта находится внутри
<button>тег с атрибутомdata-testid="PDPImageThumbnail", иsrcатрибут вложенного<img>тег (классcss-1c345mg) содержит ссылку на изображение.
Написание скрапера страницы продукта
Теперь, когда мы осмотрели страницу, мы можем начать писать скрапер. Ниже приведена функция Python, которая использует Crawlbase Crawling API для получения HTML и BeautifulSoup для анализа содержимого.
1 | от база сканирования Импортировать CrawlingAPI |
Хранение данных в файле JSON
После сбора данных о продукте хорошей практикой является сохранение данных в структурированном формате, например JSON. Вот как записать собранные данные в файл JSON.
1 | защиту хранить_данные_в_json(данные, имя файла='tokopedia_product_data.json'): |
Полный пример кода
Вот полный код, который считывает данные со страницы товара и сохраняет их в файле JSON.
1 | от база сканирования Импортировать CrawlingAPI |
Пример вывода:
1 | { |
Этот полный пример показывает, как извлечь данные о продукте со страницы продукта Tokopedia и сохранить их в файл JSON. Он обрабатывает динамический контент, поэтому хорошо подходит для извлечения данных из страниц, отображаемых JavaScript.
Оптимизируйте сбор данных Tokopedia с помощью Crawlbase
Скрапинг Tokopedia может помочь вам получить данные о продуктах для исследования, сравнения цен или анализа рынка. С Crawlbase Crawling API, вы можете перемещаться по динамическому веб-сайту и быстро извлекать данные даже со страниц с большим объемом JavaScript.
В этом блоге мы рассмотрели, как настроить среду, найти селекторы CSS из HTML и написать код Python для извлечения списков продуктов и страниц продуктов из Tokopedia. С помощью метода, используемого в этом блоге, вы можете легко собирать полезную информацию, такую как названия продуктов, цены, описания и изображения из Tokopedia, и хранить их в структурированном формате, например JSON.
Если вы заинтересованы в изучении сбора данных с других платформ электронной коммерции, ознакомьтесь со следующими подробными руководствами.
📜 Как скрейпить Amazon
📜 Как взломать Walmart
📜 Как скрейпить AliExpress
📜 Как очистить Zalando
📜 Как соскребать Costco
Обратитесь к нашему поддержка Если у вас есть вопросы. Счастливого скрапинга.
Часто задаваемые вопросы (FAQ)
В. Законно ли извлекать данные из Tokopedia?
Извлечение данных из Tokopedia может быть законным, если вы соблюдаете их условия обслуживания и используете данные ответственно. Всегда читайте правила веб-сайта и избегайте извлечения конфиденциальных или персональных данных. Важно использовать данные в этических целях, например, для исследований или анализа, не нарушая политики Tokopedia.
В. Почему мне следует использовать Crawlbase Crawling API для сбора данных с Токопедии?
Tokopedia использует динамический контент, загружаемый через JavaScript, что затрудняет его извлечение традиционными методами. Crawlbase Crawling API делает этот процесс проще, отображая веб-сайт в реальном браузере. Он также контролирует ротацию IP-адресов, чтобы предотвратить блокировки, делая парсинг более эффективным и надежным.
В. Какие ключевые данные я могу извлечь со страниц продуктов Tokopedia?
При скрапинге страниц продуктов Tokopedia вы можете извлечь несколько важных точек данных, включая название продукта, цену, описание, рейтинги и URL-адреса изображений. Эти данные полезны для анализа, сравнения цен или создания базы данных продуктов для понимания рыночных тенденций.












