Just Eat, одна из ведущих в мире платформ онлайн-доставки еды, соединяет миллионы потребителей с их любимыми ресторанами. Благодаря подробной информации о списках ресторанов, меню, рейтингах и отзывах, платформа является золотой жилой для предприятий, исследователей и разработчиков, желающих анализировать тенденции доставки еды или создавать решения на основе данных.
В 2023 году Just Eat сделал 5.2 млрд €, с более 60 миллионов человек Активных пользователей по всему миру. У них более 374,000 Партнерские рестораны по всему миру и огромный выбор кухонь на выбор. Сайт в Великобритании занимает 1-е место в категории «Рестораны и доставка», лидер рынка.
В этом блоге мы будем парсить Just Eat с помощью Python и Crawlbase Crawling API. Вот что вы узнаете:
- Извлечение данных о ресторане и меню.
- Обработка прокрутки страниц.
- Сохранение и структурирование полученных данных.
Вот краткий урок о том, как скрапинговать Just Eat:
Содержание
- Почему Scrape просто съедает данные?
- Ключевые данные, которые можно извлечь из Just Eat
- Crawlbase Crawling API для простого соскабливания еды
- Установка Crawlbase Библиотека Python
- Установка Python и необходимых библиотек
- Выбор правильной IDE для веб-скрапинга
- Проверка HTML для определения селекторов
- Написание скрапера для поиска Just Eat
- Обработка прокрутки страниц
- Хранение извлеченных данных в файле JSON
- Полный пример кода Python
- Проверка HTML-кода страницы меню на наличие селекторов
- Написание меню Scraper
- Обработка пагинации для меню
- Хранение данных меню в файле JSON
- Полный пример кода Python
Почему Scrape просто съедает данные?
Just Eat — гигант в индустрии доставки еды, сокровищница данных, которые можно использовать для многих вещей. На изображении ниже показаны некоторые из причин, по которым стоит использовать скрап Just Eat:

Ключевые данные, которые можно извлечь из Just Eat
При извлечении данных из Just Eat следует сосредоточиться на наиболее ценной и релевантной информации. На изображении ниже показано, что можно извлечь из платформы:

Crawlbase Crawling API для простого соскабливания еды
The Crawlbase Crawling API делает скрапинг Just Eat простым и понятным. Вот почему Just Eat Crawling API отлично подходит для соскобов Just Eat:
- Обрабатывает контент, визуализированный с помощью JavaScript: Just Eat использует JavaScript для отображения информации о ресторане и меню. Crawlbase обеспечивает полную загрузку всего контента перед его извлечением.
- Ротация IP: Crawlbase меняет IP-адреса, чтобы избежать блокировки, что позволяет вам сканировать несколько страниц, не сталкиваясь с ограничениями по скорости или CAPTCHA.
- Настраиваемые запросы: Вы можете настроить заголовки, файлы cookie и другие параметры в соответствии со своими потребностями.
- Пагинация на основе прокрутки: Just Eat использует бесконечную прокрутку для загрузки большего количества результатов. Crawlbase поддерживает длительную прокрутку, благодаря чему вы получаете все данные.
Crawlbase Библиотека Python
Crawlbase обеспечивает Библиотека Python использовать его продукцию. Через него вы можете использовать Crawling API легко. Чтобы начать, вам понадобится ваш Crawlbase токен доступа, который вы можете получить регистрацией за их обслуживание.
Crawlbase предоставляет два типа токенов. Обычный токен для статических сайтов и JS-токен для сайтов, отображаемых с помощью JS. Crawlbase предлагает 1,000 бесплатных запросов для своего Crawling API. Смотреть документации больше.
В следующем разделе мы рассмотрим, как настроить среду Python для парсинга Just Eat.
Настройка среды Python
Прежде чем начать скрейпинг Just Eat data, вам нужно настроить среду Python. Хорошая среда означает, что ваши скрипты будут работать гладко.
Установка Python и необходимых библиотек
Во-первых, убедитесь, что в вашей системе установлен Python. Вы можете загрузить последнюю версию Python с сайта официальный сайт Python. После установки проверьте установку, выполнив следующую команду в терминале или командной строке:
1 | python --version |
Затем установите необходимые библиотеки с помощью pip. Для этого руководства вам понадобится:
**crawlbase**: Для взаимодействия с Crawlbase Crawling API.**beautifulsoup4**: Для анализа HTML и извлечения данных.
Выполните следующую команду для установки всех зависимостей:
1 | pip установить crawlbase beautifulsoup4 |
Выбор правильной IDE для веб-скрапинга
Выбор правильной IDE (интегрированной среды разработки) упрощает жизнь кодировщика. Вот некоторые популярные для Python:
- Код VS: Легкий, мощный и имеет великолепные расширения Python.
- PyCharm: Полный набор функций с расширенными инструментами отладки и тестирования.
- Jupyter Notebook: Хорошо подходит для исследовательского анализа данных и пошагового выполнения кода.
Выберите тот, который подходит вашему рабочему процессу. Для этого блога мы рекомендуем VS Code для простоты.
Соскребаем списки ресторанов Just Eat
В этом разделе мы извлечем список ресторанов из Just Eat с помощью Python и Crawlbase Crawling API. Мы рассмотрим поиск селекторов HTML, написание скрапера, прокрутку страниц и сохранение данных в файле JSON.
Проверка HTML для определения селекторов
Чтобы извлечь данные, вам сначала нужно понять структуру сайта Just Eat. Вот как вы можете проверить HTML:
- Открыть сайт: Перейдите на страницу результатов поиска Just Eat для определенного города, например, Список ресторанов Just Eat в районе Лондонского моста.
- Открытые инструменты разработчика: Щелкните правой кнопкой мыши в любом месте страницы и выберите «Проверить» (или нажмите
Ctrl + Shift + Iв Windows илиCmd + Option + Iна Mac).

- Найдите ключевые элементы:
- Название ресторана: Выдержка из
<div>data-qa="restaurant-info-name". - Тип кухни: Выдержка из
<div>data-qa="restaurant-cuisine". - Рейтинг: Выдержка из
<div>data-qa="restaurant-ratings". - Ссылка на ресторан: Извлечь
hrefиз<a>тег внутри карточки ресторана и добавьте к нему префиксhttps://www.just-eat.co.uk.
Написание скрапера для поиска Just Eat
Теперь, когда вы определили селекторы, вы можете написать скрапер. Ниже приведен пример скрипта Python для скрапинга списков ресторанов с использованием Crawlbase и Красивый Суп:
1 | от база сканирования Импортировать CrawlingAPI |
Обработка прокрутки страниц
Just Eat использует прокрутку страниц для загрузки большего количества результатов по мере прокрутки страницы вниз. Crawlbase Crawling API поддерживает автоматическую прокрутку, поэтому вам не придется управлять ею вручную.
Установив scroll и scroll_interval В запросе API вы получите все листинги. Вам не нужно добавлять page_wait, так как scroll_interval будет работать так же.
1 | варианты = { |
Хранение извлеченных данных в файле JSON
После того, как вы соскребли данные, сохраните их в файле JSON для дальнейшего анализа. Вот как вы можете сохранить результаты:
1 | защиту сохранить_в_json(данные, имя файла='just_eat_restaurants.json'): |
Полный пример кода Python
Ниже представлен полный сценарий, объединяющий все шаги:
1 | от база сканирования Импортировать CrawlingAPI |
Пример вывода:
1 | [ |
С помощью этого скрипта вы можете извлечь списки ресторанов из Just Eat. В следующем разделе мы извлечем меню ресторанов для более подробной информации.
Копирование меню ресторанов на Just Eat
Скрапинг меню ресторанов на Just Eat предоставит вам подробную информацию о предложениях меню, ценах и вариантах настройки блюд. В этом разделе мы покажем вам, как найти HTML-структуру страниц меню, написать скрэпер, обрабатывать пагинацию и сохранять данные меню в файле JSON.
Проверка HTML-кода страницы меню на наличие селекторов
Перед написанием скрапера проверьте HTML-структуру страницы меню, чтобы найти ключевые элементы:
- Открыть страницу меню: Нажмите на название ресторана, чтобы перейти на страницу его меню.
- Проверьте HTML: Щелкните правой кнопкой мыши и выберите «Проверить» (или нажмите
Ctrl + Shift + I/Cmd + Option + I), чтобы открыть Инструменты разработчика.
- Найдите ключевые элементы:
- Категория: Нашел в
<section>data-qa="item-category". Имя в<h2>data-qa="heading". - Название блюдаВнутрь
<h2>data-qa="heading". - Цена блюдаВнутрь
<span>с классом, начинающимся с"formatted-currency-style". - Описание блюдаВнутрь
<div>с классом, начинающимся с"new-item-style_item-description".
Написание меню Scraper
После определения селекторов HTML напишите скрипт Python для извлечения данных меню. Вот пример реализации:
1 | от база сканирования Импортировать CrawlingAPI |
Обработка пагинации для меню
Как и в SERP, на странице меню Just Eat также используется прокрутка страниц. Crawlbase Crawling API может управлять пагинацией, включив параметры прокрутки. Используйте эти параметры:
1 | варианты = { |
Добавьте необходимое время прокрутки, чтобы убедиться, что все пункты меню загружены перед считыванием.
Хранение данных меню в файле JSON
После того, как данные меню будут извлечены, сохраните их в файле JSON для легкого доступа и анализа. Вот как:
1 | защиту сохранить_меню_в_json(данные, имя файла='just_eat_menu.json'): |
Полный пример кода Python
Вот полный скрипт для извлечения меню:
1 | от база сканирования Импортировать CrawlingAPI |
Пример вывода:
1 | [ |
Заключение
Сбор данных Just Eat с помощью Python и Crawlbase Crawling API — отличный способ получить ценную информацию для предприятий, разработчиков и исследователей. От списков ресторанов до данных меню — он делает сбор и организацию данных для анализа или разработки приложений легкой задачей.
Убедитесь, что ваши методы парсинга соответствуют этическим нормам и условиям обслуживания веб-сайта. При правильном подходе вы можете использовать веб-данные для принятия обоснованных решений и создания эффективных решений.
Если вы хотите больше узнать о веб-скрапинге, ознакомьтесь с нашими руководствами по скрэпингу других ключевых веб-сайтов.
📜 Как скрейпить Amazon
📜 Как взломать Walmart
📜 Как скопировать Monster.com
📜 Как скрейпить Groupon
📜 Как парсить TechCrunch
📜 Как извлечь данные об отелях из Agoda
Обратитесь к нашему поддержка если у вас есть вопросы. Счастливого скрапинга!
FAQ
В. Законно ли извлекать данные из Just Eat?
Законность веб-скрейпинга зависит от положений и условий веб-сайта и предполагаемого использования данных. Обязательно ознакомьтесь с положениями и условиями Just Eat и не нарушайте их. Всегда проверяйте, что ваши действия по скрапингу этичны и соответствуют местным правилам конфиденциальности данных.
В. Как работать с динамическим контентом и пагинацией в Just Eat?
Just Eat использует JavaScript для отображения контента и прокрутки страниц. Crawlbase Crawling API, страницы полностью визуализируются, и вы можете извлекать динамический контент. CrawlbaseАвтора scroll параметры позволяют эффективно управлять бесконечной прокруткой.
В. Могу ли я извлечь информацию о меню определенных ресторанов на Just Eat?
Да, с помощью правильных селекторов и инструментов вы можете получить информацию о меню отдельных ресторанов, включая названия блюд, описания и цены. Crawlbase Crawling API обеспечивает полную визуализацию всего динамического контента, включая детали меню, для извлечения.
В. Как предотвратить блокировку скрапера?
Чтобы избежать блокировки, используйте такие методы, как ротация IP-адресов, задержки запросов и заголовок user-agent, чтобы имитировать реальных пользователей. Crawlbase Crawling API делает все это за вас, управляя ротацией IP-адресов, управлением пользовательскими агентами и мерами по борьбе с ботами.










