Хотите расширить свой бизнес? SuperPages — отличное место для получения ценной информации о лидах. SuperPages — один из крупнейших онлайн-каталогов с перечнем предприятий по всей территории США. С миллионами предприятий, отсортированных по отраслям, местоположению и т. д., это хорошее место для поиска подробной информации о потенциальных клиентах или покупателях.
В этом руководстве мы покажем вам, как скрейпить SuperPages, чтобы получить деловую информацию. С помощью Python и нескольких простых библиотек вы можете получить названия компаний, номера телефонов, адреса и многое другое. Это даст вам список лидов для расширения вашего маркетинга или построения партнерских отношений.
После настройки основного скребка мы также рассмотрим оптимизацию наших результатов с помощью Crawlbase Smart AI Proxy для обеспечения точности и эффективности данных при обработке больших наборов данных.
Содержание
- Зачем использовать SuperPages для поиска лидов?
- Ключевые данные для извлечения из SuperPages
- Настройка среды Python
- Скрапинг списков SuperPages
- Проверка HTML на наличие селекторов
- Написание скрапера листингов
- Обработка нумерации страниц
- Сохранение данных в файле JSON
- Полный код
- Проверка HTML на наличие селекторов
- Написание скребка бизнес-данных
- Сохранение данных в файле JSON
- Полный код
- Оптимизация SuperPages Scraper с помощью Crawlbase Smart AI Proxy
- Заключение
- Часто задаваемые вопросы (FAQ)
Зачем парсить бизнес-страницы SuperPages?
SuperPages — это ведущий бизнес-каталог США с миллионами записей в различных отраслях. Независимо от того, занимаетесь ли вы продажами, маркетингом или исследованиями, SuperPages содержит информацию, необходимую для создания целевых списков лидов для охвата. От небольших местных предприятий до национальных компаний, SuperPages содержит миллионы записей, каждая из которых содержит название компании, адрес, номер телефона и категорию бизнеса.

Скрапинг SuperPages позволяет собрать всю эту информацию в одном месте, сэкономить время на ручной поиск и сосредоточиться на привлечении потенциальных клиентов. Вместо того чтобы просматривать страницу за страницей, у вас будет структурированный набор данных, готовый к анализу и последующим действиям.
Давайте углубимся и посмотрим, какую информацию можно извлечь из SuperPages.
Ключевые данные для извлечения из бизнес-объявлений SuperPages
При парсинге SuperPages вам нужно знать, какие данные извлекать для генерации лидов. SuperPages содержит множество фрагментов данных для каждого бизнеса, и, ориентируясь на определенные поля, вы можете создать чистый набор данных для целей охвата и маркетинга.
Вот некоторые из основных полей данных:
- Наименование фирмы: Основной идентификатор для каждого бизнеса, позволяющий сгруппировать лиды.
- Категория: SuperPages классифицирует предприятия по отраслям, например, «Рестораны» или «Юридические услуги». Это поможет вам сегментировать лиды по отраслям.
- Адрес и расположение: Полные адресные данные, включая город, штат и почтовый индекс, чтобы вы могли таргетировать локальные маркетинговые кампании.
- Номер телефона: Важно для прямого контакта, особенно если вы создаете кампанию по охвату по телефону.
- ссылка на сайт: Во многих объявлениях есть ссылка на веб-сайт, поэтому у вас есть еще один способ связаться с компанией и получить больше информации о ней.
- Рейтинги и обзоры: Если эти данные доступны, они могут дать вам представление о настроениях и репутации клиентов, что позволит вам выбирать компании, ориентируясь на качество их услуг и отзывы клиентов.
Имея четкое представление о том, что именно нужно извлечь, мы готовы настроить нашу среду Python в следующем разделе.
Настройка среды Python
Прежде чем мы сможем начать скрейпинг данных SuperPages, нам нужно настроить правильную среду Python. Это включает установку Python, необходимых библиотек и интегрированной среды разработки (IDE) для написания и запуска нашего кода.
Установка Python и необходимых библиотек
Во-первых, убедитесь, что на вашем компьютере установлен Python. Вы можете загрузить последнюю версию с python.org. После установки вы можете проверить, работает ли Python, выполнив эту команду в терминале или командной строке:
1 | python --version |
Далее вам нужно будет установить требуемые библиотеки. Для этого руководства мы будем использовать Requests для создания HTTP-запросов и BeautifulSoup для разбора HTML. Вы можете установить эти библиотеки, выполнив следующую команду:
1 | Pip запрашивает установку beautifulsoup4 |
Эти библиотеки помогут вам взаимодействовать с SuperPages и извлекать данные из HTML.
Выбор IDE
Для написания и запуска скриптов Python вам понадобится IDE. Вот несколько вариантов:
- Код VS: Легкий редактор кода с хорошей поддержкой Python и множеством расширений.
- PyCharm: Более полнофункциональная среда разработки Python с инструментами автодополнения кода и отладки.
- Jupyter Notebook: Интерактивная среда для экспериментов и визуализации.
Выберите IDE, которая вам больше нравится. После настройки среды вы готовы начать писать код для скрапинга списков SuperPages.
Парсинг бизнес-каталогов SuperPages.
В этом разделе мы рассмотрим скрапинг списков SuperPages. Это включает в себя проверку HTML для поиска селекторов, написание скрапера, обработку пагинации для получения данных с нескольких страниц и сохранение данных в файле JSON для легкого доступа.
Проверка HTML на наличие селекторов
Прежде чем начать писать скрапер, нам нужно проверить страницу списков SuperPages, чтобы найти структуру HTML и селекторы CSS, которые содержат нужные нам данные. Вот как:
- Открыть страницу объявлений: Перейдите на страницу результатов поиска SuperPages (например, выполните поиск по запросу «Услуги на дому» в интересующем вас регионе).
- Осмотрите страницу: Щелкните правой кнопкой мыши на странице и выберите «Проверить» или нажмите
Ctrl + Shift + Iоткрыть Инструменты разработчика.

- Найдите соответствующие элементы:
- Наименование фирмы: Название компании находится в
<a>тег с классом.business-name, и в этом<a>, само название находится в<span>тег. - Адрес: Адрес находится в
<span>тег с классом.street-address. - Номер телефона: Номер телефона находится в
<a>тег с классами.phoneи.primary. - Ссылка на сайт: Если доступно, ссылка на веб-сайт компании находится в
<a>тег с классом.weblink-button. - Ссылка на страницу подробностей: Ссылка на страницу с подробностями о компании находится в
<a>тег с классом.business-name.
Посмотрите на любые другие данные, которые вы хотите извлечь, например, рейтинги или часы работы. Теперь вы готовы написать скрапер в следующем разделе.
Написание скрапера листингов
Теперь, когда у нас есть селекторы, мы можем написать скрапер. Мы будем использовать requests чтобы получить страницу и BeautifulSoup для разбора HTML и извлечения данных. Вот базовый код для извлечения списков:
1 | Импортировать Запросы |
Этот код извлекает данные с указанной страницы результатов. Он извлекает название, адрес, номер телефона и веб-сайт каждой компании и сохраняет их в списке словарей.
Обработка нумерации страниц
Чтобы получить больше данных, нам нужно обработать пагинацию, чтобы скрапер мог пройти по нескольким страницам. SuperPages изменяет номер страницы в URL, поэтому легко добавить пагинацию, перебирая номера страниц. Мы можем создать функцию, подобную приведенной ниже, для скрапинга нескольких страниц:
1 | # Функция для извлечения списков с нескольких страниц |
Теперь, fetch_all_listings() соберет данные с указанного количества страниц, вызвав fetch_listings() неоднократно.
Сохранение данных в файле JSON
После того, как мы собрали все данные, важно сохранить их в файле JSON для легкого доступа. Вот как сохранить данные в формате JSON:
1 | # Функция сохранения данных листинга в файл JSON |
Этот код сохраняет данные в файле с именем superpages_listings.json. Каждая запись будет содержать название компании, адрес, номер телефона и веб-сайт.
Полный пример кода
Ниже представлен полный код, объединяющий все шаги:
1 | Импортировать Запросы |
Пример вывода:
1 |
|
Извлечение бизнес-данных из SuperPages
После сбора основной информации из бизнес-каталогов Superpages, пришло время углубиться в детали каждого предприятия, посетив его отдельную страницу. Этот шаг поможет вам собрать более подробную информацию, такую как часы работы, отзывы клиентов и дополнительные контактные данные.
Проверка HTML на наличие селекторов
Сначала мы проверим HTML-структуру страницы сведений о бизнесе SuperPages, чтобы определить, где находится каждая часть информации. Вот как:
- Открыть страницу сведений о компании: Нажмите на название любой компании в результатах поиска, чтобы открыть страницу с ее подробностями.
- Осмотрите страницу: Щелкните правой кнопкой мыши и выберите «Проверить» или нажмите
Ctrl + Shift + Iоткрыть Инструменты разработчика.

- Найти ключевые элементы:
- Наименование фирмы: Найдено в
<h1>тег с классом.business-name. - Часы работы: Отображается в строках внутри
.biz-hoursтаблица, где часы каждого дня указаны в<tr>сth.day-labelиtd.day-hours. - Контактная информация: Расположены в парах ключ-значение внутри
.details-contactраздел, с каждой клавишей в<dt>теги и каждое значение в соответствующем<dd>теги.
Определив эти селекторы, вы готовы перейти к следующему шагу.
Написание скребка бизнес-данных
Теперь давайте используем эти селекторы в скрипте Python, чтобы извлечь конкретные данные из каждой бизнес-страницы. Сначала мы сделаем запрос к URL каждой бизнес-страницы. Затем мы используем BeautifulSoup для анализа и извлечения конкретной информации.
Вот код для извлечения данных о компании с каждой страницы:
1 | Импортировать Запросы |
Сохранение данных в файле JSON
Чтобы облегчить работу с извлеченными данными в дальнейшем, мы сохраним данные о компании в файле JSON. Это позволит вам хранить и получать доступ к информации организованным образом.
1 | защиту сохранить_в_json(данные, имя файла='business_details.json'): |
Полный пример кода
Вот полный код, который включает в себя все: от получения данных о компании до сохранения их в файле JSON.
1 | Импортировать Запросы |
Пример вывода:
1 | [ |
Оптимизация SuperPages Scraper с помощью Crawlbase Smart AI Proxy
Чтобы сделать наш скрапер SuperPages более надежным и быстрым, мы можем использовать Crawlbase Smart AI Proxy. Smart AI Proxy имеет ротацию IP-адресов и защиту от ботов, что важно для предотвращения превышения лимитов скорости или блокировки при длительном сборе данных.
Добавление Crawlbase Smart AI Proxy к нашей настройке легко. Подписаться on Crawlbase и получить API токен. Мы будем использовать Smart AI Proxy URL вместе с нашим токеном, чтобы запросы выглядели так, как будто они приходят из разных мест. Это поможет нам избежать обнаружения и обеспечить бесперебойный скрапинг.
Вот как мы можем изменить наш код для использования Crawlbase Smart AI Proxy:
1 | Импортировать Запросы |
Направляя наши запросы через Crawlbase, мы добавляем необходимую ротацию IP и меры по борьбе с ботами, которые повышают надежность и масштабируемость нашего скрапера. Эта настройка идеально подходит для сбора больших объемов данных из SuperPages без перерывов или блокировок, сохраняя эффективность и производительность скрапера.
Заключение
В этом блоге мы рассказали, как скрапинговать SuperPages для получения лидов. Мы научились извлекать бизнес-данные, такие как имена, адреса и номера телефонов. Мы использовали Requests и BeautifulSoup для создания простого скрапера для получения этих данных.
Мы также рассмотрели, как обрабатывать пагинацию, чтобы получить все списки на сайте. Используя Crawlbase Smart AI Proxyмы сделали наш парсер более надежным и эффективным, чтобы не возникало проблем с блокировкой во время сбора данных.
Следуя шагам, описанным в этом руководстве, вы можете создать свой парсер и начать извлекать важные данные. Если вы хотите больше заниматься парсингом веб-сайтов, ознакомьтесь с нашими руководствами по парсингу других ключевых веб-сайтов.
📜 Легко извлекайте данные о продуктах Costco
📜 Как извлечь данные из Houzz
📜 Как соскрести Tokopedia
📜 Извлечение данных OpenSea с помощью Python
📜 Как извлечь данные из Gumtree за несколько простых шагов
Если у вас есть какие-либо вопросы или пожелания, наш команда поддержки здесь, чтобы помочь вам. Счастливого скрапинга!
Часто задаваемые вопросы (FAQ)
В: Как избежать блокировки при сборе данных из бизнес-каталога SuperPages?
Чтобы избежать блокировки, добавьте задержки между запросами, ограничьте частоту запросов и чередуйте IP-адреса. Такие инструменты, как Crawlbase Smart AI Proxy может упростить этот процесс, чередуя IP-адреса для вас, чтобы ваш парсер работал гладко. Избегайте слишком частых запросов и следуйте хорошим практикам парсинга.
В. Почему я не получаю результатов при попытке извлечь данные из SuperPages?
Если ваш скрапер не возвращает результаты, проверьте, соответствуют ли ваши селекторы HTML структуре SuperPages. Иногда незначительные изменения в структуре HTML веб-сайта требуют обновления селекторов. Также убедитесь, что вы правильно обрабатываете пагинацию, если пытаетесь получить несколько страниц результатов.
В. Как сохранить извлеченные данные в форматах, отличных от JSON?
Если вам нужны ваши данные в других форматах, таких как CSV или Excel, вы можете легко изменить скрипт. Для CSV используйте Python's csv Модуль для сохранения данных в строках. Для Excel, pandas библиотека имеет .to_excel() Функция, которая хорошо работает. Эта гибкость может помочь вам анализировать или делиться данными таким образом, который соответствует вашим потребностям.












