Хотите расширить свой бизнес? SuperPages — отличное место для получения ценной информации о лидах. SuperPages — один из крупнейших онлайн-каталогов с перечнем предприятий по всей территории США. С миллионами предприятий, отсортированных по отраслям, местоположению и т. д., это хорошее место для поиска подробной информации о потенциальных клиентах или покупателях.

В этом руководстве мы покажем вам, как скрейпить SuperPages, чтобы получить деловую информацию. С помощью Python и нескольких простых библиотек вы можете получить названия компаний, номера телефонов, адреса и многое другое. Это даст вам список лидов для расширения вашего маркетинга или построения партнерских отношений.

После настройки основного скребка мы также рассмотрим оптимизацию наших результатов с помощью Crawlbase Smart AI Proxy для обеспечения точности и эффективности данных при обработке больших наборов данных.

Содержание

  1. Зачем использовать SuperPages для поиска лидов?
  2. Ключевые данные для извлечения из SuperPages
  3. Настройка среды Python
  4. Скрапинг списков SuperPages
  • Проверка HTML на наличие селекторов
  • Написание скрапера листингов
  • Обработка нумерации страниц
  • Сохранение данных в файле JSON
  • Полный код
  1. Извлечение бизнес-данных из SuperPages
  • Проверка HTML на наличие селекторов
  • Написание скребка бизнес-данных
  • Сохранение данных в файле JSON
  • Полный код
  1. Оптимизация SuperPages Scraper с помощью Crawlbase Smart AI Proxy
  2. Заключение
  3. Часто задаваемые вопросы (FAQ)

Зачем парсить бизнес-страницы SuperPages?

SuperPages — это ведущий бизнес-каталог США с миллионами записей в различных отраслях. Независимо от того, занимаетесь ли вы продажами, маркетингом или исследованиями, SuperPages содержит информацию, необходимую для создания целевых списков лидов для охвата. От небольших местных предприятий до национальных компаний, SuperPages содержит миллионы записей, каждая из которых содержит название компании, адрес, номер телефона и категорию бизнеса.

Изображение, показывающее причины, по которым следует использовать SuperPages для поиска лидов

Скрапинг SuperPages позволяет собрать всю эту информацию в одном месте, сэкономить время на ручной поиск и сосредоточиться на привлечении потенциальных клиентов. Вместо того чтобы просматривать страницу за страницей, у вас будет структурированный набор данных, готовый к анализу и последующим действиям.

Давайте углубимся и посмотрим, какую информацию можно извлечь из SuperPages.

Ключевые данные для извлечения из бизнес-объявлений SuperPages

При парсинге SuperPages вам нужно знать, какие данные извлекать для генерации лидов. SuperPages содержит множество фрагментов данных для каждого бизнеса, и, ориентируясь на определенные поля, вы можете создать чистый набор данных для целей охвата и маркетинга.

Вот некоторые из основных полей данных:

  • Наименование фирмы: Основной идентификатор для каждого бизнеса, позволяющий сгруппировать лиды.
  • Категория: SuperPages классифицирует предприятия по отраслям, например, «Рестораны» или «Юридические услуги». Это поможет вам сегментировать лиды по отраслям.
  • Адрес и расположение: Полные адресные данные, включая город, штат и почтовый индекс, чтобы вы могли таргетировать локальные маркетинговые кампании.
  • Номер телефона: Важно для прямого контакта, особенно если вы создаете кампанию по охвату по телефону.
  • ссылка на сайт: Во многих объявлениях есть ссылка на веб-сайт, поэтому у вас есть еще один способ связаться с компанией и получить больше информации о ней.
  • Рейтинги и обзоры: Если эти данные доступны, они могут дать вам представление о настроениях и репутации клиентов, что позволит вам выбирать компании, ориентируясь на качество их услуг и отзывы клиентов.

Имея четкое представление о том, что именно нужно извлечь, мы готовы настроить нашу среду Python в следующем разделе.

Настройка среды Python

Прежде чем мы сможем начать скрейпинг данных SuperPages, нам нужно настроить правильную среду Python. Это включает установку Python, необходимых библиотек и интегрированной среды разработки (IDE) для написания и запуска нашего кода.

Установка Python и необходимых библиотек

Во-первых, убедитесь, что на вашем компьютере установлен Python. Вы можете загрузить последнюю версию с python.org. После установки вы можете проверить, работает ли Python, выполнив эту команду в терминале или командной строке:

1
python --version

Далее вам нужно будет установить требуемые библиотеки. Для этого руководства мы будем использовать Requests для создания HTTP-запросов и BeautifulSoup для разбора HTML. Вы можете установить эти библиотеки, выполнив следующую команду:

1
Pip запрашивает установку beautifulsoup4

Эти библиотеки помогут вам взаимодействовать с SuperPages и извлекать данные из HTML.

Выбор IDE

Для написания и запуска скриптов Python вам понадобится IDE. Вот несколько вариантов:

  • Код VS: Легкий редактор кода с хорошей поддержкой Python и множеством расширений.
  • PyCharm: Более полнофункциональная среда разработки Python с инструментами автодополнения кода и отладки.
  • Jupyter Notebook: Интерактивная среда для экспериментов и визуализации.

Выберите IDE, которая вам больше нравится. После настройки среды вы готовы начать писать код для скрапинга списков SuperPages.

Парсинг бизнес-каталогов SuperPages.

В этом разделе мы рассмотрим скрапинг списков SuperPages. Это включает в себя проверку HTML для поиска селекторов, написание скрапера, обработку пагинации для получения данных с нескольких страниц и сохранение данных в файле JSON для легкого доступа.

Проверка HTML на наличие селекторов

Прежде чем начать писать скрапер, нам нужно проверить страницу списков SuperPages, чтобы найти структуру HTML и селекторы CSS, которые содержат нужные нам данные. Вот как:

  1. Открыть страницу объявлений: Перейдите на страницу результатов поиска SuperPages (например, выполните поиск по запросу «Услуги на дому» в интересующем вас регионе).
  2. Осмотрите страницу: Щелкните правой кнопкой мыши на странице и выберите «Проверить» или нажмите Ctrl + Shift + I открыть Инструменты разработчика.
Скриншот проверки HTML-кода SuperPages Listings
  1. Найдите соответствующие элементы:
  • Наименование фирмы: Название компании находится в <a> тег с классом .business-name, и в этом <a>, само название находится в <span> тег.
  • Адрес: Адрес находится в <span> тег с классом .street-address.
  • Номер телефона: Номер телефона находится в <a> тег с классами .phone и .primary.
  • Ссылка на сайт: Если доступно, ссылка на веб-сайт компании находится в <a> тег с классом .weblink-button.
  • Ссылка на страницу подробностей: Ссылка на страницу с подробностями о компании находится в <a> тег с классом .business-name.

Посмотрите на любые другие данные, которые вы хотите извлечь, например, рейтинги или часы работы. Теперь вы готовы написать скрапер в следующем разделе.

Написание скрапера листингов

Теперь, когда у нас есть селекторы, мы можем написать скрапер. Мы будем использовать requests чтобы получить страницу и BeautifulSoup для разбора HTML и извлечения данных. Вот базовый код для извлечения списков:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
Импортировать Запросы
от bs4 Импортировать КрасивыйСуп
Импортировать JSON

# Функция для извлечения списков с одной страницы
защиту fetch_listings(номер страницы):
URL = f"https://www.superpages.com/search?search_terms=Home%20Services&geo_location_terms=Лос%20Анджелес%2C%20CA&page={номер_страницы}"
заголовки = {
«Пользователь-агент»: "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:131.0) Gecko/20100101 Firefox/131.0"
}
ответ = запросы.получить(url, заголовки=заголовки)
if ответ.status_code == 200:
суп = КрасивыйСуп(ответ.контент, "html.парсер")
списки = []

для бизнес in суп.выбрать("div.search-results > div.result"):
имя = бизнес.выберите_один("a.business-name span").текст.полоска() if бизнес.выберите_один("a.business-name span") еще ""
адрес = бизнес.выберите_один("span.улица-адрес").текст.полоска() if бизнес.выберите_один("span.улица-адрес") еще ""
телефон = бизнес.выберите_один("a.phone.primary").текст.полоска() if бизнес.выберите_один("a.phone.primary") еще ""
веб-сайт = бизнес.выберите_один("a.кнопка-ссылки")[href] if бизнес.выберите_один("a.кнопка-ссылки") еще ""
ссылка на подробную_страницу = «https://www.superpages.com» + бизнес.выберите_один("a.business-name")[href] if бизнес.выберите_один("a.business-name") еще ""

списки.добавить({
"название": имя,
"адрес": адрес,
"Телефон": телефон,
"веб-сайт": веб-сайт,
"ссылка_на_страницу_подробностей": ссылка на подробную_страницу
})

возвращают объявления
еще:
Распечатать(«Не удалось получить страницу».)
возвращают []

Этот код извлекает данные с указанной страницы результатов. Он извлекает название, адрес, номер телефона и веб-сайт каждой компании и сохраняет их в списке словарей.

Обработка нумерации страниц

Чтобы получить больше данных, нам нужно обработать пагинацию, чтобы скрапер мог пройти по нескольким страницам. SuperPages изменяет номер страницы в URL, поэтому легко добавить пагинацию, перебирая номера страниц. Мы можем создать функцию, подобную приведенной ниже, для скрапинга нескольких страниц:

1
2
3
4
5
6
7
8
# Функция для извлечения списков с нескольких страниц
защиту fetch_all_listings(всего_страниц):
все_списки = []
для страница in ассортимент(1, всего_страниц + 1):
Распечатать(f"Очистка страницы {страница}... ")
списки = fetch_listings(страница)
все_списки.расширить(списки)
возвращают все_списки

Теперь, fetch_all_listings() соберет данные с указанного количества страниц, вызвав fetch_listings() неоднократно.

Сохранение данных в файле JSON

После того, как мы собрали все данные, важно сохранить их в файле JSON для легкого доступа. Вот как сохранить данные в формате JSON:

1
2
3
4
5
# Функция сохранения данных листинга в файл JSON
защиту сохранить_в_json(данные, имя файла="superpages_listings.json"):
с открытый(имя файла, "ш") as файл:
json.dump(данные, файл, отступ=4)
Распечатать(f"Данные сохранены в {имя файла}")

Этот код сохраняет данные в файле с именем superpages_listings.json. Каждая запись будет содержать название компании, адрес, номер телефона и веб-сайт.

Полный пример кода

Ниже представлен полный код, объединяющий все шаги:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
Импортировать Запросы
от bs4 Импортировать КрасивыйСуп
Импортировать JSON

# Функция для извлечения списков с одной страницы
защиту fetch_listings(номер страницы):
URL = f"https://www.superpages.com/search?search_terms=Home%20Services&geo_location_terms=Лос%20Анджелес%2C%20CA&page={номер_страницы}"
заголовки = {
«Пользователь-агент»: "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:131.0) Gecko/20100101 Firefox/131.0"
}
ответ = запросы.получить(url, заголовки=заголовки)
if ответ.status_code == 200:
суп = КрасивыйСуп(ответ.контент, "html.парсер")
списки = []

для бизнес in суп.выбрать("div.search-results > div.result"):
имя = бизнес.выберите_один("a.business-name span").текст.полоска() if бизнес.выберите_один("a.business-name span") еще ""
адрес = бизнес.выберите_один("span.улица-адрес").текст.полоска() if бизнес.выберите_один("span.улица-адрес") еще ""
телефон = бизнес.выберите_один("a.phone.primary").текст.полоска() if бизнес.выберите_один("a.phone.primary") еще ""
веб-сайт = бизнес.выберите_один("a.кнопка-ссылки")[href] if бизнес.выберите_один("a.кнопка-ссылки") еще ""
ссылка на подробную_страницу = «https://www.superpages.com» + бизнес.выберите_один("a.business-name")[href] if бизнес.выберите_один("a.business-name") еще ""

списки.добавить({
"название": имя,
"адрес": адрес,
"Телефон": телефон,
"веб-сайт": веб-сайт,
"ссылка_на_страницу_подробностей": ссылка на подробную_страницу
})

возвращают объявления
еще:
Распечатать(«Не удалось получить страницу».)
возвращают []

# Функция для извлечения списков с нескольких страниц
защиту fetch_all_listings(всего_страниц):
все_списки = []
для страница in ассортимент(1, всего_страниц + 1):
Распечатать(f"Очистка страницы {страница}... ")
списки = fetch_listings(страница)
все_списки.расширить(списки)
возвращают все_списки

# Функция сохранения данных листинга в файл JSON
защиту сохранить_в_json(данные, имя файла="superpages_listings.json"):
с открытый(имя файла, "ш") as файл:
json.dump(данные, файл, отступ=4)
Распечатать(f"Данные сохранены в {имя файла}")

# Основная функция для запуска всего скрапера
защиту main():
всего_страниц = 5 # Определите количество страниц, которые вы хотите очистить
all_listings_data = fetch_all_listings(всего_страниц)
сохранить_в_json(все_списки_данных)

# Запустить основную функцию
if __имя__ == "__основной__":
Основной ()

Пример вывода:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

{
"название": «Вечнозеленые системы очистки»,
"адрес": "3325 Wilshire Blvd Ste 622, Лос-Анджелес, Калифорния 90010",
"Телефон": "213-375-1597Позвоните сейчас",
"веб-сайт": "https://www.evergreencleaningsystems.com",
"ссылка_на_страницу_подробностей": "https://www.superpages.com/los-angeles-ca/bpp/evergreen-cleaning-systems-540709574?lid=1002188497939"
},
{
"название": «Веселые девы»,
"адрес": "14741 Киттридж Стрит, Ван Найс, Калифорния 91405",
"Телефон": "818-465-8982Позвоните сейчас",
"веб-сайт": "http://www.merrymaids.com",
"ссылка_на_страницу_подробностей": "https://www.superpages.com/van-nuys-ca/bpp/merry-maids-542022905?lid=1002108319143"
},
{
"название": «Услуга по уборке в любой день и в любое время»,
"адрес": «27612 Cherry Creek Dr, Санта-Кларита, Калифорния 91354»,
"Телефон": "661-297-2702Позвоните сейчас",
"веб-сайт": "",
"ссылка_на_страницу_подробностей": "https://www.superpages.com/santa-clarita-ca/bpp/any-day-anytime-cleaning-service-513720439?lid=1002021283815"
},
{
"название": «Ультразвуковые слепые услуги»,
"адрес": «Шоссе Тихоокеанского побережья, 2049, Ste 217, Ломита, Калифорния 90717»,
"Телефон": "424-257-6603Позвоните сейчас",
"веб-сайт": "http://www.ultrasonicblindservices.com",
"ссылка_на_страницу_подробностей": "https://www.superpages.com/lomita-ca/bpp/ultrasonic-blind-services-514581803?lid=1002166431055"
},
.... более
]

Извлечение бизнес-данных из SuperPages

После сбора основной информации из бизнес-каталогов Superpages, пришло время углубиться в детали каждого предприятия, посетив его отдельную страницу. Этот шаг поможет вам собрать более подробную информацию, такую ​​как часы работы, отзывы клиентов и дополнительные контактные данные.

Проверка HTML на наличие селекторов

Сначала мы проверим HTML-структуру страницы сведений о бизнесе SuperPages, чтобы определить, где находится каждая часть информации. Вот как:

  1. Открыть страницу сведений о компании: Нажмите на название любой компании в результатах поиска, чтобы открыть страницу с ее подробностями.
  2. Осмотрите страницу: Щелкните правой кнопкой мыши и выберите «Проверить» или нажмите Ctrl + Shift + I открыть Инструменты разработчика.
Скриншот проверки HTML-данных SuperPages Business
  1. Найти ключевые элементы:
  • Наименование фирмы: Найдено в <h1> тег с классом .business-name.
  • Часы работы: Отображается в строках внутри .biz-hours таблица, где часы каждого дня указаны в <tr> с th.day-label и td.day-hours.
  • Контактная информация: Расположены в парах ключ-значение внутри .details-contact раздел, с каждой клавишей в <dt> теги и каждое значение в соответствующем <dd> теги.

Определив эти селекторы, вы готовы перейти к следующему шагу.

Написание скребка бизнес-данных

Теперь давайте используем эти селекторы в скрипте Python, чтобы извлечь конкретные данные из каждой бизнес-страницы. Сначала мы сделаем запрос к URL каждой бизнес-страницы. Затем мы используем BeautifulSoup для анализа и извлечения конкретной информации.

Вот код для извлечения данных о компании с каждой страницы:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
Импортировать Запросы
от bs4 Импортировать КрасивыйСуп
Импортировать JSON

защиту получить_бизнес_подробности(URL):
заголовки = {
«Пользователь-агент»: "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:131.0) Gecko/20100101 Firefox/131.0"
}
ответ = запросы.получить(url, заголовки=заголовки)
суп = КрасивыйСуп(ответ.контент, 'html.парсер')

# Извлечь название компании
имя = суп.найти('h1', класс_=«название-компании»).текст.полоска() if суп.найти('h1', класс_=«название-компании») еще ""

# Извлечь часы работы в парах ключ-значение
часы = {
строка.найти('й', класс_='day-label').text.strip(): строка.find('тд', класс_='день-часы').текст.полоска()
для строка in суп.выбрать('.biz-часы tr')
}

# Извлечь контактную информацию как пару ключ-значение
контактная_информация = {
dt.text.strip().replace(':', ''): dd.текст.полоска()
для дт, дд in застежка-молния(суп.выбрать('.details-contact dt'), суп.выбрать('.details-contact dd'))
}

# Сохраните данные в словаре
подробности = {
'Name': имя,
'часы': часы,
'контактная_информация': контактная_информация
}
возвращают подробнее

Сохранение данных в файле JSON

Чтобы облегчить работу с извлеченными данными в дальнейшем, мы сохраним данные о компании в файле JSON. Это позволит вам хранить и получать доступ к информации организованным образом.

1
2
3
защиту сохранить_в_json(данные, имя файла='business_details.json'):
с открытый(имя файла, 'w') as файл:
json.dump(данные, файл, отступ=4)

Полный пример кода

Вот полный код, который включает в себя все: от получения данных о компании до сохранения их в файле JSON.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
Импортировать Запросы
от bs4 Импортировать КрасивыйСуп
Импортировать JSON

защиту получить_бизнес_подробности(URL):
заголовки = {
«Пользователь-агент»: "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:131.0) Gecko/20100101 Firefox/131.0"
}
ответ = запросы.получить(url, заголовки=заголовки)
суп = КрасивыйСуп(ответ.контент, 'html.парсер')

# Извлечь название компании
имя = суп.найти('h1', класс_=«название-компании»).текст.полоска() if суп.найти('h1', класс_=«название-компании») еще ""

# Извлечь часы работы в парах ключ-значение
часы = {
строка.найти('й', класс_='day-label').text.strip(): строка.find('тд', класс_='день-часы').текст.полоска()
для строка in суп.выбрать('.biz-часы tr')
}

# Извлечь контактную информацию как пару ключ-значение
контактная_информация = {
dt.text.strip().replace(':', ''): dd.текст.полоска()
для дт, дд in застежка-молния(суп.выбрать('.details-contact dt'), суп.выбрать('.details-contact dd'))
}

# Сохраните данные в словаре
подробности = {
'Name': имя,
'часы': часы,
'контактная_информация': контактная_информация
}
возвращают подробнее

защиту сохранить_в_json(данные, имя файла='business_details.json'):
с открытый(имя файла, 'w') as файл:
json.dump(данные, файл, отступ=4)

защиту main():
URL-адреса = [
'https://www.superpages.com/los-angeles-ca/bpp/evergreen-cleaning-systems-540709574?lid=1002188497939',
'https://www.superpages.com/van-nuys-ca/bpp/merry-maids-542022905?lid=1002108319143',
# Добавьте сюда больше URL-адресов продуктов
]

все_бизнес_детали = []
для URL in URL-адреса:
business_details = получить_business_details(url)
все_бизнес_детали.append(бизнес_детали)

# Сохраните все данные в файле JSON
сохранить_в_json(все_бизнес_детали)

if __имя__ == '__главный__':
Основной ()

Пример вывода:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
[
{
"название": «Вечнозеленые системы очистки»,
"часы": {
"Пн - Пт": "7:00 утра - 8:00 вечера",
"Сб": "7:00 утра - 6:00 вечера",
"Солнце": "Закрыто"
},
"контактная_информация": {
"Телефон": "Главный - 213-375-1597",
"Адрес": "3325 Wilshire Blvd Ste 622 Лос-Анджелес, Калифорния 90010",
"Электронное письмо": "Связаться с нами",
"Связь": "https://www.evergreencleaningsystems.com"
}
},
{
"название": «Веселые девы»,
"часы": {
"Пн - Пт": "7:30 утра - 5:30 вечера",
"Сб": "7:00 утра - 3:00 вечера"
},
"контактная_информация": {
"Телефон": "Главный - 818-465-8982",
"Адрес": "14741 Киттридж Стрит Ван Найс, Калифорния 91405",
"Электронное письмо": "Связаться с нами",
"Связь": "http://www.merrymaids.com"
}
}
]

Оптимизация SuperPages Scraper с помощью Crawlbase Smart AI Proxy

Чтобы сделать наш скрапер SuperPages более надежным и быстрым, мы можем использовать Crawlbase Smart AI Proxy. Smart AI Proxy имеет ротацию IP-адресов и защиту от ботов, что важно для предотвращения превышения лимитов скорости или блокировки при длительном сборе данных.

Добавление Crawlbase Smart AI Proxy к нашей настройке легко. Подписаться on Crawlbase и получить API токен. Мы будем использовать Smart AI Proxy URL вместе с нашим токеном, чтобы запросы выглядели так, как будто они приходят из разных мест. Это поможет нам избежать обнаружения и обеспечить бесперебойный скрапинг.

Вот как мы можем изменить наш код для использования Crawlbase Smart AI Proxy:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
Импортировать Запросы
от bs4 Импортировать КрасивыйСуп

# Заменять _USER_TOKEN_ с вашей Crawlbase Токены
proxy_url = 'http://_USER_TOKEN_:@smartproxy.crawlbase.com:8012'

защиту получить_бизнес_подробности(URL):
заголовки = {
«Пользователь-агент»: "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:131.0) Gecko/20100101 Firefox/131.0"
}
прокси = {"http": proxy_url, "https": proxy_url}
ответ = запросы.получить(url=url, headers=заголовки, proxy=прокси, verify=Ложь)
суп = КрасивыйСуп(ответ.контент, 'html.парсер')

# Извлечь название компании
имя = суп.найти('h1', класс_=«название-компании»).текст.полоска() if суп.найти('h1', класс_=«название-компании») еще ""

# Извлечь часы работы в парах ключ-значение
часы = {
строка.найти('й', класс_='day-label').text.strip(): строка.find('тд', класс_='день-часы').текст.полоска()
для строка in суп.выбрать('.biz-часы tr')
}

# Извлечь контактную информацию как пару ключ-значение
контактная_информация = {
dt.text.strip().replace(':', ''): dd.текст.полоска()
для дт, дд in застежка-молния(суп.выбрать('.details-contact dt'), суп.выбрать('.details-contact dd'))
}

# Сохраните данные в словаре
подробности = {
'Name': имя,
'часы': часы,
'контактная_информация': контактная_информация
}
возвращают подробнее

Направляя наши запросы через Crawlbase, мы добавляем необходимую ротацию IP и меры по борьбе с ботами, которые повышают надежность и масштабируемость нашего скрапера. Эта настройка идеально подходит для сбора больших объемов данных из SuperPages без перерывов или блокировок, сохраняя эффективность и производительность скрапера.

Заключение

В этом блоге мы рассказали, как скрапинговать SuperPages для получения лидов. Мы научились извлекать бизнес-данные, такие как имена, адреса и номера телефонов. Мы использовали Requests и BeautifulSoup для создания простого скрапера для получения этих данных.

Мы также рассмотрели, как обрабатывать пагинацию, чтобы получить все списки на сайте. Используя Crawlbase Smart AI Proxyмы сделали наш парсер более надежным и эффективным, чтобы не возникало проблем с блокировкой во время сбора данных.

Следуя шагам, описанным в этом руководстве, вы можете создать свой парсер и начать извлекать важные данные. Если вы хотите больше заниматься парсингом веб-сайтов, ознакомьтесь с нашими руководствами по парсингу других ключевых веб-сайтов.

📜 Легко извлекайте данные о продуктах Costco
📜 Как извлечь данные из Houzz
📜 Как соскрести Tokopedia
📜 Извлечение данных OpenSea с помощью Python
📜 Как извлечь данные из Gumtree за несколько простых шагов

Если у вас есть какие-либо вопросы или пожелания, наш команда поддержки здесь, чтобы помочь вам. Счастливого скрапинга!

Часто задаваемые вопросы (FAQ)

В: Как избежать блокировки при сборе данных из бизнес-каталога SuperPages?

Чтобы избежать блокировки, добавьте задержки между запросами, ограничьте частоту запросов и чередуйте IP-адреса. Такие инструменты, как Crawlbase Smart AI Proxy может упростить этот процесс, чередуя IP-адреса для вас, чтобы ваш парсер работал гладко. Избегайте слишком частых запросов и следуйте хорошим практикам парсинга.

В. Почему я не получаю результатов при попытке извлечь данные из SuperPages?

Если ваш скрапер не возвращает результаты, проверьте, соответствуют ли ваши селекторы HTML структуре SuperPages. Иногда незначительные изменения в структуре HTML веб-сайта требуют обновления селекторов. Также убедитесь, что вы правильно обрабатываете пагинацию, если пытаетесь получить несколько страниц результатов.

В. Как сохранить извлеченные данные в форматах, отличных от JSON?

Если вам нужны ваши данные в других форматах, таких как CSV или Excel, вы можете легко изменить скрипт. Для CSV используйте Python's csv Модуль для сохранения данных в строках. Для Excel, pandas библиотека имеет .to_excel() Функция, которая хорошо работает. Эта гибкость может помочь вам анализировать или делиться данными таким образом, который соответствует вашим потребностям.