Сбор, анализ и хранение данных не обязательно должны быть сложными. Если вы объедините Crawlbase Благодаря GoogleSQL и BigQuery подключение веб-данных напрямую к вашей аналитике становится гораздо проще. В этом руководстве мы покажем вам пошаговую инструкцию по настройке. Crawlbase, выберите необходимые данные и загрузите их в Google Cloud SQL, чтобы вы могли с легкостью задавать более разумные вопросы и получать четкие ответы.

Что такое GoogleSQL?

GoogleSQL Является частью управляемых сервисов баз данных SQL от Google Cloud, таких как Cloud SQL или BigQuery. Представьте, что вам нужно безопасное место в облаке для ваших данных. Google Cloud SQL — это, по сути, хранилище для таких баз данных, как MySQL, PostgreSQL и SQL Server, управляемых Google, поэтому вам не нужно беспокоиться об оборудовании или сложной настройке. Вы загружаете данные, а Google берёт на себя большую часть работы на сервере.

Если вы слышите упоминание GoogleSQL, часто речь идёт о разновидности языка SQL, которую BigQuery использует для срезов больших данных. Таким образом, говоря простым языком, «Google SQL» обычно означает использование облачных инструментов Google для хранения данных и выполнения SQL-запросов без необходимости управления собственными серверами или установки чего-либо сложного. Вы просто подключаетесь, пишете запросы, а Google делает всё остальное.

Шаги по использованию GoogleSQL в Crawlbase

Вот следующие шаги для использования Google SQL в Crawlbase Окружающая среда:

Шаг 1. Настройка Crawlbase и среда Python

Теперь, когда ваша среда готова, давайте получим реальные данные для работы. Первым делом нужно обеспечить безопасность. Crawlbase Учётная запись. Если у вас ещё нет учётной записи, следуйте инструкциям ниже.

  1. Создать аккаунт на Crawlbase и войти.
  2. После регистрации вы получите 1,000 бесплатных запросов. Чтобы получить ещё 9,000 бесплатных запросов, просто добавьте ваши платежные реквизиты перед использованием любого из бесплатных пробных кредитов.
  3. Найдите и скопируйте ваш Crawling API Обычный запрос токенов.

Далее нам нужно убедиться, что совместимая версия Python и библиотека Requests установлены корректно. Для этого выполните следующие шаги.

  1. Установите Python 3 на вашем компьютере
  2. Создайте корневой каталог в нашей файловой системе.
  3. Перейдите в свой терминал и запустите pip install requests

Шаг 2: Сканирование данных для импорта в базу данных

Следующий шаг — сбор данных для импорта в базу данных. Ниже представлен простой скрипт на Python, использующий Crawling API для сбора данных о товарах Amazon и сохранения их в CSV-файл. Скопируйте скрипт ниже и сохраните его в crawl_data.py

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
от запросы.исключения Импортировать ЗапросИсключения
Импортировать Запросы
Импортировать JSON
Импортировать CSV

защиту crawl_data(amazon_serp_url: ул) -> ул:
СКРЕБОК = "amazon-serp"
API_ТОКЕН = "<Crawlbase Обычные запросы токенов>" #<- замените на ваш реальный токен
API_ENDPOINT = "https://api.crawlbase.com/"

# Подготовьте параметры запроса API
параметры = {
"токен": API_ТОКЕН,
"URL": amazon_serp_url, # Целевой URL поиска Amazon
"скребок": СКРЕБОК
}

# Сделайте запрос к API Crawlbase
ответ = запросы.получить(API_ENDPOINT, параметры=параметры)

# Вызвать исключение для неверных кодов статуса HTTP
ответ.raise_for_status()

# Верните ответ JSON в виде текста
возвращают ответ.текст

защиту сохранить_в_csv(данные, имя файла="data.csv"):
стараться:
# Извлечь продукты из данных
продукты = данные.получить('тело', {}).получать('продукты', [])

if не продукты:
Распечатать(«В данных не найдено ни одного продукта»)
возвращают

# Определите столбцы CSV на основе структуры продукта
имена полей = [
'Name', 'rawPrice', 'валюта', 'предложение',
«Отзыв клиента», 'customerReviewCount', «shippingMessage»,
'асин', 'образ', 'URL-адрес', 'isPrime', «спонсируемая реклама», «couponInfo»
]

# Записать в CSV-файл
с открытый(имя файла, 'w', новая строка='', кодировка='utf-8') as CSV-файл:
writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

# Запишите каждый продукт (без заголовка)
для ПРОДУКТЫ in продукты:
# Очистка данных для CSV (обработка отсутствующих полей)
очищенный_продукт = {}
для поле in имена полей:
значение = продукт.получить(поле, '')
# Преобразование логических значений в строку
if это экземпляр(ценить, BOOL):
значение = ул(значение)
# Обработка полей списка (например, badgesInfo)
Элиф это экземпляр(ценить, список):
значение = ''.присоединиться(ул(вещь) для пункт in стоимость) if ценность еще ''
очищенный_продукт[поле] = значение

writer.writerow(очищенный_продукт)

Распечатать(f"Успешно сохранено {только(продукты)} продукты для {имя файла}")

кроме Исключение as e:
Распечатать(f"Ошибка сохранения в CSV: {е}")

if __имя__ == "__основной__":
стараться:
json_data = crawl_data("https://www.amazon.com/s?k=iPhone+16")
parsed_json = json.loads(json_data)
Распечатать(json.dumps(parsed_json, indent=2))

# Сохранить в CSV
save_to_csv(parsed_json, "data.csv")

кроме json.JSONDecodeError as e:
Распечатать(f"Ошибка при разборе JSON: {е}")
Распечатать(«Необработанный ответ:»)
Распечатать(crawl_data())

Чтобы запустить скрипт, просто используйте команду ниже:

1
python crawl_data.py

Это создаст CSV-файл с именем data.csv, который мы будем использовать в следующем разделе.

Шаг 3: Настройка базы данных Google Cloud SQL

Прежде чем анализировать собранные данные, необходимо настроить базу данных Cloud SQL в Google Cloud. Вот как создать экземпляр, добавить базу данных и настроить таблицу, в которую будут помещены собранные данные о товарах Amazon.

  1. Перейдите на Консоль Google Cloud.
  2. Создание нового проекта или выберите существующий.
  3. Вам нужно включить биллинг в вашем проекте по использованию Cloud SQL.
  4. Включите Cloud SQL:
  • Перейдите на сайт Консоль Google Cloud
  • Перейдите в раздел «API и службы» > «Панель управления».
  • Нажмите «Включить API и службы».
  • Найдите «Cloud SQL», выберите его и нажмите «Включить».
  1. Создайте экземпляр Cloud SQL:
  • Перейдите на сайт Экземпляры облачного SQL страница в консоли Google Cloud.
  • Нажмите «Создать экземпляр».
  • Выберите СУБД (MySQL, PostgreSQL или SQL Server), на этот раз мы «Выбираем PostgreSQL».
  • Настройте параметры экземпляра (ID экземпляра, регион и т. д.).
  • Установите пароль для пользователя root.
  • Нажмите «Создать экземпляр».
  1. Создать базу данных:
  • Перейдите на сайт Экземпляры облачного SQL стр.
  • Выберите экземпляр, который вы хотите настроить.
  • Перейдите на вкладку «Базы данных».
  • Создайте базу данных с названием «analytics_example_db».
  1. Создайте таблицу:
  • Перейдите на страницу Экземпляры Cloud SQL.
  • Выберите экземпляр, который вы хотите настроить.
  • Перейдите на вкладку «Cloud SQL Studio».
  • Войти в базу данных «analytics_example_db»
  • Нажмите [+], чтобы создать новую вкладку.
  • Вставьте скрипты SQL ниже и нажмите «Выполнить».
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
СОЗДАТЬ ТАБЛИЦУ "публичный"."amazon_products" (
"имя" ТЕКСТ,
"цена" ДЕСЯТИЧНЫЙ(10, 2),
"валюта" ВАРЧАР(10),
"предложение" ВАРЧАР(255),
"customerReview" ВАРЧАР(255),
"customerReviewCount" ВАРЧАР(255),
"shippingMessage" ВАРЧАР(255),
"асин" ВАРЧАР(255),
"изображение" ТЕКСТ,
ТЕКСТ "url",
"isPrime" БУЛЕВЫ,
"спонсируемая реклама" БУЛЕВЫ,
"couponInfo" ВАРЧАР(255)
);

Это создаст новую таблицу с именем amazon_products

Изображение Google SQL UI

Шаг 4: Импортируйте просканированные данные в Crawlbase База данных

Последний шаг — импортировать скопированный CSV-файл в базу данных Cloud SQL, когда таблица готова. Выполните следующие шаги, чтобы загрузить данные и сделать их доступными для запросов с помощью Google SQL.

  1. Выберите экземпляр Cloud SQL:
  • Перейдите на сайт Страница «Экземпляры облачного SQL».
  • Выберите экземпляр, который вы хотите настроить.
  • Перейти к Обзор → Импорт
  • Выберите CSV в качестве формата файла
  • Загрузите файлы со своего компьютера в качестве исходного файла
  • Перейдите к data.csv подползли сверху.
  • Создайте уникальное имя расположения облачного хранилища.
  • Загрузить data.csv к ведру.
  • Выберите analytics_example_db как база данных назначения
  • Установить имя таблицы amazon_products
  • Нажмите Импорт
Изображение, показывающее табличные данные

Вы успешно импортировали собранные данные в Cloud SQL. Теперь, когда всё готово, вы можете начать выполнять запросы и исследовать данные с помощью Google SQL, чтобы получить ценную информацию.

Дайте Crawlbase попробуйте сейчас и посмотрите, чего вы сможете достичь!

Часто задаваемые вопросы (FAQ):

В. Нужно ли платить за использование Google Cloud SQL?

A. Для использования Cloud SQL необходимо включить биллинг, но есть и хорошая новость: Google предлагает бесплатные кредиты для новых пользователей. Вы можете попробовать сервис, не тратя деньги прямо сейчас.

В. Могу ли я использовать этот метод для импорта данных с других сайтов, не только с Amazon?

A. Да, эта настройка применима не только к Amazon. Вы можете собирать данные с любого публичного сайта, используя Crawlbase, затем выполните те же шаги для его сохранения и анализа в Google Cloud SQL.

В. Что произойдет, если формат моих данных изменится позже?

A. Не беспокойтесь! Если ваши данные из скопированных файлов изменятся (например, добавятся новые поля), вы можете легко обновить таблицу Cloud SQL. Просто используйте ALTER TABLE команда для добавления новых столбцов с сохранением безопасности существующих данных.