Все началось с выпуска первой версии ChatGPT в 2022 году. С тех пор использование ИИ росло экспоненциально, и все больше людей интегрировали его в свои ежедневные задачи на работе и в личной жизни. На данный момент, если вы не пользуетесь этим, вы определенно многое упускаете.
Итак, в этом блоге мы продемонстрируем несколько из множества вещей, которых вы можете достичь, если объедините Crawlbase Скрапинг выходных данных с помощью генеративных ИИ, таких как ChatGPT. Мы покажем вам, как использовать его возможности для автоматического суммирования веб-данных с помощью ИИ и создания визуализаций, таких как круговые диаграммы, столбчатые диаграммы и линейные графики, для вашего рабочего процесса по отчетности данных.
Содержание
Генеративный ИИ и его возможности
Генеративный ИИ не просто анализирует или организует данные; он может выполнять гораздо более сложные задачи, например, создавать новый контент в различных формах, включая текст, изображения, код, аудио и даже видео. Это возможно, потому что он учится и распознает структуры и шаблоны из данных, на которых он обучен, что позволяет ему генерировать результаты, которые напоминают результаты реального человека.
Традиционные веб-скрейперы, с другой стороны, полагаются на статические правила и селекторы, такие как классы и идентификаторы CSS, для извлечения данных с веб-сайтов. Эти основанные на правилах инструменты часто испытывают трудности с динамическими сайтами, нагруженными JavaScript, и требуют частой ручной настройки. Напротив, генеративный ИИ и инструменты на базе ИИ могут адаптироваться к изменяющимся структурам веб-сайтов и более эффективно обрабатывать динамический контент, преодолевая ограничения традиционных веб-скрейперов.
Например, если его обучить на больших объемах текста, он может писать записи в блоге, резюмировать статьи, отвечать на вопросы или даже рассказывать истории и поэмы. Если его обучить на изображениях, он может создавать произведения искусства, которые могут соперничать с произведениями настоящих художников. Он может создавать реалистичные фотографии людей или объектов, которые на самом деле не существуют.
Генеративный ИИ уже используется во многих областях. Маркетологи используют его для генерации идей контента, а разработчики — для написания и улучшения кода. Исследователи используют его для изучения сложных проблем или моделирования данных, когда реальные данные недоступны.
Что действительно захватывающе, так это то, как легко ИИ теперь интегрируется с Python и другими инструментами кодирования. Всего с несколькими строками скрипта вы можете заставить ИИ не только суммировать ваши данные, но и поручить ИИ строить столбчатые диаграммы, генерировать круговые диаграммы или автоматизировать рутинный анализ. Это превращает ИИ из виртуального помощника в полноценного аналитика данных, особенно в сочетании с Crawlbase.
Зачем обобщать веб-данные с помощью ИИ
Если вы просматриваете только небольшой объем веб-данных, вы, возможно, сможете обобщить их самостоятельно без особых проблем. Однако, как только данные становятся больше или сложнее, и вы имеете дело с большим количеством веб-страниц, делать все это вручную становится утомительно, отнимает много времени, и начинают появляться ошибки. С достижениями в области генеративного ИИ вам больше не придется проходить через все эти трудности. Преимущества довольно сложно игнорировать.
- Скорость и масштаб: ИИ может пройти через тысячи точек данных всего за несколько секунд. То, что заняло бы у вас или даже у целой команды часы или целый день, может быть сделано практически мгновенно.
- Консистенция: Люди могут уставать, совершать ошибки и иногда видеть одни и те же данные по-разному. ИИ применяет один и тот же алгоритм и критерии к каждому документу, поэтому ваши результаты остаются неизменными независимо от того, как часто вы запускаете анализ.
- Распознавание шаблонов: Модели ИИ не только быстры, но и отлично распознают закономерности. Они могут находить тенденции, закономерности или выбросы в ваших данных, которые вы, вероятно, не заметили бы сразу. Например, они могут заметить небольшое изменение в настроении клиентов до того, как это повлияет на ваш продукт.
- Автоматическая отчетность: Одно из самых больших преимуществ заключается в том, что ИИ может составлять понятные сводки и генерировать простые для понимания визуальные материалы, такие как диаграммы и графики. Таким образом, вы можете сразу увидеть, что происходит с вашими данными.
Независимо от вашей области, если вам нужно извлечь ценную информацию из большого объема веб-данных, не тратя бесконечное количество часов на электронные таблицы, использование ИИ для обобщения ваших данных является инновационным решением. ИИ может автоматически определять и извлекать соответствующие данные из больших наборов данных, позволяя вам сосредоточиться исключительно на наиболее значимой информации. С помощью обобщений и визуализаций, созданных ИИ, вы можете быстро преобразовать необработанные данные в действенные идеи.
Как комбинировать Crawlbase с генеративным ИИ
ИИ хорош настолько, насколько хороши данные, которые ему были предоставлены. Вот почему Crawlbase и генеративный ИИ, такой как ChatGPT, идеально дополняют друг друга. Crawlbase позволяет вам собирать веб-данные в масштабе, будь то информация о продукте, обзоры или любой общедоступный контент в Интернете. Инструменты для сбора веб-данных, особенно инструменты для сбора веб-данных на основе ИИ, такие как Crawlbase, разработаны для эффективного извлечения данных из широкого спектра веб-сайтов. Подумайте о нем как о движке, который собирает всю информацию, в то время как ChatGPT — это мозг, который ее осмысливает.
Объединив эти два фактора, вы получите комплексную систему, способную делать удивительные вещи:
- Crawlbase извлекает необходимые вам данные — четко, структурировано и быстро.
- Скрипты Python организуют эти данные в нечто пригодное для использования, например Панды DataFrame.
- Затем ChatGPT (или любой LLM) анализирует все это и предоставляет вам сводку на естественном языке, анализ тенденций или даже отформатированные отчеты.
- Наконец, вы можете создавать визуальные эффекты и экспортировать файлы (диаграммы, графики, CSV-файлы) с помощью всего лишь нескольких строк кода.
Веб-скрейперы на базе искусственного интеллекта способны обрабатывать сложные структуры веб-сайтов и автоматизировать процесс извлечения данных, что упрощает извлечение данных с сайтов, использующих динамический контент или меры по борьбе со скрейпингом.
Если вы умеете писать скрипты на Python, вы можете начать использовать Crawlbase и ChatGPT вместе, чтобы автоматизировать идеи, которые раньше требовали целой команды. Вот как это можно сделать.
Настройка Crawlbase и аккаунт OpenAI
Шаг 1. Начните с создание бесплатной учетной записи on Crawlbase и войдя в свою панель управления. Как только вы войдете, вы автоматически получите 1,000 бесплатных запросов API, что позволит вам начать тестирование прямо сейчас. Или перед тестированием, добавьте ваши платежные реквизиты за дополнительные 9,000 бесплатных кредитов.
Шаг 2. Перейти к Документация по счету и скопируйте свой токен обычного запроса, так как он понадобится вам позже, когда мы начнем писать код.
Шаг 3. Зарегистрируйтесь или войдите в систему на OpenAI. Они предлагают бесплатные пробные кредиты при первой регистрации, но это предложение не гарантируется и может быть изменено.
Шаг 4. В разделе «Организация» в левой части экрана нажмите API ключи и вы должны увидеть там опцию «Создать новый секретный ключ».
Примечание: Если вы не получили никаких бесплатных кредитов, обратитесь в свою компанию или организацию, чтобы узнать, есть ли у них платная учетная запись OpenAI и могут ли они предоставить вам ключ API.
Подготовьте среду Python
С вашим Crawlbase Учетные данные готовы, давайте сосредоточимся на настройке среды кодирования. Следуйте инструкциям ниже.
Шаг 1. Загрузите и установите Python 3 с сайта python.org.
Шаг 2. Выберите место на своем компьютере и создайте новую папку для хранения всех файлов этого проекта.
Шаг 3. Настройте зависимости. Внутри папки проекта создайте файл с именем requirements.txt и добавьте следующие строки:
1 | Запросы |
Шаг 4. Откройте терминал или командную строку, перейдите в папку вашего проекта и выполните:
1 | python -m pip install -r требования.txt |
Это установит необходимые библиотеки для сбора данных, анализа, визуализации и работы с ChatGPT.
Извлечение данных с помощью Crawlbase
В этом примере мы будем использовать Crawlbase для получения списка самых продаваемых электронных товаров на Amazon.
Мы будем использовать Бестселлеры Amazon Скребок, который возвращает чистый, структурированный JSON, так что вам не придется беспокоиться о запутанном парсинге HTML.
Шаг 1. Создайте новый файл с именем web_data.py. Этот скрипт будет отвечать за получение данных о продуктах и обработку пагинации.
Шаг 2. Сохраните следующий код внутри web_data.py:
1 | от запросы.исключения Импортировать ЗапросИсключения |
Шаг 3. Чтобы запустить скрипт, просто откройте терминал, перейдите в папку проекта и выполните:
1 | python web_data.py |
Через несколько секунд вы увидите JSON-массив продуктов, распечатанный на вашем терминале. Вот сокращенный пример того, как это выглядит:
1 | [ |
Теперь эти данные готовы к передаче в Pandas DataFrame, обобщению с помощью ChatGPT и визуализации с помощью диаграмм. Мы покажем вам, как это сделать, в следующем разделе.
Использование ChatGPT с библиотеками Python
Наша следующая цель — очистить и организовать необработанные данные о продуктах, которые мы собрали с помощью Crawlbase. Для этого мы воспользуемся библиотекой pandas, которая упрощает организацию данных в структурированный формат, позволяя нам эффективно фильтровать, сортировать, извлекать значения и анализировать данные с помощью ChatGPT.
Шаг 1. Возьмите JSON-код продукта, возвращенный Crawlbase и загрузить его в Pandas DataFrame. Создайте новый файл с именем data_frame.py и добавьте следующий код:
1 | от сканировать_веб_данные Импортировать ползать_amazon_bestsellers_products |
Этот скрипт извлекает данные о продукте из Crawlbase, преобразует рейтинг отзыва и цену в числовые значения и добавляет простой столбец категории (который вы сможете изменить позже).
Шаг 2. Откройте терминал и выполните:
1 | python data_frame.py |
Вы увидите структурированную таблицу, напечатанную на консоли. Вот пример фрагмента вывода:

Шаг 3. Используйте модель OpenAI GPT для анализа и обобщения тенденций из ваших данных. Создайте новый файл с именем summary.py и вставьте следующий код:
1 | от openai Импортировать OpenAI, OpenAIError, APIStatusError, RateLimitError, BadRequestError, APIConnectionError, Timeout |
Не забудьте заменить <OpenAI API Key> с вашим реальным ключом API от OpenAI.
Шаг 4. В терминале выполните:
1 | python summary.py |
Результат будет выглядеть примерно так:
1 | Краткое изложение тенденций, созданное с помощью ИИ: |
Как создавать визуализации на основе веб-данных ИИ
После структурирования данных о наших продуктах в Pandas DataFrame мы можем сделать еще один шаг вперед, создав визуализации, которые выделяют тенденции, закономерности и выбросы в более удобной форме.
Для нашей следующей цели мы будем использовать Библиотека Python Matplotlib для создания диаграмм визуализации данных на основе данных о бестселлерах Amazon, которые мы собрали ранее.
Шаг 1. Создайте новый файл и назовите его visualization.py, затем добавьте следующий код:
1 | от кадр_данных Импортировать генерировать_фрейм_данных |
Код в visualization.py состоит из трех частей:
- Он загружает данные о продукте в Pandas DataFrame.
- Создает две диаграммы: столбчатую диаграмму, показывающую количество отзывов на каждый продукт, и диаграмму рассеяния, показывающую взаимосвязь между оценками, объемом отзывов и ценой.
- Сохраняет данные в виде CSV-файла для будущего использования или составления отчетов.
Шаг 2. Запустите скрипт.
1 | визуализация python.py |
Это сгенерирует три результата:
- reviews_bar_chart.png

- рейтинг_против_отзывов.png

- amazon_best_sellers_summary.csv

Поздравляем! Вы успешно создали сводки и диаграммы, которые облегчат выявление тенденций, сравнение производительности и подкрепление вашего анализа понятными визуальными эффектами на основе данных.
Примечание: Вы можете получить доступ ко всей кодовой базе на GitHub.
Дополнительные советы по автоматизации отчетности по данным
Расписание автоматизированного сбора данных
Используйте такой инструмент, как cron (на Mac или Linux) или Task Scheduler (на Windows). Таким образом, ваш код может запускаться ежедневно, еженедельно или когда вам удобно, без необходимости пошевелить пальцем. Отлично, если вы интересуетесь тенденциями или хотите видеть свежие данные каждое утро.
Используйте заранее заданные инструкции ИИ
Вместо того, чтобы каждый раз вводить новую подсказку, сохраните в своем скрипте повторно используемые подсказки ИИ. Это помогает генерировать согласованные сводки, отчеты о тенденциях или даже объяснения на простом английском языке, которые могут читать нетехнические члены команды.
Добавить проверки качества данных
Перед сохранением или визуализацией данных всегда проводите несколько проверок безопасности.
- Ваш список товаров действительно загрузился или он пуст?
- Отсутствуют ли важные цифры, такие как цены или рейтинги?
- Данные меньше обычного?
Веб-сайты часто меняют свои макеты без предупреждения. Эти проверки могут спасти вас от многочасовой путаницы.
Воспользуйтесь всеми преимуществами Crawlbase Особенности
Команда Crawling API от Crawlbase надежный инструмент для извлечения данных, гарантирующий надежные и точные результаты для ваших проектов. Убедитесь, что вы используете следующие преимущества:
- Обычные и JavaScript запросы - Вы можете использовать два типа токенов. Используйте токен Normal для веб-сайтов, которые не используют JavaScript для отображения контента. Используйте токен JavaScript, когда нужный вам контент генерируется с помощью JavaScript, либо потому, что он создан с использованием фреймворков, таких как React или Angular, либо потому, что данные появляются только после полной загрузки страницы в браузере. Crawlbase может обрабатывать веб-сайты с большим объемом JavaScript, что делает его пригодным для извлечения данных из динамических страниц, насыщенных JavaScript.
- Сборщики данных - В этом блоге мы использовали 'amazon-best-sellers'. Но Crawlbase предлагает гораздо больше скраперов, адаптированных под конкретные веб-сайты и типы данных. Если вы планируете расширить этот проект на другие платформы, изучите полный список доступных сборщики данных на Crawlbase панель приборов.
- Получите дополнительные бесплатные кредиты - Как упоминалось ранее, вы можете получить в общей сложности 10,000 XNUMX кредитов бесплатно, зарегистрировавшись и немедленно добавление ваших платежных реквизитов. Это отличный способ исследовать Crawlbaseвесь потенциал и провести масштабные испытания, прежде чем принимать какие-либо долгосрочные обязательства.
Для корпоративных или сложных задач по парсингу доступна специализированная поддержка, которая поможет с настройкой, индивидуальными решениями и текущим обслуживанием. Зарегистрируйте Crawlbase сейчас!
Часто задаваемые вопросы (FAQ)
В: Нужен ли мне платный OpenAI или Crawlbase запись?
A: Обе платформы предлагают пользователям бесплатный уровень, чтобы опробовать их услуги. Для более высоких лимитов, неограниченного количества страниц или расширенных функций вы можете перейти на платные планы, которые включают индивидуальные варианты ценообразования, адаптированные к потребностям предприятия.
В: Могу ли я парсить сайты, отличные от Amazon?
A: Да. Crawlbase поддерживает скрапинг любой публичной веб-страницы. Вы можете изменить параметр url и даже настроить стратегию скрапинга в зависимости от структуры сайта.
В: Что делать, если я хочу обобщить данные, не связанные с продуктом, например записи в блогах или обзоры?
A: Это тоже работает. Если вы можете извлечь текст, вы можете загрузить его в ChatGPT и получить резюме, основные моменты или предложения по категориям.
В: Могу ли я использовать это в деловой обстановке?
A: Да, эта настройка идеально подходит для различных бизнес-кейсов, таких как маркетинговые исследования, конкурентный анализ, мониторинг цен, отслеживание цен конкурентов, анализ стратегий ценообразования, мониторинг вакансий и извлечение данных из поиска Google и Google Maps. Веб-скрейперы и аналитики данных используют эти инструменты веб-скрейпинга для автоматизации сложных рабочих процессов, навигации по сложным веб-сайтам и управления крупномасштабными проектами по сбору данных.
В: Какие технические функции и технологии поддерживаются для веб-скрапинга с использованием ИИ?
A: Эти платформы используют веб-технологии ИИ, включая машинное обучение, большие языковые модели и обработку естественного языка, для автоматизации процесса извлечения и адаптации к изменениям на веб-сайте. Они могут извлекать данные, эмулировать поведение человека для обхода блокировки IP и поддерживать автоматическое извлечение данных из нескольких URL-адресов. Crawlbase предназначен для обработки данных со сложных веб-сайтов, управления сложными рабочими процессами и вывода структурированных форматов для дальнейшего анализа.











