TechCrunch — ведущий источник технологических новостей, охватывающий все: от новых стартапов до крупных технологических гигантов. Имея миллионы читателей по всему миру, TechCrunch публикует статьи, которые влияют на тенденции отрасли и формируют бизнес-стратегии. Сбор данных из TechCrunch может предоставить ценную информацию о последних технологических тенденциях, новостях стартапов и отраслевых разработках.
В этом блоге мы проведем вас через процесс парсинга TechCrunch с помощью Python. Мы рассмотрим все, от понимания структуры веб-сайта до написания веб-парсера, который может эффективно собирать данные из статей TechCrunch. Кроме того, мы рассмотрим, как оптимизировать процесс парсинга с помощью Crawlbase Crawling API для обхода антискрейпинговых мер. Начнем!
Вот краткое руководство по извлечению данных из TechCrunch:
Оглавление
- Преимущества парсинга TechCrunch
- Ключевые данные для извлечения
- Установка Python
- Настройка виртуальной среды
- Установка необходимых библиотек
- Выбор IDE
- Проверка структуры HTML
- Написание листингового скрейпера TechCrunch
- Обработка нумерации страниц
- Хранение данных в CSV-файле
- Полный код
- Проверка структуры HTML
- Написание страницы статьи TechCrunch
- Хранение данных в CSV-файле
- Полный код
- Обход проблем со скрапингом
- Реализация Crawlbase в вашем скребке
Зачем собирать данные TechCrunch?
TechCrunch — один из ведущих источников технологических новостей и аналитики, предоставляющий ценную информацию о последних разработках в технологической отрасли. Ниже приведены некоторые преимущества парсинга TechCrunch и тип информации, которую вы можете получить из него.
Преимущества парсинга TechCrunch
Парсинг TechCrunch может дать несколько преимуществ:

- Оставаться в курсе: Собирая данные TechCrunch, вы можете получить самые последние технологические тенденции, запуски стартапов и изменения в отрасли. Это помогает организациям и отдельным лицам оставаться впереди конкурентов на постоянно меняющемся рынке.
- Исследования рынка: Собирая данные TechCrunch, вы можете провести тщательное исследование рынка. Анализируя статьи и пресс-релизы, становится легко определить новые тенденции, предпочтения клиентов и стратегии конкурентов.
- Тенденции и голоса: Изучая статьи TechCrunch, можно будет определить темы, которые набирают популярность, а также определить тех людей, которые имеют влиятельные голоса в области технологий. Это поможет вам определить потенциальных партнеров, конкурентов или даже лидеров рынка.
- Принятие решений на основе данных: Доступность данных TechCrunch позволяет фирмам принимать бизнес-решения на основе текущих тенденций в отрасли. Если вы планируете запустить новый продукт или выйти на другой рынок, информация, предоставленная TechCrunch, может быть очень полезна для принятия решений.
Ключевые данные для извлечения
При сборе данных TechCrunch вам, возможно, захочется сосредоточиться на нескольких ключевых моментах:
- Названия статей и авторы: Понимание того, какие темы освещаются и кто пишет эти статьи, даст вам представление о тенденциях в отрасли и влиятельных мнениях.
- Даты публикации: Отслеживание времени публикации статей может помочь вам своевременно выявлять тенденции и то, как они развиваются с течением времени.
- Краткое содержание: Извлечение кратких изложений или ключевых моментов из этих статей может помочь быстро выявить основные идеи, не читая их полностью.
- Теги и категории: Знание того, как классифицируются статьи, дает более глубокое представление о том, какие проблемы чаще всего затрагивает TechCrunch, а также показывает, какое место эти проблемы занимают в более крупных отраслевых событиях.
- Упоминания компании: Определение наиболее часто упоминаемых компаний может дать представление о лидерах рынка и потенциальных инвестиционных возможностях.
Понимая эти преимущества и ключевые данные, вы сможете эффективно использовать данные TechCrunch, чтобы получить конкурентное преимущество и расширить свои знания в сфере технологий.
Настройка среды Python
Для эффективного сбора данных TechCrunch настройте среду Python, установив Python, используя виртуальную среду и выбрав правильные инструменты.
Установка Python
Убедитесь, что Python установлен в вашей системе. Загрузите последнюю версию с сайта Веб-сайт Python и следуйте инструкциям по установке. Не забудьте добавить Python в системный PATH.
Настройка виртуальной среды
Использование виртуальной среды помогает вам управлять зависимостями проекта Python, не влияя на другие проекты. Она создает отдельный экземпляр, в котором можно устанавливать и отслеживать пакеты, которые имеют отношение только к этому проекту скрапинга. Вот как начать.
Установить Virtualenv: Если у вас не установлен virtualenv, вы можете установить его через pip:
1 | пип установить виртуалэнв |
Создать виртуальную среду: Перейдите в каталог вашего проекта и создайте виртуальную среду:
1 | виртуальное окружение techcrunch_venv |
Активируйте виртуальную среду:
В Windows:
1
techcrunch_venv\Скрипты\активировать
В macOS и Linux:
1
источник techcrunch_venv/bin/активировать
Установка необходимых библиотек
Активировав виртуальную среду, вы можете установить библиотеки, необходимые для веб-скрапинга:
- КрасивыйСуп: Для анализа документов HTML и XML.
- Запросы: Для обработки HTTP-запросов и ответов.
- Панды: Для хранения и обработки собираемых вами данных.
- Crawlbase: Для повышения эффективности очистки и решения сложных задач на поздних этапах процесса.
Установите эти библиотеки с помощью следующей команды:
1 | pip install beautifulsoup4 запрашивает pandas crawlbase |
Выбор IDE
Выбор правильной интегрированной среды разработки (IDE) для вашей работы может значительно повысить вашу эффективность и даже комфорт при программировании. Ниже приведены некоторые популярные варианты.
- PyCharm: Мощная IDE, специально предназначенная для разработки на Python, предлагающая автодополнение кода, отладку и широкий спектр плагинов.
- Код VS: Универсальный и легкий редактор с мощной поддержкой Python посредством расширений.
- Jupyter Notebook: Идеально подходит для исследовательского анализа данных и интерактивного кодирования, особенно полезен, если вы предпочитаете интерфейс блокнота.
Выбор подходящей IDE будет зависеть от личных предпочтений и от того, какие функции, по вашему мнению, будут наиболее полезны для оптимизации вашего рабочего процесса. Далее мы рассмотрим скрапинг списков статей для извлечения информации из контента TechCrunch.
Извлечение списков статей TechCrunch
В этом разделе мы обсудим, как извлекать списки статей из TechCrunch. Это включает в себя проверку HTML-структуры веб-страницы, написание скрапера для извлечения данных, обработку пагинации и сохранение данных в CSV-файл.
Проверка структуры HTML
Перед извлечением данных из списков TechCrunch вам необходимо определить правильные селекторы CSS для элементов, содержащих необходимые вам данные.

- Открытые инструменты разработчика: Посетите домашнюю страницу TechCrunch, затем откройте Инструменты разработчика, щелкнув правой кнопкой мыши и выбрав «Проверить» или используя
Ctrl+Shift+I(Windows) илиCmd+Option+I(Mac). - Найти контейнеры для статей: Найдите основной контейнер для каждой статьи. На TechCrunch статьи обычно находятся внутри
<div>с классомwp-block-tc23-post-picker. Это поможет вам просмотреть каждую статью. - Определите ключевые элементы: Внутри каждого контейнера статьи найдите определенные элементы, содержащие данные:
- Название: Обычно в пределах
<h2>тег с классомwp-block-post-title. - Ссылка:
<a>тег внутри элемента заголовка с URL вhrefатрибутов. - Автор: Обычно в
<div>с классомwp-block-tc23-author-card-name. - Дата публикации: Часто в
<time>тег, с датой вdatetimeатрибутов. - Резюме: Найдено в
<p>тег с классомwp-block-post-excerpt__excerpt.
Написание листингового скрейпера TechCrunch
Давайте напишем веб-скрейпер для извлечения данных со страницы списков статей TechCrunch с помощью Python и BeautifulSoup. Мы извлечем заголовок, ссылку на статью, автора, дату публикации и резюме из каждой перечисленной статьи.
Импорт библиотек
Во-первых, нам нужно импортировать необходимые библиотеки:
1 | Импортировать Запросы |
Определить функцию скребка
Далее мы определим функцию для извлечения данных:
1 | защиту scrape_techcrunch_listings(URL): |
Эта функция собирает данные о статьях из списков TechCrunch, фиксируя такие сведения, как заголовки, ссылки, авторы, даты публикации и резюме.
Тест скребка
Для тестирования скребка используйте следующий код:
1 | URL = «https://techcrunch.com» |
Создайте новый файл с именем techcrunch_listing_scraper.py, скопируйте предоставленный код в этот файл и сохраните его. Запустите скрипт с помощью следующей команды:
1 | python techcrunch_listing_scraper.py |
Вы должны увидеть вывод, аналогичный примеру ниже.
1 | [ |
В следующих разделах мы займемся пагинацией и эффективным хранением извлеченных данных.
Обработка нумерации страниц
При скрапинге TechCrunch вы можете столкнуться с несколькими страницами списков статей. Чтобы собрать данные со всех страниц, вам нужно обработать пагинацию. Это подразумевает выполнение нескольких запросов и навигацию по каждой странице.
Понимание URL-адресов пагинации
Списки статей TechCrunch используют параметры URL для навигации между страницами. Например, URL для первой страницы может быть https://techcrunch.com/page/1/, в то время как вторая страница могла бы быть https://techcrunch.com/page/2/, И так далее.
Определить функцию пагинации
Эта функция будет управлять пагинацией, проходя по страницам и собирая данные до тех пор, пока не останется страниц для очистки.
1 | защиту scrape_techcrunch_с_пагинацией(базовый_url, начальная_страница=0, num_pages=1): |
В этой функции:
base_url— это URL-адрес страницы листингов TechCrunch.start_pageуказывает номер начальной страницы.num_pagesопределяет, сколько страниц необходимо очистить.
Хранение данных в CSV-файле
Используя функцию ниже, вы можете сохранить извлеченные данные статьи в CSV-файл.
1 | Импортировать панд as pd |
Эта функция преобразует список словарей (содержащих извлеченные вами данные) в DataFrame, используя pandas а затем сохраняет его как CSV-файл.
Полный код
Вот полный код для скрапинга списков статей TechCrunch, обработки пагинации и сохранения данных в файл CSV. Этот скрипт объединяет все функции, которые мы обсудили, в один файл Python.
1 | Импортировать Запросы |
Копирование страницы статьи TechCrunch
В этом разделе мы сосредоточимся на скрапинге отдельных страниц статей TechCrunch, чтобы собрать более подробную информацию о каждой статье. Это включает в себя проверку HTML-структуры страницы статьи, написание функции скрапера и сохранение собранных данных.
Проверка структуры HTML
Чтобы извлечь статьи TechCrunch, начните с поиска CSS-селекторов необходимых элементов из HTML-структуры страницы:

- Открытые инструменты разработчика: Посетите статью TechCrunch и откройте Инструменты разработчика с помощью
Ctrl+Shift+I(Windows) илиCmd+Option+I(Mac). - Определите ключевые элементы:
- Название: Обычно в
<h1>тег с классомwp-block-post-title. - Автор: Часто в
<div>с классомwp-block-tc23-author-card-name. - Дата публикации: Найдено в
<time>тег, с датой вdatetimeатрибутов. - Контент: Обычно в
<div>с классомwp-block-post-content.
Написание статьи TechCrunch Page Scraper
Учитывая структуру HTML, давайте напишем функцию для извлечения подробной информации со страницы статьи TechCrunch.
1 | Импортировать Запросы |
Тест скребка
Для тестирования скребка используйте следующий код:
1 | URL = 'https://techcrunch.com/2024/08/11/oyo-valuation-crashes-over-75-in-new-funding/' |
Создайте новый файл с именем techcrunch_article_scraper.py, скопируйте предоставленный код в этот файл и сохраните его. Запустите скрипт с помощью следующей команды:
1 | python techcrunch_article_scraper.py |
Вы должны увидеть вывод, аналогичный примеру ниже.
1 | { |
Хранение данных в CSV-файле
Для сохранения данных статьи вы можете использовать pandas для сохранения результатов в CSV-файл. Мы изменим предыдущую функцию save_data_to_csv, чтобы включить эту функциональность.
1 | Импортировать панд as pd |
Полный код
Объединяя все это, получаем полный код для извлечения отдельных страниц статей TechCrunch и сохранения данных:
1 | Импортировать Запросы |
Вы можете адаптировать article_urls список, включающий URL-адреса статей, которые вы хотите извлечь.
Оптимизация скрапинга с помощью Crawlbase Crawling API
При сборе данных TechCrunch могут возникнуть некоторые проблемы, такие как блокировка IP-адресов, ограничение скорости и динамический контент. Crawlbase Crawling API может помочь преодолеть эти препятствия и обеспечить более плавный процесс очистки. Вот как Crawlbase может оптимизировать ваши усилия по парсингу:
Обход проблем со скрапингом
- Блокировка IP и ограничение скорости: Такие сайты, как TechCrunch, могут заблокировать ваш IP-адрес, если за короткий период времени будет сделано слишком много запросов. Чтобы снизить риск обнаружения и блокировки, Crawlbase Crawling API переключается между разными IP-адресами и управляет частотой запросов.
- Динамический контент: Некоторые страницы в TechCrunch загружают определенный контент с помощью JavaScript, что затрудняет доступ к ним традиционным скраперам напрямую. Отображая JavaScript, Crawlbase Crawling API позволяет получить доступ к каждому элементу на странице.
- CAPTCHA и меры по борьбе с ботами: TechCrunch может использовать CAPTCHA и другие антибот-технологии для предотвращения автоматического сбора данных. Crawlbase Crawling API можно обойти эти меры, что позволит собирать данные без перебоев.
- Geolocation: TechCrunch может предоставлять разный контент в зависимости от местоположения. Crawlbase Crawling API позволяет вам указывать страну для ваших запросов, гарантируя получение релевантных данных на основе вашего целевого региона.
Реализация Crawlbase в вашем скребке
Чтобы интегрировать Crawlbase Crawling API в свой скрапер TechCrunch, выполните следующие действия:
- Установить Crawlbase Библиотека: Установите Crawlbase Библиотека Python с использованием pip:
1 | pip установить crawlbase |
- Настроить Crawlbase API: Инициализировать Crawlbase API с вашим токеном доступа. Вы можете получить его, создав учетную запись на Crawlbase.
1 | от база сканирования Импортировать CrawlingAPI |
Внимание: Crawlbase предоставляет два типа токенов: обычный токен для статических веб-сайтов и токен JavaScript (JS) для обработки динамических или браузерных запросов. В случае TechCrunch вам нужен обычный токен. Первые 1,000 запросов бесплатны для начала работы, кредитная карта не требуется. Читать Crawlbase Crawling API документации здесь.
- Функция обновления скребка: Измените ваши функции очистки, чтобы использовать Crawlbase API для выполнения запросов. Вот пример того, как обновить
scrape_techcrunch_listingsфункция:
1 | защиту scrape_techcrunch_listings(URL): |
Благодаря использованию Crawlbase Crawling API, вы сможете эффективно решать частые проблемы со сбором данных и извлекать данные из TechCrunch, не опасаясь блокировки.
Заключительные мысли (Scrape TechCrunch с Crawlbase)
Сбор данных из TechCrunch может предоставить ценную информацию о последних тенденциях, инновациях и влиятельных фигурах в технологической отрасли. Извлекая информацию из статей и списков, вы можете быть в курсе новых технологий и ключевых игроков в этой области. Это руководство показало вам, как настроить среду Python, написать функциональный скрапер и оптимизировать свои усилия с помощью Crawlbase Crawling API для преодоления распространенных проблем со скрапингом.
Если вы хотите расширить свои возможности по парсингу веб-сайтов, рассмотрите возможность изучения наших следующих руководств по парсингу других важных веб-сайтов.
📜 Как скопировать Bloomberg
📜 Как скопировать Википедию
📜 Как использовать Google FInance
📜 Как извлечь данные из Google News
📜 Как очистить Clutch.co
Если у вас есть какие-либо вопросы или пожелания, наш команда поддержки всегда готов помочь вам в вашем путешествии по веб-скрапингу. Счастливого скрапинга!
Часто задаваемые вопросы (FAQ)
В. Каковы правовые аспекты сбора данных TechCrunch?
Сбор данных с таких сайтов, как TechCrunch, поднимает юридические и этические вопросы. Необходимо узнать больше об условиях обслуживания используемой платформы, в данном случае TechCrunch, поскольку у них иногда есть особые политики в отношении использования определенных форм сбора данных. Убедитесь, что ваши операции по сбору данных соответствуют этим положениям, и воздержитесь от нарушения правил защиты данных, таких как GDPR или CCPA. Рекомендуется обратиться к юридическим консультантам, чтобы прояснить любые потенциальные правовые вопросы, связанные с правовыми и этическими вопросами, касающимися сбора данных.
В. Что делать, если мой IP-адрес заблокирован во время парсинга?
Если ваш IP-адрес блокируется при парсинге TechCrunch, вы можете предпринять несколько мер для смягчения этой проблемы. Реализуйте ротацию IP-адресов с помощью прокси-сервисов или инструментов парсинга, таких как Crawlbase Crawling API, который автоматически меняет IP-адреса, чтобы избежать обнаружения. Вы также можете настроить частоту запросов, чтобы имитировать поведение человека при просмотре, снижая риск срабатывания мер по борьбе с парсингом.
В. Как я могу улучшить производительность своего парсера TechCrunch?
Некоторые из методов, которые могут помочь вам оптимизировать работу скрапера для более быстрой работы, — это многопоточность или асинхронные запросы. Сократите количество операций, которые просто не требуются, и используйте специальные библиотеки, такие как библиотека pandas, для эффективного представления данных. Также, Crawlbase Crawling API может повысить производительность за счет управления ротацией IP-адресов и обработки CAPTCHA, обеспечивая бесперебойный доступ к данным, которые вы хотите извлечь.












