Udemy [Udemy] Буткемп по веб-скрапингу с использованием Python (2023)

  • Автор темы Trinity
  • Дата начала
[Udemy] Буткемп по веб-скрапингу с использованием Python (2023)

d16kqa9.png


Добро пожаловать на курс "The Ultimate Web Scraping With Python Bootcamp", единственный курс, который вам нужен, чтобы перейти от абсолютного новичка в Python до очень компетентного в области веб-скрапинга.

Веб-скрапинг - это процесс программного извлечения данных из интернета. Скрапинг-агенты посещают веб-ресурсы, извлекают содержимое и обрабатывают полученные данные, чтобы извлечь определенную информацию.

Скрапинг - это навык программирования, который предоставляет мгновенную обратную связь и может использоваться для автоматизации множества задач по сбору и обработке данных.

В ближайшие 17+ часов мы методично рассмотрим все, что вам нужно знать, чтобы писать скрапинг-агенты в Python.

Этот буткемп организован в три части, уровень сложности в которых постепенно увеличивается, чтобы помочь вам постепенно развивать свои навыки.


Часть I - Начало

Мы начнем с понимания того, как работает веб, рассмотрев HTTP, ключевой протокол прикладного уровня для обмена данными в современном вебе. Затем мы более подробно изучим HTML, CSS и JavaScript, чтобы глубже понять, как создаются веб-сайты. Наконец, мы узнаем, как использовать Python для отправки HTTP-запросов и разбора полученных данных в HTML, CSS и JavaScript, чтобы извлекать необходимую информацию. Нашей целью в первой части курса является создание надежного фундамента в области веб-скрапинга и Python, и применение этих навыков на практике, создавая функциональные скрейперы с нуля. Выбранные темы включают в себя:
  • подробный обзор цикла запрос-ответ
  • понимание юзер-агентов, HTTP-глаголов, заголовков и статусов
  • понимание того, как и почему пользовательские заголовки часто используются для обхода платных стен
  • мастерство библиотеки requests для работы с HTTP в Python
  • что означает отсутствие состояния и как работают куки
  • рассмотрение роли прокси-серверов в современных веб-архитектурах
  • BeautifulSoup для разбора и извлечения данных
Часть II - Совершенствование

Во второй части курса мы будем строить на уже созданных фундаментах, чтобы исследовать более продвинутые темы в области веб-скрапинга. Мы узнаем, как скрейпить динамические веб-сайты, которые используют JavaScript для отображения своего контента, настроив Microsoft Playwright как браузер без графического интерфейса для автоматизации этого процесса. Мы также узнаем, как идентифицировать и эмулировать вызовы API для скрапинга данных с веб-сайтов, у которых нет официальных общедоступных API. Проекты в этом разделе будут включать в себя скрейпер изображений, который может скачивать определенное количество высокоразрешенных изображений по ключевому слову, а также другого скрейпера, извлекающего цену и описание скидочных видеоигр с динамически генерируемого веб-сайта. Среди тем:
  • идентификация и использование скрытых API, а также понимание преимуществ, которые они предоставляют
  • эмуляция заголовков, куки и тела запроса с легкостью
  • автоматическая генерация Python-кода из перехваченных API-запросов с использованием Postman и httpie
  • работа с высокопроизводительной библиотекой парсинга selectolax
  • мастерство CSS-селекторов
  • введение Microsoft Playwright для headless навигации и динамической отрисовки
Часть III - Мастерство

В последней части курса мы познакомимся с Scrapy. Это предоставит нам отличный, проверенный временем фреймворк для создания более сложных и надежных веб-скрейперов. Мы узнаем, как настроить Scrapy в виртуальной среде и создать пауки и конвейеры для извлечения данных с веб-сайтов в различных форматах. После изучения использования Scrapy, мы затем рассмотрим, как интегрировать его с Playwright, чтобы справиться с вызовом скрапинга динамических веб-сайтов прямо в Scrapy. Мы завершим этот раздел, создав скрапер, который выполняет пользовательский JavaScript-код, а затем возвращает полученный HTML в Scrapy. Некоторые темы этого раздела:
  • изучение настройки Scrapy и изучение его командной строки («инструмент Scrapy»)
  • динамическое изучение объектов ответов с использованием Scrapy Shell
  • понимание и определение схем элементов и загрузка данных с использованием загрузчиков элементов и процессоров ввода/вывода
  • интеграция Playwright в Scrapy для работы с динамическими веб-сайтами, работающими на JavaScript
  • написание методов страниц для указания очень конкретных инструкций браузеру без графического интерфейса прямо из Scrapy
  • определение пользовательских конвейеров для сохранения в SQL-базы данных и выдачи в сильно настраиваемых форматах вывода
В этом буткемпе я проведу вас шаг за шагом через увлекательные видеолекции и научу всему, что вам нужно знать, чтобы начать веб-скрейпинг в Python.

К концу этого курса у вас будет полный набор инструментов для концептуализации и создания скраперов для любого веб-сайта, который вы себе можете представить.

Материал на английском языке

Подробнее:
Скачать:
 

Похожие темы

Trinity
Ответы
0
Просмотры
260
Udemy.com
Trinity
Trinity
Trinity
Ответы
0
Просмотры
35
Udemy.com
Trinity
Trinity
Trinity
Ответы
0
Просмотры
105
Udemy.com
Trinity
Trinity
Trinity
Ответы
0
Просмотры
137
Udemy.com
Trinity
Trinity