بوت کمپ جامع آموزش وب اسکرپینگ (استخراج داده از وب) با پایتون ۲۰۲۴ - آخرین آپدیت

دانلود The Ultimate Web Scraping With Python Bootcamp 2024

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:

آموزش جامع وب اسکرپینگ با پایتون: استخراج داده از وب به آسانی

آیا می‌خواهید نحوه استخراج داده از وب را با پایتون یاد بگیرید؟ این دوره جامع، تنها چیزی است که نیاز دارید! با این دوره، از یک مبتدی کامل در پایتون، به یک وب اسکرپر حرفه‌ای تبدیل خواهید شد.

در این دوره، مفاهیم پایه وب اسکرپینگ را از صفر یاد می‌گیرید و نحوه استخراج اطلاعات از وب‌سایت‌های استاتیک و داینامیک را فرا می‌گیرید.

چه چیزی یاد خواهید گرفت:

  • استخراج داده از وب‌سایت‌ها با پایتون با استفاده از کتابخانه‌های Selectolax, Playwright, Scrapy و غیره
  • درک مفاهیم اساسی وب اسکرپینگ در پایتون از ابتدا
  • استخراج اطلاعات از وب‌سایت‌های استاتیک و داینامیک و ذخیره در فرمت‌های مختلف
  • شناسایی و شبیه‌سازی APIهای مخفی برای یافتن راه‌های جایگزین و کارآمد برای استخراج داده
  • تسلط بر کتابخانه Requests برای کار با HTTP
  • تجزیه و استخراج محتوا از HTML با استفاده از BeautifulSoup, Selectolax و Microsoft Playwright
  • تسلط بر سلکتورهای CSS پیچیده
  • درک نحوه کار وب، از جمله HTTP, HTML, CSS و JavaScript
  • ایجاد Scrapy Crawlers و تمرین با موارد، ItemLoaders و Pipelineهای سفارشی
  • ادغام Scrapy با Playwright برای خزش وب‌سایت‌های داینامیک با کارایی بالا
  • پردازش و استخراج داده‌ها به فرمت‌های مختلف از جمله CSV, JSON, XML و SQL

محتوای دوره آموزش وب اسکرپینگ با پایتون

این دوره به سه بخش تقسیم شده است:

  1. بخش اول: شروع

    در این بخش، با نحوه کارکرد وب، HTTP، HTML، CSS و JavaScript آشنا می‌شوید و نحوه استفاده از پایتون برای ارسال درخواست‌های HTTP و تجزیه HTML را یاد می‌گیرید.

    • بررسی چرخه درخواست-پاسخ
    • درک User-Agentها، افعال HTTP، سربرگ‌ها و وضعیت‌ها
    • چگونگی استفاده از سربرگ‌های سفارشی برای دور زدن Paywallها
    • تسلط بر کتابخانه Requests برای کار با HTTP در پایتون
    • نقش Proxyها در معماری‌های مدرن وب
    • تسلط بر BeautifulSoup برای تجزیه و استخراج داده
  2. بخش دوم: بهبود

    در این بخش، نحوه خزیدن وب‌سایت‌های داینامیک با استفاده از Microsoft Playwright و شناسایی و شبیه‌سازی APIها را یاد می‌گیرید.

    • شناسایی و استفاده از APIهای مخفی
    • شبیه‌سازی سربرگ‌ها، کوکی‌ها و محتوای بدنه
    • تولید خودکار کد پایتون از درخواست‌های API رهگیری شده
    • کار با کتابخانه تجزیه Selectolax
    • تسلط بر سلکتورهای CSS
    • معرفی Microsoft Playwright برای مرور بدون رابط کاربری
  3. بخش سوم: تسلط

    در این بخش، با Scrapy، یک چارچوب قدرتمند برای ساخت وب اسکرپرهای پیچیده، آشنا می‌شوید و نحوه ادغام آن با Playwright را یاد می‌گیرید.

    • نحوه تنظیم Scrapy و استفاده از رابط خط فرمان آن
    • بررسی پاسخ‌های دریافتی با استفاده از Scrapy Shell
    • تعریف Item Schemaها و بارگذاری داده‌ها با استفاده از ItemLoaders
    • ادغام Playwright با Scrapy برای خزیدن وب‌سایت‌های JavaScript
    • تعریف Pipelineهای سفارشی برای ذخیره داده‌ها در پایگاه‌های داده SQL

پیش‌نیازهای دوره آموزش وب اسکرپینگ با پایتون

  • نیازی به تجربه برنامه‌نویسی نیست
  • نیازی به نرم‌افزار پولی نیست
  • یک کامپیوتر با دسترسی به اینترنت

آماده یادگیری مهارت‌های واقعی باشید!

وب اسکرپینگ با پایتون: فرصتی برای اتوماسیون و استخراج اطلاعات

وب اسکرپینگ مهارتی است که بازخورد فوری ارائه می‌دهد و می‌تواند برای اتوماسیون طیف گسترده‌ای از وظایف جمع‌آوری و پردازش داده استفاده شود.

در پایان این دوره، شما یک ابزار کامل برای طراحی و پیاده‌سازی وب اسکرپرها برای هر وب‌سایتی که تصور کنید، خواهید داشت.


سرفصل ها و درس ها

مقدمه Introduction

  • پیش‌نیازها Prerequisites

  • یک مدل ذهنی مفید A Useful Mental Model

  • همه منابع کد All Code Resources

پروتکل HTTP The HTTP Protocol

  • HTTP چیست؟ What Is HTTP?

  • چرخه درخواست-پاسخ The Request-Response Cycle

  • اضافی: اما، این وب‌سایت من را به خاطر می‌آورد Extra: But, This Website Remembers Me

  • عامل‌های کاربر User-Agents

  • افعال HTTP HTTP Verbs

  • کدهای وضعیت Status Codes

  • هدرها Headers

  • اضافی: هدرها دروغ می‌گویند Extra: Headers Do Lie

  • پراکسی‌ها Proxies

HTML، CSS و JavaScript HTML, CSS, And JavaScript

  • مواد لازم The Ingredients

  • نشانه‌گذاری Markup

  • ویژگی‌ها Attributes

  • ارائه Presentation

  • قوانین بیشتر Some More Rules

  • رفتار Behaviour

  • جاوا اسکریپت بیشتر More JavaScript

  • جاوا اسکریپت در وب‌اسکریپینگ JavaScript In Web Scraping

  • کامنت‌ها Comments

  • تعبیه شده Embedded

درخواست‌های وب در پایتون Web Requests In Python

  • Urllib Urllib

  • Requests Requests

  • تنظیم هدرها Setting Headers

  • پارامترهای پرس‌وجو Query Parameters

  • احراز هویت و مجوز Authentication And Authorization

  • به غیر از GET Aside From GET

  • POST کردن داده POSTing Data

تجزیه و استخراج Parsing And Extraction

  • BeautifulSoup BeautifulSoup

  • تگ‌ها Tags

  • والدین، فرزندان و نوادگان Parents, Children, And Descendants

  • خواهر و برادرها Siblings

  • استخراج متن Extracting Text

  • همه رشته‌ها All Strings

  • جستجو Search

  • چالش Challenge

  • راه‌حل Solution

  • اصلاح راه‌حل Solution Refinement

  • اضافی: پانداها (pandas) An Extra: pandas

  • الگوهای جستجوی تابعی Functional Search Patterns

  • جستجوی متن Text Search

  • جستجو با CSS Searching By CSS

  • فقط یک تگ Just One Tag

پروژه 1 - ارزش‌گذاری پورتفولیو با Google Finance Project 1 - Portfolio Valuation With Google Finance

  • بیانیه دامنه Scope Statement

  • اضافی: برخی مفاهیم مالی An Extra: Some Finance Concepts

  • تجزیه قیمت Parsing Price

  • قیمت‌های غیر USD Non-USD Prices

  • افزودن ساختار با Dataclasses Adding Structure With Dataclasses

  • موقعیت و پورتفولیو Position And Portfolio

  • نمایش جدولی Tabular Display

APIها: گوهرهای پنهان APIs: The Hidden Gems

  • با تب شبکه دوست شوید Befriend The Network Tab

  • مطالعه موردی: مکان‌های کافی‌شاپ Case Study: Coffee Shop Locations

  • مزایای APIها The Advantages Of APIs

  • شبیه‌سازی کامل هدر Full Header Emulation

  • اضافی: Postman An Extra: Postman

  • تولید کد Code Generation

  • چالش Challenge

  • راه‌حل: تعامل با API Solution: Interacting With The API

  • راه‌حل: پردازش داده‌ها Solution: Processing The Data

  • راه‌حل: افزودن Geocode Solution: Adding Geocode

Selectolax و انتخابگرهای پیشرفته CSS Selectolax And Advanced CSS Selectors

  • مقدمه Introduction

  • selectolax چیست؟ What Is selectolax?

  • ترکیب کننده‌های CSS CSS Combinators

  • ترکیب کننده‌های خواهر و برادر Sibling Combinators

  • انواع انتخابگر Selector Types

پروژه 2 - اسکریپر تصویر Project 2 - Image Scraper

  • بیانیه دامنه Scope Statement

  • اکتشاف Prospecting

  • نکته: اصلاح سریع انتخابگر CSS NOTE: Quick Correction To CSS Selector

  • اسکریپینگ HTML Scraping HTML

  • فیلتر کردن URLهای مرتبط Filtering Relevant URLs

  • استخراج URLهای تصویر با وضوح بالا Extracting High-Res Image URLs

  • ذخیره تصاویر Saving The Images

  • پیشرفت با Logging Stepping It Up With Logging

  • بازگشت به API Back To The API

  • URLهای متعارف فیلتر شده Filtered Canonical URLs

  • اکتشاف صفحه‌بندی Pagination Prospecting

  • جمع‌بندی Wrapping Up

مقابله با جاوا اسکریپت با Microsoft PlayWright Tackling JavaScript With Microsoft PlayWright

  • آنچه می‌بینید در مقابل آنچه به دست می‌آورید What You See vs. What You Get

  • رندر کردن جاوا اسکریپت Rendering JavaScript

  • PlayWright در مقابل Selenium PlayWright Over Selenium

  • مطالعه موردی: پول را به من نشان بده Case Study: Show Me The Money

پروژه 3 - ساخت خط لوله اسکریپینگ قابل تنظیم Project 3 - Building A Configurable Scraping Pipeline

  • بیانیه دامنه Scope Statement

  • راه‌اندازی اولیه Initial Setup

  • سایت کاملاً بارگذاری شده Fully Loaded Site

  • انتخاب کانتینرهای بازی Selecting Game Containers

  • آستانه‌های رندر قوی‌تر More Robust Render Thresholds

  • استخراج عنوان و تصویر بندانگشتی Extracting Title And Thumbnail

  • تگ‌های دسته‌بندی بازی Game Category Tags

  • تاریخ انتشار و نقدها Release Date And Reviews

  • قیمت اصلی و تخفیف Original And Discount Price

  • بازسازی کد Refactoring

  • معرفی Config Introducing Config

  • پیکربندی یکپارچه شده Configuration Integrated

  • خط لوله تجزیه Parsing Pipeline

  • استخراج پارامتری شده Parameterized Extraction

  • پس‌پردازش تابعی Functional Post-Processing

  • قالب‌بندی تاریخ Date Formatting

  • عبارات با قاعده Regular Expressions

  • ذخیره در دیسک Saving To Disk

  • ادغام HTMLParser با تجزیه‌گر عمومی Integrating HTMLParser With The Generic Parser

  • پرداخت نهایی Finishing Touches

چارچوب Scrapy The Scrapy Framework

  • مقدمه Introduction

  • محیط‌های مجازی و Scrapy Virtual Environments And Scrapy

  • اولین پروژه و اسپایدر First Project And Spider

  • اسکریپینگ عناصر Scraping Elements

  • استخراج ویژگی‌های خاص Extracting Specific Attributes

  • اضافی: Scrapy Shell An Extra: Scrapy Shell

  • بازنویسی با استفاده از انتخابگرهای XPath Rewriting Using XPath Selectors

  • خروجی دادن داده Outputting Data

  • تعریف موارد Scrapy Defining Scrapy Items

  • معرفی Itemloaders Introducing Itemloaders

  • پس‌پردازش تنظیم‌شده Fine-Tuned Post-Processing

  • اعتبارسنجی داده‌های خط لوله Pipelined Data Validation

  • ذخیره در پایگاه‌های داده Saving To Databases

  • چالش Challenge

  • راه‌حل: تعریف NoDuplicateCountryPipeline Solution: Defining NoDuplicateCountryPipeline

تقویت Scrapy با scrapy-playwright Boosting Scrapy With scrapy-playwright

  • آچار جاوا اسکریپت در کار The JavaScript Wrench In The Works

  • یکپارچه‌سازی scrapy-playwright Integrating scrapy-playwright

  • PageMethods PageMethods

  • صفحه‌بندی و اسکرول بی‌نهایت Pagination And Infinite Scroll

  • Playwright، این کار را انجام بده Playwright, Do This

  • اسنیپت بهبودیافته به عنوان PageMethod Improved Snippet As PageMethod

  • اسکریپینگ مکان، دپارتمان و تاریخ ارسال Scraping Location, Department, And Posted Date

پروژه 4 - اسکریپینگ سایت‌های پویا با Scrapy و PlayWright Project 4 - Scraping Dynamic Sites With Scrapy And PlayWright

  • بیانیه دامنه Scope Statement

  • پروژه جدید و اسپایدر New Project And Spider

  • Item و Itemloading Item And Itemloading

  • خط لوله کشی به پایگاه داده Pipelining To Database

  • رفع سریع Quick Fix

  • صادرات JSON عناصر گروهی Grouped Elements JSON Export

نکات پایانی Closing Thoughts

  • سعی کنید به robots.txt احترام بگذارید Try To Respect robots.txt

  • متشکرم Thank You

  • سایر دوره‌های من My Other Courses

پیوست - مبانی پایتون Appendix - Python Fundamentals

  • یک یادداشت سریع + منابع بخش A Quick Note + Section Resources

  • انواع داده Data Types

  • متغیرها Variables

  • عملگرهای حسابی و انتساب افزوده Arithmetic And Augmented Assignment Operators

  • اعداد صحیح و اعشاری Ints And Floats

  • بولین‌ها و عملگرهای مقایسه Booleans And Comparison Operators

  • رشته‌ها Strings

  • متدها Methods

  • کانتینرها I - لیست‌ها Containers I - Lists

  • لیست‌ها در مقابل رشته‌ها Lists vs. Strings

  • متدها و توابع لیست List Methods And Functions

  • کانتینرها II - تاپل‌ها Containers II - Tuples

  • کانتینرها III - مجموعه‌ها Containers III - Sets

  • کانتینرها IV - دیکشنری‌ها Containers IV - Dictionaries

  • کلیدها و مقادیر دیکشنری Dictionary Keys And Values

  • عملگرهای عضویت Membership Operators

  • کنترل جریان با if، else و elif Controlling Flow With if, else, And elif

  • مقدار درستی غیر بولین‌ها Truth Value Of Non-Booleans

  • حلقه‌های For For Loops

  • دنباله تغییرناپذیر range() The range() Immutable Sequence

  • حلقه‌های While While Loops

  • Break و Continue Break And Continue

  • Zipping Iterables Zipping Iterables

  • List Comprehensions List Comprehensions

  • تعریف توابع Defining Functions

  • آرگومان‌های تابع: موقعیتی در مقابل کلیدواژه‌ای Function Arguments: Positional vs Keyword

  • توابع Lambda Lambdas

  • وارد کردن ماژول‌ها Importing Modules

نمایش نظرات

بوت کمپ جامع آموزش وب اسکرپینگ (استخراج داده از وب) با پایتون ۲۰۲۴
جزییات دوره
17.5 hours
161
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
3,562
4.1 از 5
دارد
دارد
دارد
Andy Bek
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Andy Bek Andy Bek

مشاور نرم افزار