آموزش اسکرپی مسترکلاس: یادگیری وب اسکرپینگ با فریم‌ورک اسکرپی - آخرین آپدیت

دانلود Scrapy Masterclass: Learn Web Scraping With Scrapy Framework

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:

آموزش جامع استخراج اطلاعات از وب (Web Scraping) با چارچوب Scrapy پایتون برای مبتدیان، راهنمای گام به گام و عمیق استخراج داده از وب

مراحل استخراج اطلاعات وب و ساخت ربات‌های خزنده وب

نصب و راه‌اندازی Scrapy در محیط‌های ویندوز، مک، اوبونتو (لینوکس) و آناکوندا

ارسال درخواست به URL برای استخراج اطلاعات وب‌سایت‌ها با استفاده از Scrapy Spider

دریافت پاسخ HTML از URL و تجزیه آن برای استخراج اطلاعات وب

انتخاب داده‌های مورد نظر از وب‌سایت‌ها با استفاده از Scrapy Selector، انتخاب‌گرهای CSS و XPath

Scrapy Crawl Spiders برای دریافت داده از وب‌سایت‌ها و استخراج آن در فایل‌های JSON، CSV، XLSX (Excel) و XML

استفاده از دستورات Scrapy Shell برای تست و تأیید انتخاب‌گرهای CSS یا XPath

ذخیره و خروجی داده‌های استخراج شده در پایگاه‌های داده آنلاین مانند MongoDB با استفاده از Scrapy Item Pipelines

تعریف Scrapy Items برای سازماندهی داده‌های استخراج شده و بارگذاری Items با استفاده از Scrapy Itemloaders با پردازنده‌های ورودی و خروجی

استخراج داده از صفحات وب متعدد با استفاده از pagine Scrapy و استخراج داده از جداول HTML

ورود به وب‌سایت‌ها با استفاده از Scrapy FormRequest و توکن‌های CSRF

استخراج اطلاعات وب‌سایت‌های پویا/رندر شده با JavaScript با استفاده از Scrapy-Playwright و تعامل با عناصر وب، گرفتن اسکرین‌شات از وب‌سایت‌ها یا ذخیره به صورت PDF

شناسایی فراخوانی‌های API از یک وب‌سایت و استخراج داده از API با استفاده از درخواست Scrapy

پیش‌نیازها

  • برنامه‌نویسی پایتون
  • مبانی HTML

استخراج اطلاعات از وب (Web scraping) فرآیند جمع‌آوری و استخراج داده‌های مورد نظر از وب‌سایت‌ها است. در این دوره، شما با استفاده از پایتون و چارچوب قدرتمند Scrapy، استخراج اطلاعات وب را به صورت گام به گام و جامع یاد خواهید گرفت و در آن تسلط پیدا خواهید کرد.

راهنمای گام به گام

با فرض اینکه هیچ دانشی در مورد استخراج اطلاعات وب، ربات‌های خزنده وب، چارچوب Scrapy، یا حتی واژه‌های مرتبط با استخراج داده ندارید، از مبانی شروع خواهیم کرد. در بخش اول، فرآیند استخراج اطلاعات وب به صورت گام به گام (با اینفوگرافیک و بدون کد) را خواهید آموخت، نحوه استخراج داده از وب‌سایت‌ها و نحوه استفاده از Scrapy برای این منظور (یعنی معنی Scrapy) را فرا خواهید گرفت.

پس از روشن شدن مبانی و درک نحوه عملکرد استخراج اطلاعات وب، شروع به استخراج اطلاعات با پایتون و چارچوب Scrapy خواهیم کرد! مجدداً، به صورت گام به گام پیش خواهیم رفت و هر مرحله آموخته شده در مبانی را با درس‌های کوتاه و کاربردی اجرا خواهیم کرد. با سرعت کم پیش می‌رویم تا درک هر مرحله از استخراج و پردازش داده‌ها از وب‌سایت‌ها برای شما آسان‌تر باشد.

نکات ضروری استخراج اطلاعات وب و Scrapy

با ساخت یک استخراج‌کننده وب واقعی، درک کاملی از نحوه عملکرد استخراج اطلاعات وب به دست خواهید آورد. اکنون پوشش مفاهیم ضروری استخراج اطلاعات وب و Scrapy بسیار مهم است که در ادامه به آن خواهیم پرداخت.

  • انتخاب‌گرهای CSS برای انتخاب عناصر وب
  • XPath برای انتخاب عناصر وب
  • Scrapy Shell برای تست و تأیید انتخاب‌گرها
  • Items برای سازماندهی داده‌های استخراج شده
  • بارگذاری Items با ItemLoaders به همراه پردازنده‌های ورودی و خروجی
  • خروجی دادن داده‌ها در فرمت‌های فایل JSON، CSV، XLSX (Excel) و XML
  • ذخیره داده‌های استخراج شده در پایگاه‌های داده آنلاین مانند MongoDB با استفاده از ItemPipelines

تسلط عمیق بر استخراج اطلاعات وب

یادگیری نحوه استخراج اطلاعات وب‌سایت‌ها و نکات ضروری، شما را به یک استخراج‌کننده کامل تبدیل می‌کند، اما ما این فرآیند را حتی فراتر خواهیم برد و تکنیک‌های پیشرفته استخراج اطلاعات وب را برای تبدیل شدن به یک متخصص خواهیم آموخت!

  • دنبال کردن لینک‌ها در یک صفحه وب به صفحات دیگر
  • خزیدن در صفحات متعدد و استخراج داده‌ها، یعنی Pagination
  • استخراج داده با استفاده از عبارات منظم (RegEx)
  • استخراج داده از جداول HTML
  • ورود به وب‌سایت‌ها با استفاده از Scrapy FormRequest
  • دور زدن فرم‌های ورود محافظت شده با CSRF
  • استخراج وب‌سایت‌های پویا یا رندر شده با JavaScript با استفاده از Scrapy Playwright
    • تعامل با عناصر وب مانند پر کردن فرم‌ها، کلیک بر روی دکمه‌ها و غیره
    • مدیریت وب‌سایت‌های دارای اسکرول بی‌نهایت
    • انتظار برای عناصر زمانی که محتوا/داده‌ها برای بارگذاری زمان‌بر هستند
    • گرفتن اسکرین‌شات از وب‌سایت‌ها
    • ذخیره وب‌سایت‌ها به صورت PDF
  • شناسایی فراخوانی‌های API از وب‌سایت‌ها و استخراج داده از APIها
  • استفاده از middleware در یک پروژه scrapy
  • پیکربندی تنظیمات در یک پروژه scrapy
  • استفاده و چرخش User-Agents و Proxies
  • بهترین شیوه‌های استخراج اطلاعات وب

پروژه‌های واقعی

پس از تسلط بر استخراج اطلاعات وب و ربات‌های خزنده وب، به پروژه‌هایی برای شروع نیاز داریم! به همین دلیل شما سه پروژه را نیز انجام خواهید داد:

  • جدول لیگ قهرمانان اروپا [ ESPN ]
  • ردیاب محصول [ Amazon ]
  • اپلیکیشن استخراج‌کننده [ GUI ]

به ما در این دوره عمیق بپیوندید، جایی که استخراج اطلاعات وب را از ابتدا یاد خواهید گرفت و فرآیند استخراج داده از وب‌سایت‌ها را به صورت گام به گام تسلط خواهید یافت. برای یادگیری نحوه عملکرد استخراج اطلاعات وب، درس‌های پیش‌نمایش را بررسی کنید! منتظر شما هستیم~


سرفصل ها و درس ها

مقدمه Introduction

  • وب اسکرپینگ چیست؟ What is Web Scraping?

  • وب اسکرپینگ چگونه کار می کند؟ How Web Scraping Works?

  • وب اسکرپینگ با Scrapy Web Scraping With Scrapy

نصب Scrapy Scrapy Installation

  • نصب Scrapy برای ویندوز Scrapy Installation for Windows

  • نصب Scrapy برای اوبونتو (لینوکس) Scrapy Installation for Ubuntu (Linux)

  • نصب Scrapy برای مک Scrapy Installation for Mac

  • نصب Scrapy برای Anaconda Scrapy Installation for Anaconda

  • ایجاد پروژه Scrapy Creating Scrapy Project

  • بررسی پروژه Project Walkthrough

Scrapy Spider Scrapy Spider

  • ایجاد Spider Creating Spider

  • ارسال درخواست Sending Request

  • دریافت پاسخ Getting the Response

  • انتخابگرهای CSS Scrapy Scrapy CSS Selector

  • انتخاب تمام داده‌ها Selecting All The Data

  • استخراج داده‌ها Extracting Data

  • مرور کلی Spider Spider Overview

انتخابگرهای CSS CSS Selectors

  • انتخابگرهای CSS در مقابل XPath: چگونه عناصر وب را انتخاب کنیم؟ CSS Selectors v/s XPath : How to Select Web Elements?

  • انتخابگرهای Tagname، Class و Id Tagname, Class and Id Selectors

  • انتخابگرهای Attribute Attribute Selectors

  • برگه تقلب انتخابگرهای CSS CSS Selectors Cheat Sheet

XPath XPath

  • عبارات XPath XPath Expressions

  • انتخابگرهای Attribute XPath XPath Attribute Selectors

  • تابع XPath text() XPath text( ) Function

  • برگه تقلب XPath XPath Cheat Sheet

Scrapy Shell Scrapy Shell

  • Scrapy Shell چیست و چگونه از آن استفاده کنیم؟ What is the Scrapy Shell and How to Use it?

  • پاسخ fetch() fetch( ) Response

  • تنظیمات Shell Shell Configuration

Scrapy Items Scrapy Items

  • ساختاردهی داده‌ها به آیتم‌های Scrapy Structuring Data Into Scrapy Item

  • استفاده از آیتم در Spiderها Using Item in Spiders

  • تعریف پردازشگرهای ورودی و خروجی برای فیلدهای آیتم Define Input and Output Processors For Item Fields

  • بارگذاری آیتم‌ها با Scrapy ItemLoaders Loading Items with Scrapy ItemLoaders

  • مرور کلی آیتم‌ها، پردازشگرها و ItemLoaders Items, Processors & ItemLoaders Overview

خروجی گرفتن از داده‌ها Exporting Data

  • خروجی گرفتن از داده‌های استخراج شده در فرمت JSON، CSV و XML Output Extracted Data In JSON, CSV & XML Format

  • بازنویسی خروجی قبلی Overwrite Previous Output

  • اضافه کردن داده‌ها به خروجی قبلی Appending Data to Previous Output

Scrapy Item Pipeline Scrapy Item Pipeline

  • چگونه از Scrapy Item Pipelines استفاده کنیم؟ How to use Scrapy Item Pipelines?

  • ذخیره داده‌ها به صورت محلی در فایل‌های Excel (XLSX) Saving Data Locally to Excel ( XLSX ) Files

  • فعال کردن Item Pipelines در تنظیمات Enable Item Pipelines in Settings

  • راه اندازی MongoDB (حساب) MongoDB (Account) Setup

  • ذخیره داده‌ها در MongoDB Saving Data To MonogoDB

Pagination Pagination

  • استخراج لینک‌ها از خصوصیات href Extracting Links From href Attributes

  • ارسال درخواست به صفحه بعدی Send Request to the Next Page

  • متد start_requests() start_requests( ) method

دنبال کردن لینک‌ها Following Links

  • چگونه لینک‌ها را دنبال کنیم؟ How to Follow Links?

  • چگونه داده‌ها را با استفاده از عبارات منظم در Scrapy انتخاب کنیم How to Select Data Using Regular Expressions With Scrapy

  • راه اندازی تابع callback سفارشی Setting Up Custom Callback Function

  • تجزیه و تحلیل صفحه جزئیات محصول Parse Product Details Page

اسکرپینگ جداول Scraping Tables

  • جداول HTML HTML Tables

  • انتخاب داده‌های جداول Selecting Tables Data

  • استخراج داده‌ها از جداول HTML Extract Data From HTML Tables

ورود به وب‌سایت‌ها Logging Into Websites

  • داده‌های پنهان شده با فرم‌های ورود Data Hidden With Logging Forms

  • بررسی فرم‌های HTML و فعالیت وب‌سایت با ابزارهای توسعه‌دهنده Inspecting HTML Forms and Website Activity With Dev Tools

  • ورود به وب‌سایت‌ها با FormRequest Logging Into Websites With FormRequest

  • فرم‌های ورود محافظت شده با CSRF CSRF Protected Login Forms

  • استخراج مقادیر CSRF از فرم‌ها Extract CSRF Values From Forms

اسکرپینگ وب‌سایت‌های رندر شده با جاوا اسکریپت Scraping JavaScript Rendered Websites

  • وب‌سایت‌های رندر شده/دینامیک با جاوا اسکریپت چه هستند؟ What are JavaScript Rendered/Dynamic Websites?

  • نصب scrapy-playwright scrapy-playwright Installation

  • راه اندازی Playwright در پروژه Scrapy Setting Up Playwright in Scrapy Project

  • استفاده از Playwright برای رندر کردن وب‌سایت‌ها Using Playwright To Render Websites

  • اسکرپینگ داده‌ها از وب‌سایت‌های دینامیک Scraping Data From Dynamic Websites

Scrapy Playwright Scrapy Playwright

  • مرور کلی Playwright Playwright Overview

  • شیء صفحه Playwright Playwright Page Object

  • ورود با Playwright Logging In With Playwright

  • وب‌سایت‌های دینامیک با صفحات بارگذاری Dynamic Websites With Loading Screens

  • انتظار برای انتخابگر/عناصر با استفاده از Page Couroutines Wait For Selector/Elements Using Page Couroutines

  • [به روز رسانی] PageCoroutine اکنون PageMethod است [Update] PageCoroutine is now PageMethod

  • وب‌سایت‌های دینامیک با اسکرول بی نهایت Dynamic Websites With Infinite Scroll

  • گرفتن اسکرین‌شات از وب‌سایت‌ها Taking Screenshot of Websites

  • رندر کردن وب‌سایت‌ها به PDF Rendering Websites To PDF

API Endpoints API Endpoints

  • شناسایی فراخوانی‌های API Identifying API Calls

  • درخواست داده از API Requesting Data From API

  • استخراج داده از API Extracting Data From API

تنظیمات Settings

  • تنظیمات پروژه Scrapy Scrapy Project Settings

  • فایل Robots.txt Robots Text

  • Middleware Middleware

  • افزونه Autothrottle Autothrottle Extension

User Agents و Proxies User Agents & Proxies

  • User Agent چیست؟ What are User Agents?

  • User Agent در Scrapy User Agents With Scrapy

  • Proxies چیست؟ What are Proxies?

  • Proxies در Scrapy Proxies With Scrapy

نکات و ترفندها Tips & Tricks

  • آرگومان‌های Spider Spider Arguments

  • Spiderهای مستقل Standalone Spiders

  • Scrapy Shell با bpython Scrapy Shell With bpython

  • متد get در مقابل extract در Scrapy Scrapy get vs extract method

  • لاگینگ Logging

پروژه #1: جدول لیگ قهرمانان از ESPN.com Project #1: Champions League Table From ESPN.com

  • مرور کلی Overview

  • بازرسی بصری وب‌سایت Website Visual Inspection

  • یافتن انتخابگرها Finding The Selectors

  • ساخت Spider: استخراج داده‌های تیم‌ها Building The Spider: Extract Teams Data

  • ساخت Spider: جزئیات تیم‌ها Building The Spider: Extract Teams Details

پروژه #2: رتبه محصول آمازون Project #2: Amazon Product Rank

  • مرور کلی Overview

  • تجسم اسکرپر Scraper Visualization

  • یافتن انتخابگرها Finding The Selectors

  • ساخت Spider Building The Spider

پروژه #3: گسترش اسکرپر با GUI Project #3: Extending Scraper With GUI

  • اپلیکیشن اسکرپر Scraper Application

  • ساخت GUI (رابط کاربری اپلیکیشن) Building The GUI (Application Interface)

  • اجرای Spider از طریق اپلیکیشن Running the Spider From the Application

نمایش نظرات

آموزش اسکرپی مسترکلاس: یادگیری وب اسکرپینگ با فریم‌ورک اسکرپی
جزییات دوره
7.5 hours
97
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
8,105
4.3 از 5
دارد
دارد
دارد
Rahul Mula
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Rahul Mula Rahul Mula

Python Developera Python توسعه دهنده، نویسنده و دانش آموز Rahul در اینجا. من چند کتاب در مورد علوم رایانه ای مانند پایتون برای مبتدیان، علم داده ها با پایتون و غیره نوشته ام که در آمازون منتشر شده اند. شما می توانید آنها را بررسی کنید اگر می خواهید در آمازون بخواهید آن را با عنوان کتاب و نام من جستجو کنید.