آموزش عملی PySpark: پردازش داده‌های حجیم - آخرین آپدیت

دانلود PySpark in Action: Hands-On Data Processing

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: دوره «PySpark در عمل: پردازش عملی داده‌ها» یک دوره کاربردی است که شما را برای کار با اعتماد به نفس با داده‌های مقیاس بزرگ با استفاده از PySpark و چارچوب‌های پردازش توزیع‌شده آماده می‌کند. شما با مفاهیم بنیادی کلان‌داده (Big Data)، آپاچی هادوپ (Apache Hadoop) و آپاچی اسپارک (Apache Spark) آشنا خواهید شد و سپس این دانش را از طریق تمرینات واقعی که در آن مجموعه‌داده‌های عظیم را پردازش و تحلیل می‌کنید، گسترش خواهید داد. در طول این دوره، تجربیات عملی در زمینه‌های زیر کسب خواهید کرد: - مفاهیم پایه کلان‌داده و اجزای اکوسیستم هادوپ مانند HDFS، که شما را قادر می‌سازد ذخیره‌سازی و پردازش مدرن داده‌ها را درک کنید. - معماری اسپارک و اصول طراحی حیاتی برای جریان‌های کاری داده‌های مقیاس‌پذیر و مقاوم در برابر خطا. - تبدیل‌ها (Transformations) و اکشن‌های (Actions) RDD که به شما کمک می‌کند مجموعه‌داده‌های بزرگ را با استفاده از موتور پردازش توزیع‌شده PySpark مدیریت کنید. - تکنیک‌های پیشرفته DataFrame: مدیریت انواع داده‌های پیچیده، انجام تجمیع‌ها (Aggregations) و حل بهینه چالش‌های داده‌های تجاری. - استفاده از PySpark SQL برای اجرای کوئری‌های پیشرفته، بهینه‌سازی جریان‌های پردازش و تحلیل سریع و قابل اعتماد در مقیاس بالا. این دوره برای کسانی که در مهندسی داده یا محاسبات توزیع‌شده تازه‌کار هستند و به دنبال یک شروع عملی با PySpark برای وظایف داده‌های حجیم می‌باشند، ایده‌آل است. اگر مهارت‌های پایه پایتون را دارید اما تجربه قبلی در مهندسی داده ندارید، توضیحات قابل فهم و پروژه‌های گام‌به‌گام در سراسر دوره در دسترس شما خواهد بود. در پایان دوره، شما آماده خواهید بود تا از PySpark در پروژه‌های واقعی استفاده کنید، خط لوله‌های داده (Data Pipelines) را بسازید و نظارت کنید، پردازش‌ها را خودکار کنید، مجموعه‌داده‌های متنوع را پاک‌سازی و ادغام نمایید و با اعتماد به نفس با چالش‌های اصلی تحلیل داده‌های توزیع‌شده مقابله کنید.

سرفصل ها و درس ها

پردازش کلان‌داده با PySpark Big Data Processing with PySpark

  • معرفی دوره Course Introduction

  • کلان‌داده (Big Data) چیست؟ What is Big Data?

  • کاربردهای کلان‌داده Applications of Big Data

  • هادوپ (Hadoop) چیست؟ What is Hadoop?

  • اکوسیستم هادوپ Hadoop Ecosystem

  • نحوه عملکرد HDFS Working of HDFS

  • آشنایی با آپاچی اسپارک Introduction to Apache Spark

  • معماری Master-Slave Master-slave Architecture

  • معماری اسپارک Spark Architecture

  • پردازش داده‌ها با آپاچی اسپارک Data Processing with Apache Spark

  • گراف جهت‌دار بدون دور (DAG) Directed Acyclic Graph (DAG)

  • معرفی اکوسیستم اسپارک Introduction to Spark Ecosystem

  • PySpark چیست؟ What is PySpark?

  • ویژگی‌های کلیدی PySpark Key Features of PySpark

  • مبانی پایتون Basics of Python

کار با RDD Working with RDD

  • آشنایی با RDDها Introduction to RDDs

  • نحوه عملکرد RDDها Working of RDDs

  • ایجاد RDDها Creating RDDs

  • ضروریات RDD Essentials of RDD

  • مفاهیم کلیدی RDD Key Concepts of RDD

  • درک ارزیابی‌های تنبل (Lazy Evaluations) Understanding Lazy Evaluations

  • مزایای ارزیابی تنبل Advantages of Lazy Evaluation

  • آشنایی با تبدیل‌ها (Transformations) Introduction to Transformations

  • تبدیل‌های Narrow و Wide Narrow and Wide Transformations

  • تبدیل‌ها: Map Transformations: Map

  • تبدیل‌ها: Filter، Reduce و groupBykey Transformations: Filter, Reduce and groupBykey

  • تبدیل‌ها: Distinct، Sample و Join Transformations: Distinct, Sample and Join

  • تبدیل‌ها: Union و Subtract Transformations: Union and Subtract

  • آشنایی با Repartition Introduction to Repartition

  • اهمیت Repartition Significance of Repartition

  • آشنایی با اکشن‌ها (Actions) Introduction to Actions

  • اکشن‌ها: collect، reduce و reduceBykey Actions: collect, reduce and reduceBykey

  • پیاده‌سازی اکشن‌های collect، reduce و reduceBykey Implementing Actions: collect, reduce and reduceBykey

  • اکشن‌ها: count، foreach و aggregate Actions: count, foreach and aggregate

  • پیاده‌سازی اکشن‌های count، foreach و aggregate Implementing Actions: count, foreach and aggregate

  • اکشن‌ها: Coalesce، histogram و sortby Actions: Coalesce, histogram and sortby

  • پیاده‌سازی اکشن‌های Coalesce، histogram و sortby Implementing Actions: Coalesce, histogram and sortby

  • کار با تبدیل‌های RDD Working with RDD Transformations

  • اعمال تبدیل‌های Distinct، sample و join Applying Distinct, sample and join Transformations

  • تحلیل داده‌های فروشگاه مواد غذایی با PySPark RDDs Grocery Store Data Analysis with PySPark RDDs

دیتافریم‌های PySpark PySpark DataFrames

  • مروری بر دیتافریم‌ها (DataFrames) Overview of Data frames

  • آشنایی با API دیتافریم‌ها Introduction to DataFrames API

  • ایجاد دیتافریم از منابع مختلف Creating Data Frames from Different Sources

  • ایجاد دیتافریم از RDD Data Frames from RDD

  • عملیات پایه دیتافریم Basic DataFrame Operations

  • پیاده‌سازی عملیات دیتافریم Implementation of DataFrame Operations

  • انجام تجمیع‌ها و گروه‌بندی‌ها: GroupBy و Window Performing Aggregations and Groupings - GroupBy and Window

  • انجام تجمیع‌ها و گروه‌بندی‌ها: Cube و Rollup Performing Aggregations and Groupings - Cube and Rollup

  • مدیریت داده‌های گم‌شده: مدیریت مقادیر Null Handling Missing Data - Managing Null Values

  • دموی مدیریت داده‌های گم‌شده Demonstration for Handling Missing Data

  • کار با انواع داده‌های پیچیده: Arrays و Structs Working with Complex Data Types - Arrays and Structs

  • دموی کار با انواع داده‌های پیچیده Demonstration for Working with Complex Data Types

  • تبدیل‌ها و اکشن‌های پیشرفته دیتافریم Advanced DataFrame Transformations and Actions

  • دمو: کار با دیتافریم‌ها Demonstration: Working with DataFrames

  • آشنایی با بصری‌سازی داده‌ها و جنبه‌های کلیدی Introduction to Data Visualization and Key Aspects

  • مقدمه‌ای بر بصری‌سازی داده‌ها: نمودارهای کلی Introduction to Data Visualization - General Visuals

  • کتابخانه‌های بصری‌سازی داده‌ها: Matplotlib و Seaborn Libraries for Data Visualization - Matplotlib and Seaborn

  • کتابخانه‌های بصری‌سازی داده‌ها: Plotly Libraries for Data Visualization - Plotly

  • پیاده‌سازی بصری‌سازی داده‌ها Implementing Data Visualization

  • پیاده‌سازی بصری‌سازی داده‌ها: رسم نمودارها Implementing Data Visualization - Plotting Charts

  • سفارشی‌سازی بصری‌سازی‌ها Customizing the Visualizations

  • سفارشی‌سازی نمودارها و جلوه‌های بصری Customizing Charts and Visuals

اس‌کی‌یو‌ال PySpark PySpark SQL

  • داده‌های ساختاریافته در مقابل داده‌های بدون ساختار Structured Data vs. Unstructured Data

  • ویژگی‌های داده‌های ساختاریافته Characteristic of Structured Data

  • پایگاه داده رابطه‌ای و اجزای آن Relational Database and its Components

  • رابطه SQL با پایگاه داده‌های رابطه‌ای SQL in Relation with Relational Database

  • نرمال‌سازی و انواع آن Normalization and its Types

  • بررسی انواع مختلف نرمال‌سازی Exploring Different Types of Normalization

  • منطق کوئری‌نویسی و فیلتر کردن داده‌ها Data Querying and Filtering Logic

  • دستورات DDL: ایجاد جداول DDL Commands - Creating Tables

  • دستورات DDL: تغییر و خالی کردن جداول DDL Commands - Altering and Truncating Tables

  • دستورات DQL: عبارت Select و شرط Where DQL Commands - Select Statement and Where Clause

  • دستورات DQL: پیاده‌سازی عملی DQL Commands - Practical Implementation

  • دستورات DML: درج (Insert)، به‌روزرسانی (Update) و حذف (Delete) DML Commands - Insert, Update, and Delete

  • دستورات DML: قفل (Lock) DML Commands - Lock

  • دستورات DCL DCL Commands

  • دستورات TCL TCL Commands

  • Alter: تغییر جدول و محدودیت‌ها (Constraints) Alter - Altering a Table and Constraints

  • Alter: تغییر ایندکس‌ها و Viewها Alter - Altering Indexes and Views

  • انجام عملیات CRUD Performing CRUD Operations

  • عملیات روی دیتافریم‌های PySpark SQL Operations on PySpark SQL DataFrames

  • انجام عملیات روی دیتافریم‌های PySpark SQL Performing Operations on PySpark SQL DataFrames

  • ادغام داده‌ها و تجمیع با استفاده از PySpark SQL Data Merging and Aggregation using PySpark SQL

  • پیاده‌سازی ادغام و تجمیع داده‌ها با PySpark SQL Implementing Data Merging and Aggregation using PySpark SQL

  • بهترین روش‌های (Best Practices) نوشتن SQL SQL Best Practices

  • یکپارچگی داده‌ها و مدیریت خطا با PySpark Data Integrity and Error Handling with PySpark

  • طرح مسئله: سازمان تجارت الکترونیک Problem Statement: Ecommerce Organization

  • تحلیل داده‌های یک سازمان تجارت الکترونیک Data Analysis of an E-commerce Organization

  • دمو: Spark SQL در سازمان خرده‌فروشی Demonstration: Spark SQL - Retail Organization

  • دمو: تحلیل داده‌ها Demonstration: Analyzing the Data

جمع‌بندی دوره و ارزیابی Course Wrap Up and Assessment

  • خلاصه دوره PySpark در عمل Course Summary of PySpark in Action

نمایش نظرات

آموزش عملی PySpark: پردازش داده‌های حجیم
جزییات دوره
15h 11m
91
(آخرین آپدیت)
925
3.2 از 5
دارد
دارد
دارد
Chris Croft
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Chris Croft Chris Croft

مربی مدیریت، سخنران، نویسنده