دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش عملی PySpark: پردازش داده‌های حجیم - آخرین آپدیت

دانلود PySpark in Action: Hands-On Data Processing

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: دوره «PySpark در عمل: پردازش عملی داده‌ها» یک دوره کاربردی است که شما را برای کار با اعتماد به نفس با داده‌های مقیاس بزرگ با استفاده از PySpark و چارچوب‌های پردازش توزیع‌شده آماده می‌کند. شما با مفاهیم بنیادی کلان‌داده (Big Data)، آپاچی هادوپ (Apache Hadoop) و آپاچی اسپارک (Apache Spark) آشنا خواهید شد و سپس این دانش را از طریق تمرینات واقعی که در آن مجموعه‌داده‌های عظیم را پردازش و تحلیل می‌کنید، گسترش خواهید داد. در طول این دوره، تجربیات عملی در زمینه‌های زیر کسب خواهید کرد: - مفاهیم پایه کلان‌داده و اجزای اکوسیستم هادوپ مانند HDFS، که شما را قادر می‌سازد ذخیره‌سازی و پردازش مدرن داده‌ها را درک کنید. - معماری اسپارک و اصول طراحی حیاتی برای جریان‌های کاری داده‌های مقیاس‌پذیر و مقاوم در برابر خطا. - تبدیل‌ها (Transformations) و اکشن‌های (Actions) RDD که به شما کمک می‌کند مجموعه‌داده‌های بزرگ را با استفاده از موتور پردازش توزیع‌شده PySpark مدیریت کنید. - تکنیک‌های پیشرفته DataFrame: مدیریت انواع داده‌های پیچیده، انجام تجمیع‌ها (Aggregations) و حل بهینه چالش‌های داده‌های تجاری. - استفاده از PySpark SQL برای اجرای کوئری‌های پیشرفته، بهینه‌سازی جریان‌های پردازش و تحلیل سریع و قابل اعتماد در مقیاس بالا. این دوره برای کسانی که در مهندسی داده یا محاسبات توزیع‌شده تازه‌کار هستند و به دنبال یک شروع عملی با PySpark برای وظایف داده‌های حجیم می‌باشند، ایده‌آل است. اگر مهارت‌های پایه پایتون را دارید اما تجربه قبلی در مهندسی داده ندارید، توضیحات قابل فهم و پروژه‌های گام‌به‌گام در سراسر دوره در دسترس شما خواهد بود. در پایان دوره، شما آماده خواهید بود تا از PySpark در پروژه‌های واقعی استفاده کنید، خط لوله‌های داده (Data Pipelines) را بسازید و نظارت کنید، پردازش‌ها را خودکار کنید، مجموعه‌داده‌های متنوع را پاک‌سازی و ادغام نمایید و با اعتماد به نفس با چالش‌های اصلی تحلیل داده‌های توزیع‌شده مقابله کنید.

سرفصل ها و درس ها

پردازش کلان‌داده با PySpark Big Data Processing with PySpark

معرفی دوره Course Introduction
کلان‌داده (Big Data) چیست؟ What is Big Data?
کاربردهای کلان‌داده Applications of Big Data
هادوپ (Hadoop) چیست؟ What is Hadoop?
اکوسیستم هادوپ Hadoop Ecosystem
نحوه عملکرد HDFS Working of HDFS
آشنایی با آپاچی اسپارک Introduction to Apache Spark
معماری Master-Slave Master-slave Architecture
معماری اسپارک Spark Architecture
پردازش داده‌ها با آپاچی اسپارک Data Processing with Apache Spark
گراف جهت‌دار بدون دور (DAG) Directed Acyclic Graph (DAG)
معرفی اکوسیستم اسپارک Introduction to Spark Ecosystem
PySpark چیست؟ What is PySpark?
ویژگی‌های کلیدی PySpark Key Features of PySpark
مبانی پایتون Basics of Python

کار با RDD Working with RDD

آشنایی با RDDها Introduction to RDDs
نحوه عملکرد RDDها Working of RDDs
ایجاد RDDها Creating RDDs
ضروریات RDD Essentials of RDD
مفاهیم کلیدی RDD Key Concepts of RDD
درک ارزیابی‌های تنبل (Lazy Evaluations) Understanding Lazy Evaluations
مزایای ارزیابی تنبل Advantages of Lazy Evaluation
آشنایی با تبدیل‌ها (Transformations) Introduction to Transformations
تبدیل‌های Narrow و Wide Narrow and Wide Transformations
تبدیل‌ها: Map Transformations: Map
تبدیل‌ها: Filter، Reduce و groupBykey Transformations: Filter, Reduce and groupBykey
تبدیل‌ها: Distinct، Sample و Join Transformations: Distinct, Sample and Join
تبدیل‌ها: Union و Subtract Transformations: Union and Subtract
آشنایی با Repartition Introduction to Repartition
اهمیت Repartition Significance of Repartition
آشنایی با اکشن‌ها (Actions) Introduction to Actions
اکشن‌ها: collect، reduce و reduceBykey Actions: collect, reduce and reduceBykey
پیاده‌سازی اکشن‌های collect، reduce و reduceBykey Implementing Actions: collect, reduce and reduceBykey
اکشن‌ها: count، foreach و aggregate Actions: count, foreach and aggregate
پیاده‌سازی اکشن‌های count، foreach و aggregate Implementing Actions: count, foreach and aggregate
اکشن‌ها: Coalesce، histogram و sortby Actions: Coalesce, histogram and sortby
پیاده‌سازی اکشن‌های Coalesce، histogram و sortby Implementing Actions: Coalesce, histogram and sortby
کار با تبدیل‌های RDD Working with RDD Transformations
اعمال تبدیل‌های Distinct، sample و join Applying Distinct, sample and join Transformations
تحلیل داده‌های فروشگاه مواد غذایی با PySPark RDDs Grocery Store Data Analysis with PySPark RDDs

دیتافریم‌های PySpark PySpark DataFrames

مروری بر دیتافریم‌ها (DataFrames) Overview of Data frames
آشنایی با API دیتافریم‌ها Introduction to DataFrames API
ایجاد دیتافریم از منابع مختلف Creating Data Frames from Different Sources
ایجاد دیتافریم از RDD Data Frames from RDD
عملیات پایه دیتافریم Basic DataFrame Operations
پیاده‌سازی عملیات دیتافریم Implementation of DataFrame Operations
انجام تجمیع‌ها و گروه‌بندی‌ها: GroupBy و Window Performing Aggregations and Groupings - GroupBy and Window
انجام تجمیع‌ها و گروه‌بندی‌ها: Cube و Rollup Performing Aggregations and Groupings - Cube and Rollup
مدیریت داده‌های گم‌شده: مدیریت مقادیر Null Handling Missing Data - Managing Null Values
دموی مدیریت داده‌های گم‌شده Demonstration for Handling Missing Data
کار با انواع داده‌های پیچیده: Arrays و Structs Working with Complex Data Types - Arrays and Structs
دموی کار با انواع داده‌های پیچیده Demonstration for Working with Complex Data Types
تبدیل‌ها و اکشن‌های پیشرفته دیتافریم Advanced DataFrame Transformations and Actions
دمو: کار با دیتافریم‌ها Demonstration: Working with DataFrames
آشنایی با بصری‌سازی داده‌ها و جنبه‌های کلیدی Introduction to Data Visualization and Key Aspects
مقدمه‌ای بر بصری‌سازی داده‌ها: نمودارهای کلی Introduction to Data Visualization - General Visuals
کتابخانه‌های بصری‌سازی داده‌ها: Matplotlib و Seaborn Libraries for Data Visualization - Matplotlib and Seaborn
کتابخانه‌های بصری‌سازی داده‌ها: Plotly Libraries for Data Visualization - Plotly
پیاده‌سازی بصری‌سازی داده‌ها Implementing Data Visualization
پیاده‌سازی بصری‌سازی داده‌ها: رسم نمودارها Implementing Data Visualization - Plotting Charts
سفارشی‌سازی بصری‌سازی‌ها Customizing the Visualizations
سفارشی‌سازی نمودارها و جلوه‌های بصری Customizing Charts and Visuals

اس‌کی‌یو‌ال PySpark PySpark SQL

داده‌های ساختاریافته در مقابل داده‌های بدون ساختار Structured Data vs. Unstructured Data
ویژگی‌های داده‌های ساختاریافته Characteristic of Structured Data
پایگاه داده رابطه‌ای و اجزای آن Relational Database and its Components
رابطه SQL با پایگاه داده‌های رابطه‌ای SQL in Relation with Relational Database
نرمال‌سازی و انواع آن Normalization and its Types
بررسی انواع مختلف نرمال‌سازی Exploring Different Types of Normalization
منطق کوئری‌نویسی و فیلتر کردن داده‌ها Data Querying and Filtering Logic
دستورات DDL: ایجاد جداول DDL Commands - Creating Tables
دستورات DDL: تغییر و خالی کردن جداول DDL Commands - Altering and Truncating Tables
دستورات DQL: عبارت Select و شرط Where DQL Commands - Select Statement and Where Clause
دستورات DQL: پیاده‌سازی عملی DQL Commands - Practical Implementation
دستورات DML: درج (Insert)، به‌روزرسانی (Update) و حذف (Delete) DML Commands - Insert, Update, and Delete
دستورات DML: قفل (Lock) DML Commands - Lock
دستورات DCL DCL Commands
دستورات TCL TCL Commands
Alter: تغییر جدول و محدودیت‌ها (Constraints) Alter - Altering a Table and Constraints
Alter: تغییر ایندکس‌ها و Viewها Alter - Altering Indexes and Views
انجام عملیات CRUD Performing CRUD Operations
عملیات روی دیتافریم‌های PySpark SQL Operations on PySpark SQL DataFrames
انجام عملیات روی دیتافریم‌های PySpark SQL Performing Operations on PySpark SQL DataFrames
ادغام داده‌ها و تجمیع با استفاده از PySpark SQL Data Merging and Aggregation using PySpark SQL
پیاده‌سازی ادغام و تجمیع داده‌ها با PySpark SQL Implementing Data Merging and Aggregation using PySpark SQL
بهترین روش‌های (Best Practices) نوشتن SQL SQL Best Practices
یکپارچگی داده‌ها و مدیریت خطا با PySpark Data Integrity and Error Handling with PySpark
طرح مسئله: سازمان تجارت الکترونیک Problem Statement: Ecommerce Organization
تحلیل داده‌های یک سازمان تجارت الکترونیک Data Analysis of an E-commerce Organization
دمو: Spark SQL در سازمان خرده‌فروشی Demonstration: Spark SQL - Retail Organization
دمو: تحلیل داده‌ها Demonstration: Analyzing the Data

جمع‌بندی دوره و ارزیابی Course Wrap Up and Assessment

خلاصه دوره PySpark در عمل Course Summary of PySpark in Action

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش عملی PySpark: پردازش داده‌های حجیم

جزییات دوره

زمان دوره: 15h 11m

تعداد ویدیو ها: 91

شرکت: Coursera (کورسرا)

تاریخ انتشار مرجع: (آخرین آپدیت)

بازدید مرجع : 925

امتیاز مرجع: 3.2 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Chris Croft

لینک کوتاه این دوره

https://donyad.com/d/bd49c3

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

SQL Data Manipulation Data Storage Apache Spark Data Storage Technologies Data Integration Distributed Computing Data Processing Data Transformation Performance Tuning Data Wrangling Apache Hadoop Big Data PySpark Data Pipelines Data Architecture

آموزش عملی PySpark: پردازش داده‌های حجیم - آخرین آپدیت

دانلود PySpark in Action: Hands-On Data Processing

پردازش کلان‌داده با PySpark Big Data Processing with PySpark

معرفی دوره Course Introduction

کلان‌داده (Big Data) چیست؟ What is Big Data?

کاربردهای کلان‌داده Applications of Big Data

هادوپ (Hadoop) چیست؟ What is Hadoop?

اکوسیستم هادوپ Hadoop Ecosystem

نحوه عملکرد HDFS Working of HDFS

آشنایی با آپاچی اسپارک Introduction to Apache Spark

معماری Master-Slave Master-slave Architecture

معماری اسپارک Spark Architecture

پردازش داده‌ها با آپاچی اسپارک Data Processing with Apache Spark

گراف جهت‌دار بدون دور (DAG) Directed Acyclic Graph (DAG)

معرفی اکوسیستم اسپارک Introduction to Spark Ecosystem

PySpark چیست؟ What is PySpark?

ویژگی‌های کلیدی PySpark Key Features of PySpark

مبانی پایتون Basics of Python

کار با RDD Working with RDD

آشنایی با RDDها Introduction to RDDs

نحوه عملکرد RDDها Working of RDDs

ایجاد RDDها Creating RDDs

ضروریات RDD Essentials of RDD

مفاهیم کلیدی RDD Key Concepts of RDD

درک ارزیابی‌های تنبل (Lazy Evaluations) Understanding Lazy Evaluations

مزایای ارزیابی تنبل Advantages of Lazy Evaluation

آشنایی با تبدیل‌ها (Transformations) Introduction to Transformations

تبدیل‌های Narrow و Wide Narrow and Wide Transformations

تبدیل‌ها: Map Transformations: Map

تبدیل‌ها: Filter، Reduce و groupBykey Transformations: Filter, Reduce and groupBykey

تبدیل‌ها: Distinct، Sample و Join Transformations: Distinct, Sample and Join

تبدیل‌ها: Union و Subtract Transformations: Union and Subtract

آشنایی با Repartition Introduction to Repartition

اهمیت Repartition Significance of Repartition

آشنایی با اکشن‌ها (Actions) Introduction to Actions

اکشن‌ها: collect، reduce و reduceBykey Actions: collect, reduce and reduceBykey

پیاده‌سازی اکشن‌های collect، reduce و reduceBykey Implementing Actions: collect, reduce and reduceBykey

اکشن‌ها: count، foreach و aggregate Actions: count, foreach and aggregate

پیاده‌سازی اکشن‌های count، foreach و aggregate Implementing Actions: count, foreach and aggregate

اکشن‌ها: Coalesce، histogram و sortby Actions: Coalesce, histogram and sortby

پیاده‌سازی اکشن‌های Coalesce، histogram و sortby Implementing Actions: Coalesce, histogram and sortby

کار با تبدیل‌های RDD Working with RDD Transformations

اعمال تبدیل‌های Distinct، sample و join Applying Distinct, sample and join Transformations

تحلیل داده‌های فروشگاه مواد غذایی با PySPark RDDs Grocery Store Data Analysis with PySPark RDDs

دیتافریم‌های PySpark PySpark DataFrames

مروری بر دیتافریم‌ها (DataFrames) Overview of Data frames

آشنایی با API دیتافریم‌ها Introduction to DataFrames API

ایجاد دیتافریم از منابع مختلف Creating Data Frames from Different Sources

ایجاد دیتافریم از RDD Data Frames from RDD

عملیات پایه دیتافریم Basic DataFrame Operations

پیاده‌سازی عملیات دیتافریم Implementation of DataFrame Operations

انجام تجمیع‌ها و گروه‌بندی‌ها: GroupBy و Window Performing Aggregations and Groupings - GroupBy and Window

انجام تجمیع‌ها و گروه‌بندی‌ها: Cube و Rollup Performing Aggregations and Groupings - Cube and Rollup

مدیریت داده‌های گم‌شده: مدیریت مقادیر Null Handling Missing Data - Managing Null Values

دموی مدیریت داده‌های گم‌شده Demonstration for Handling Missing Data

کار با انواع داده‌های پیچیده: Arrays و Structs Working with Complex Data Types - Arrays and Structs

دموی کار با انواع داده‌های پیچیده Demonstration for Working with Complex Data Types

تبدیل‌ها و اکشن‌های پیشرفته دیتافریم Advanced DataFrame Transformations and Actions

دمو: کار با دیتافریم‌ها Demonstration: Working with DataFrames

آشنایی با بصری‌سازی داده‌ها و جنبه‌های کلیدی Introduction to Data Visualization and Key Aspects

مقدمه‌ای بر بصری‌سازی داده‌ها: نمودارهای کلی Introduction to Data Visualization - General Visuals

کتابخانه‌های بصری‌سازی داده‌ها: Matplotlib و Seaborn Libraries for Data Visualization - Matplotlib and Seaborn

کتابخانه‌های بصری‌سازی داده‌ها: Plotly Libraries for Data Visualization - Plotly

پیاده‌سازی بصری‌سازی داده‌ها Implementing Data Visualization

پیاده‌سازی بصری‌سازی داده‌ها: رسم نمودارها Implementing Data Visualization - Plotting Charts

سفارشی‌سازی بصری‌سازی‌ها Customizing the Visualizations

سفارشی‌سازی نمودارها و جلوه‌های بصری Customizing Charts and Visuals

اس‌کی‌یو‌ال PySpark PySpark SQL

داده‌های ساختاریافته در مقابل داده‌های بدون ساختار Structured Data vs. Unstructured Data

ویژگی‌های داده‌های ساختاریافته Characteristic of Structured Data

پایگاه داده رابطه‌ای و اجزای آن Relational Database and its Components

رابطه SQL با پایگاه داده‌های رابطه‌ای SQL in Relation with Relational Database

نرمال‌سازی و انواع آن Normalization and its Types

بررسی انواع مختلف نرمال‌سازی Exploring Different Types of Normalization

منطق کوئری‌نویسی و فیلتر کردن داده‌ها Data Querying and Filtering Logic

دستورات DDL: ایجاد جداول DDL Commands - Creating Tables

دستورات DDL: تغییر و خالی کردن جداول DDL Commands - Altering and Truncating Tables

دستورات DQL: عبارت Select و شرط Where DQL Commands - Select Statement and Where Clause

دستورات DQL: پیاده‌سازی عملی DQL Commands - Practical Implementation

دستورات DML: درج (Insert)، به‌روزرسانی (Update) و حذف (Delete) DML Commands - Insert, Update, and Delete