دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش جامع Apache Spark با PySpark 2026: از صفر تا متخصص + Delta Lake - آخرین آپدیت

دانلود Apache Spark with PySpark 2026: Zero to Expert + Delta Lake top rated

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: دوره جامع و عملی | PySpark 4 + Delta Lake 3 + استریمینگ ساختاریافته + پروژه‌های واقعی | Databricks تسلط بر Apache Spark با پایتون (PySpark 4.x) از سطح مبتدی تا سطح آماده برای محیط عملیاتی (Production) ساخت و استقرار خط لوله‌های داده (Data Pipelines) جامع با استفاده از Delta Lake – پرتقاضاترین تکنولوژی اسپارک در سال‌های 2025-2026 (تراکنش‌های ACID، سفر در زمان/Time Travel، تکامل شمای داده‌ها) پیاده‌سازی اپلیکیشن‌های استریمینگ بلادرنگ با Structured Streaming + Kafka، شامل پردازش Exactly-once، واترمارکینگ و Delta Lake sinks طراحی و بهینه‌سازی جاب‌های مقیاس‌بزرگ اسپارک (بهینه‌ساز Catalyst، AQE، مدیریت Skew، برودکستینگ، پارتیشن‌بندی و باکتیینگ) برای پردازش بهینه ترابایت‌ها داده اجرای 4 پروژه کامل و واقعی برای افزودن به رزومه و گیت‌هاب: تحلیل تاکسی‌های نیویورک (بیش از 10 گیگابایت)، خط لوله پردازش لاگ‌ها، سیستم پیشنهاد فیلم کار حرفه‌ای در نقش مهندس داده با استفاده از Databricks Community Edition (رایگان) – همان پلتفرمی که توسط نتفلیکس، اوبر و 90% شرکت‌های Fortune 500 استفاده می‌شود به‌کارگیری یادگیری ماشین در مقیاس بالا با Spark MLlib، Pandas UDFs، XGBoost و ترانسفورمرهای Hugging Face استقرار اپلیکیشن‌های اسپارک روی AWS EMR، GCP Dataproc و Azure Synapse پیشنیازها: دانش پایه پایتون – باید با متغیرها، توابع، لیست‌ها، دیکشنری‌ها و نوشتن اسکریپت‌های ساده آشنا باشید. اگر می‌توانید یک حلقه for بنویسید و تابع تعریف کنید، آماده هستید. دانش پایه SQL مفید است اما اجباری نیست – هر آنچه نیاز باشد در دوره پوشش می‌دهیم. یک کامپیوتر (مک، ویندوز یا لینوکس) با اتصال اینترنت – تمامی دموها روی مک‌بوک ضبط شده‌اند اما در هر سیستم‌عاملی اجرا می‌شوند. VS Code (یا ادیتور مورد علاقه شما) – ما منحصراً در فایل‌های .py کدنویسی می‌کنیم و آن‌ها را از ترمینال اجرا می‌کنیم. از Jupyter notebooks یا Google Colab استفاده نخواهیم کرد تا از روز اول گردش کار حرفه‌ای را بیاموزید.

در سال 2026 با کامل‌ترین و به‌روزترین دوره PySpark در Udemy به متخصص اسپارک تبدیل شوید

تسلط بر Apache Spark با پایتون (PySpark) از صفر تا سطح عملیاتی، شامل تکنولوژی‌هایی که 95% مشاغل اسپارک در سال‌های 2025-2026 از آن‌ها استفاده می‌کنند:

•Delta Lake (مورد نیازترین مهارت در سال 2025-2026)

•Structured Streaming + Kafka

•گردش کار Databricks Lakehouse (نسخه Community – 100% رایگان)

•داشبوردهای بلادرنگ، سیستم‌های پیشنهاددهنده، تحلیل احساسات

•4پروژه کامل و واقعی برای قرار دادن مستقیم در رزومه

آنچه خواهید آموخت (به صورت کاملاً عملی):

✓Spark Core، RDDs، DataFrames، Datasets و Spark SQL (80% از کارهایی که هر روز انجام خواهید داد)

✓بررسی عمیق معماری اسپارک (Driver, Executors, Shuffle, Partitions, Skew)

✓تسلط بر بهینه‌سازی عملکرد (Catalyst, AQE, Tungsten, Z-Ordering, Broadcasting)

✓استک کامل Delta Lake: ACID, Time Travel, Schema Evolution, MERGE, OPTIMIZE

✓استریمینگ ساختاریافته با Kafka + Exactly-once + Watermarking + Delta Sink

✓یادگیری ماشین با اسپارک: MLlib + Pandas UDF + XGBoost + HuggingFace

✓استقرار روی AWS EMR, GCP Dataproc, Azure + گردش کار کامل Databricks

✓4پروژه آماده عملیاتی: تحلیل تاکسی‌های نیویورک (+10 گیگابایت)، خط لوله لاگ، سیستم پیشنهاد فیلم مشابه نتفلیکس، داشبورد بلادرنگ تحلیل احساسات توییتر

بدون تئوری‌های خسته‌کننده – هر مفهوم با کدنویسی زنده + نوت‌بوک‌های قابل دانلود آموزش داده شده است.

دو روش برای کدنویسی (شما انتخاب کنید):

•محیط 100% محلی (نصب روی Mac/Windows)

•Databricks Community Edition (همیشه رایگان – همان ابزاری که در شرکت‌های Fortune 500 استفاده می‌شود)

مناسب برای:

•مهندسان داده و مهندسان Big Data که به دنبال مشاغل با درآمد بالا هستند

•دانشمندانی داده که می‌خواهند با مجموعه‌داده‌های بیش از 100 گیگابایت کار کنند

•تحلیل‌گرانی که می‌خواهند سرعت SQL خود را 10 برابر کنند

•هر کسی که برای گواهینامه‌های Databricks یا Spark آماده می‌شود

شامل:

•تمامی نوت‌بوک‌ها + مجموعه‌داده‌ها + فایل‌های Docker

•چک‌لیست‌های PDF (PySpark, Delta Lake, Streaming)

•بیش از 100 سوال مصاحبه به همراه پاسخ

•جامعه خصوصی دیسکورد + پشتیبانی مستقیم

•آپدیت‌های مادام‌العمر (نسخه‌های Spark 4.x و Delta Lake 3.x و 4.x در حال حاضر گنجانده شده‌اند)

همین حالا ثبت‌نام کنید – ضمانت بازگشت وجه 30 روزه

روی “خرید اکنون”کلیک کنید و در پرتقاضاترین تکنولوژی بیگ‌دیتای سال 2026 متخصص شوید!

سرفصل ها و درس ها

مقدمه و نقشه راه دوره Introduction & Course Roadmap

مقدمه اسپارک و بررسی کلی دوره Spark Introduction + Course Overview
چرا اسپارک؟ Why Spark ?

راه اندازی محیط توسعه Setting up the Development Environment

درک معماری و اجزای اسپارک Understanding Spark's Architecture and Components
نصب سریع PySpark (برای ویندوز) Quick Pyspark Installation (For Windows)
راهنمای نصب سریع PySpark (برای مک‌بوک) Quick Pyspark Installation Help (Macbook)
مهم: نحوه کار با کدها در این دوره (به‌ویژه مثال‌های طولانی) Important: How to Work with Code in This Course (Especially Longer Examples)

معماری اسپارک Spark Architecture

درایور، اجرا کننده‌ها و مدیر کلاستر Driver, Executors, Cluster Manager
عملیات Shuffle، پارتیشن‌ها، تبدیل‌های Narrow در مقابل Wide Shuffle operations, partitions, narrow vs wide transformations
متغیرهای Broadcast و Accumulators Broadcast variables & accumulators

مبانی اسپارک با PySpark Spark Fundamentals with PySpark

SparkSession و مقایسه RDD در مقابل DataFrame و Dataset SparkSession, RDDs vs DataFrames vs Datasets
تبدیل‌ها (Transformations) و اکشن‌ها (Actions) Transformations & Actions (map, filter, reduceByKey, collect…)
توضیح ارزیابی تنبل (Lazy Evaluation) Lazy evaluation explained
کشینگ و Persistence Caching & persistence
تست تسلط بر مبانی: RDDها، دیتا فریم‌ها و Lazy Evaluation Spark Fundamentals Mastery Check: RDDs, DataFrames & Lazy Evaluation

اسپارک SQL و دیتا فریم‌ها (80% از کارهای واقعی) Spark SQL & DataFrames (80% of real jobs)

خواندن و نوشتن فایل‌های CSV, JSON, Parquet, JDBC Reading/Writing CSV, JSON, Parquet, JDBC
عملیات روی دیتا فریم (select, filter, groupBy, agg, join) DataFrame operations (select, filter, groupBy, agg, join)
پرس‌وجوهای Spark SQL Spark SQL queries
توابع Window و توابع تحلیلی Window functions & analytics functions

استریمینگ ساختاریافته Structured Streaming

ترکیب Kafka و Spark Streaming Kafka + Spark Streaming
داشبوردهای بلادرنگ: ساخت داشبورد تحلیلی مشابه Spotify Wrapped Real-time Dashboards: Create a Spotify Wrapped-style Analytics Dashboard
استفاده از ForeachBatch و Delta Lake sink ForeachBatch + Delta Lake sink
واترمارکینگ و داده‌های دیررس Watermarking & late data
پردازش Exactly once با Kafka و Delta (به زودی) Exactly-once with Kafka + Delta (comming)

دلتا لیک و نسخه رایگان Databricks Delta Lake + Databricks Community Edition

دلتا لیک: استاندارد مدرن Lakehouse داده Delta Lake - The Modern Data Lakehouse Standard
شروع کار با Delta Lake به صورت محلی (نصب 2 دقیقه‌ای) Getting Started with Delta Lake Locally (PySpark + 2 Minutes Setup)
تراکنش‌های ACID، سفر در زمان و نسخه‌بندی داده‌ها ACID Transactions, Time Travel, and Data Versioning
اجبار در شمای داده‌ها (Schema Enforcement) و تکامل ایمن شما Schema Enforcement and Safe Schema Evolution
عملیات Upsert، حذف و ابعاد به آرامی تغییر کننده با MERGE (به زودی) Upserts, Deletes, and Slowly Changing Dimensions with MERGE (comming)
بهترین روش‌های Z Ordering, OPTIMIZE و عملکرد پرس‌وجو (به زودی) Z-Ordering, OPTIMIZE, and Query Performance Best Practices (comming)

یادگیری ماشین با MLlib Machine Learning with MLib

پایپ‌لاین‌های ML، ترانسفورمرها و تخمین‌زن‌ها ML Pipelines, transformers, estimators
طبقه‌بندی، رگرسیون و خوشه‌بندی Classification, regression, clustering
اعتبارسنجی متقابل (Cross validation) و تنظیم هایپرپارامترها Cross-validation & hyperparameter tuning
ترکیب Spark با Pandas UDF و scikit learn / XGBoost Spark + Pandas UDF + scikit-learn / XGBoost
ترکیب Spark با HuggingFace Spark + HuggingFace

بهینه‌سازی و تنظیم عملکرد اسپارک Spark Optimization & Performance Tuning

بهینه‌ساز Catalyst و Tungsten Catalyst optimizer, Tungsten
پارتیشن‌بندی، باکتیینگ و AQE Partitioning, bucketing, AQE
مدیریت Skew (به زودی) Handling skew (comming)

پروژه‌های دنیای واقعی Real-World Projects

تحلیل داده‌های تاکسی نیویورک NYC Taxi analysis
خط لوله پردازش لاگ‌ها Log processing pipeline
سیستم پیشنهاد فیلم Movie recommendation system
داشبورد بلادرنگ تحلیل احساسات X (توییتر) X (Twitter) sentiment real-time dashboard
پروژه خط لوله بر پایه DLT (به زودی) DLT-based pipeline project (comming)

اسپارک در فضای ابری Spark on the Cloud

بررسی AWS EMR, GCP Dataproc, Azure Synapse AWS EMR, GCP Dataproc, Azure Synapse
گردش کار کامل در Databricks Community Edition (به زودی) Databricks Community Edition full workflow (comming)

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش جامع Apache Spark با PySpark 2026: از صفر تا متخصص + Delta Lake

جزییات دوره

زمان دوره: 14.5 hours

تعداد ویدیو ها: 43

شرکت: Udemy (یودمی)

تاریخ انتشار مرجع: (آخرین آپدیت)

ثبت نام مرجع : 40

امتیاز مرجع: 5 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Aymeric Daniel Neuvy

لینک کوتاه این دوره

https://donyad.com/d/707746

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

آموزش جامع Apache Spark با PySpark 2026: از صفر تا متخصص + Delta Lake - آخرین آپدیت

دانلود Apache Spark with PySpark 2026: Zero to Expert + Delta Lake top rated

مقدمه و نقشه راه دوره Introduction & Course Roadmap

مقدمه اسپارک و بررسی کلی دوره Spark Introduction + Course Overview

چرا اسپارک؟ Why Spark ?

راه اندازی محیط توسعه Setting up the Development Environment

درک معماری و اجزای اسپارک Understanding Spark's Architecture and Components

نصب سریع PySpark (برای ویندوز) Quick Pyspark Installation (For Windows)

راهنمای نصب سریع PySpark (برای مک‌بوک) Quick Pyspark Installation Help (Macbook)

مهم: نحوه کار با کدها در این دوره (به‌ویژه مثال‌های طولانی) Important: How to Work with Code in This Course (Especially Longer Examples)

معماری اسپارک Spark Architecture

درایور، اجرا کننده‌ها و مدیر کلاستر Driver, Executors, Cluster Manager

عملیات Shuffle، پارتیشن‌ها، تبدیل‌های Narrow در مقابل Wide Shuffle operations, partitions, narrow vs wide transformations

متغیرهای Broadcast و Accumulators Broadcast variables & accumulators

مبانی اسپارک با PySpark Spark Fundamentals with PySpark

SparkSession و مقایسه RDD در مقابل DataFrame و Dataset SparkSession, RDDs vs DataFrames vs Datasets

تبدیل‌ها (Transformations) و اکشن‌ها (Actions) Transformations & Actions (map, filter, reduceByKey, collect…)

توضیح ارزیابی تنبل (Lazy Evaluation) Lazy evaluation explained

کشینگ و Persistence Caching & persistence

تست تسلط بر مبانی: RDDها، دیتا فریم‌ها و Lazy Evaluation Spark Fundamentals Mastery Check: RDDs, DataFrames & Lazy Evaluation

اسپارک SQL و دیتا فریم‌ها (80% از کارهای واقعی) Spark SQL & DataFrames (80% of real jobs)

خواندن و نوشتن فایل‌های CSV, JSON, Parquet, JDBC Reading/Writing CSV, JSON, Parquet, JDBC

عملیات روی دیتا فریم (select, filter, groupBy, agg, join) DataFrame operations (select, filter, groupBy, agg, join)

پرس‌وجوهای Spark SQL Spark SQL queries

توابع Window و توابع تحلیلی Window functions & analytics functions

استریمینگ ساختاریافته Structured Streaming

ترکیب Kafka و Spark Streaming Kafka + Spark Streaming

داشبوردهای بلادرنگ: ساخت داشبورد تحلیلی مشابه Spotify Wrapped Real-time Dashboards: Create a Spotify Wrapped-style Analytics Dashboard

استفاده از ForeachBatch و Delta Lake sink ForeachBatch + Delta Lake sink

واترمارکینگ و داده‌های دیررس Watermarking & late data

پردازش Exactly once با Kafka و Delta (به زودی) Exactly-once with Kafka + Delta (comming)

دلتا لیک و نسخه رایگان Databricks Delta Lake + Databricks Community Edition

دلتا لیک: استاندارد مدرن Lakehouse داده Delta Lake - The Modern Data Lakehouse Standard

شروع کار با Delta Lake به صورت محلی (نصب 2 دقیقه‌ای) Getting Started with Delta Lake Locally (PySpark + 2 Minutes Setup)

تراکنش‌های ACID، سفر در زمان و نسخه‌بندی داده‌ها ACID Transactions, Time Travel, and Data Versioning

اجبار در شمای داده‌ها (Schema Enforcement) و تکامل ایمن شما Schema Enforcement and Safe Schema Evolution

عملیات Upsert، حذف و ابعاد به آرامی تغییر کننده با MERGE (به زودی) Upserts, Deletes, and Slowly Changing Dimensions with MERGE (comming)

بهترین روش‌های Z Ordering, OPTIMIZE و عملکرد پرس‌وجو (به زودی) Z-Ordering, OPTIMIZE, and Query Performance Best Practices (comming)

یادگیری ماشین با MLlib Machine Learning with MLib

پایپ‌لاین‌های ML، ترانسفورمرها و تخمین‌زن‌ها ML Pipelines, transformers, estimators

طبقه‌بندی، رگرسیون و خوشه‌بندی Classification, regression, clustering

اعتبارسنجی متقابل (Cross validation) و تنظیم هایپرپارامترها Cross-validation & hyperparameter tuning

ترکیب Spark با Pandas UDF و scikit learn / XGBoost Spark + Pandas UDF + scikit-learn / XGBoost

ترکیب Spark با HuggingFace Spark + HuggingFace

بهینه‌سازی و تنظیم عملکرد اسپارک Spark Optimization & Performance Tuning

بهینه‌ساز Catalyst و Tungsten Catalyst optimizer, Tungsten

پارتیشن‌بندی، باکتیینگ و AQE Partitioning, bucketing, AQE

مدیریت Skew (به زودی) Handling skew (comming)

پروژه‌های دنیای واقعی Real-World Projects

تحلیل داده‌های تاکسی نیویورک NYC Taxi analysis

خط لوله پردازش لاگ‌ها Log processing pipeline

سیستم پیشنهاد فیلم Movie recommendation system

داشبورد بلادرنگ تحلیل احساسات X (توییتر) X (Twitter) sentiment real-time dashboard

پروژه خط لوله بر پایه DLT (به زودی) DLT-based pipeline project (comming)

اسپارک در فضای ابری Spark on the Cloud

بررسی AWS EMR, GCP Dataproc, Azure Synapse AWS EMR, GCP Dataproc, Azure Synapse

گردش کار کامل در Databricks Community Edition (به زودی) Databricks Community Edition full workflow (comming)

نمایش نظرات

https://donyad.com/d/707746