آموزش دوره جامع توسعه‌دهنده تایید شده Databricks برای Apache Spark 4 - آخرین آپدیت

دانلود Databricks Certified Associate Developer for Apache Spark 4

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: [2026] راهنمای کامل و عملی Apache Spark 4.0 - تسلط بر PySpark، Spark SQL، استریمینگ ساختاریافته و بهینه‌سازی درک معماری Spark و اجزای آن - Driver، Executors، Cluster Manager و نحوه تعامل آن‌ها. آشنایی با مدل ارزیابی تنبل (Lazy Evaluation)، اجرای DAG، بهینه‌ساز Catalyst، اجرای Stage و Task، و نحوه مانیتورینگ برنامه‌ها با Spark UI. تسلط بر PySpark DataFrames و تکنیک‌های دستکاری داده‌ها شامل فیلتر کردن، گروه‌بندی، Exploding arrays، توابع پنجره‌ای (Window Functions) و تجمیع‌های پیشرفته. انجام عملیات Join (از انواع inner، left، broadcast، multi-key، anti)، Unionها و تبدیل‌های پیچیده مانند Pivoting، مدیریت داده‌های JSON تو در تو و آرایه‌های تودرتو. ایجاد Broadcast Variables، Accumulators و توابع تعریف شده توسط کاربر (UDFs و Pandas UDFs). اجرای کوئری‌های SQL مستقیماً روی فایل‌ها (CSV, JSON, PARQUET, DELTA و غیره) و درک تمام حالت‌های ذخیره‌سازی Spark (append, overwrite, partitioning). یادگیری نحوه ثبت DataFrameها به عنوان Viewهای موقت و کار با توابع تاریخ و زمان از جمله تبدیل‌های Unix epoch. بهینه‌سازی عملکرد Spark با استفاده از Partitioning، Repartition، Coalesce، AQE، بهینه‌سازی Shuffle و تکنیک Salting. درک خطاهای Driver OOM و Executor OOM و نحوه عملکرد حافظه Executor. کسب بینش در مورد Garbage Collection در Spark، سطوح ذخیره‌سازی مانند MEMORY_ONLY، DISK_ONLY و استراتژی‌های کشینگ. بررسی عملیات پنجره‌ای در داده‌های استریمینگ مانند Tumbling، Sliding و Session. بررسی Spark Connect و حالت‌های استقرار (Local, Cluster, Client) و نحوه انتخاب گزینه مناسب برای هر برنامه. استفاده از Pandas API در Spark و به‌کارگیری Vectorized UDFs برای بهینه‌سازی عملکرد. بهینه‌سازی‌های Delta Lake شامل Z-ordering، Data Skipping و Liquid Clustering برای کوئری‌های سریع‌تر. ساخت خط لوله‌های (Pipelines) بلادرنگ با استفاده از Structured Streaming به همراه Watermarking و تضمین Exactly-once، در کنار Trigger Types و عملیات ForEachBatch. پیش نیازها: دانش پایه پایتون و SQL مورد نیاز است. هیچ دانش قبلی در مورد Apache Spark لازم نیست (همه موارد از صفر آموزش داده می‌شود).

این یک بوت‌کمپ کامل Apache Spark 4.0 است که شما در سال 2026 برای تبدیل شدن به یک توسعه‌دهنده حرفه‌ای Spark به آن نیاز دارید.

چه مبتدی باشید و چه متخصص در حال کاری که به دنبال ارتقای مهارت‌های خود است، این دوره شما را گام به گام با آموزش‌های عملی، کاربردی و جذاب (همراه با تصاویر گرافیکی) راهنمایی می‌کند.

کسب تجربه عملی قوی در زمینه‌های زیر:

  • معماری و اجزای Spark - درک نحوه همکاری Driver، Executors و Cluster Manager در پشت صحنه. یادگیری اجرای DAG، ارزیابی تنبل، بهینه‌ساز Catalyst و مانیتورینگ با Spark UI.

  • PySpark DataFrames و دستکاری داده‌ها - تسلط بر فیلتر کردن، گروه‌بندی، Joinها، توابع پنجره‌ای، مدیریت JSONهای تو در تو و تبدیل‌های پیچیده.

  • SparkSQL - اجرای کوئری‌های SQL روی CSV، JSON، Parquet، Delta و غیره. کار با Viewهای موقت، حالت‌های ذخیره‌سازی و توابع تاریخ و زمان به صورت حرفه‌ای.

  • مدیریت حافظه و Garbage Collection - درک استخر حافظه Executor و علت خطاهای OOM. یادگیری عمیق سطوح ذخیره‌سازی و استراتژی‌های Caching.

  • تنظیم عملکرد و بهینه‌سازی - یادگیری Partitioning، AQE، Broadcast Joins و تکنیک‌های Salting برای افزایش سرعت اپلیکیشن‌های Spark.

  • Structured Streaming - ساخت خط لوله‌های بلادرنگ با تضمین Exactly-once و پیاده‌سازی پنجره‌های Tumbling، Sliding و Session.

  • Spark Connect و حالت‌های استقرار - درک تغییرات ارتباط کلاینت-سرور با Spark Connect و انتخاب حالت استقرار مناسب برای پروژه‌های واقعی.

  • Pandas API در Spark - استفاده از سینتکس آشنای Pandas برای پردازش داده‌های مقیاس‌پذیر و به‌کارگیری Pandas UDFs برای افزایش کارایی.


چه چیزی این دوره را منحصر به فرد می‌کند؟

  • آموزش‌های بسیار جذاب - بدون تئوری‌های خسته‌کننده! هر مفهوم با مثال‌های واقعی و بصری ساده توضیح داده شده است.

  • بررسی عمیق هر موضوع - ما فقط به سطح نمی‌پردازیم؛ شما «چرا» و «چگونه» هر ویژگی را درک خواهید کرد.

  • تمرکز شدید بر یادگیری عملی - شما با انجام دادن یاد می‌گیرید. هر فصل شامل آزمایش‌های کاربردی برای تثبیت مهارت‌ها است.


سلب مسئولیت - این دوره به صورت مستقل تهیه شده و وابسته یا تایید شده توسط شرکت Databricks Inc نیست. تمام محتوا برای مقاصد آموزشی طراحی شده و شامل سوالات واقعی آزمون گواهینامه نیست، بلکه بر اساس مستندات عمومی و تجربیات واقعی است.




سرفصل ها و درس ها

مقدمه دوره و منابع Course Introduction & Resources

  • مقدمه Introduction

  • سرفصل‌های آزمون Exam Syllabus

  • سلب مسئولیت Disclaimer

  • ساختار محتوای دوره (مرور کلی) Course Content Structure (Overview)

  • منابع Resources

  • چگونه بیشترین بهره را از دوره ببریم How to make the best use of course

  • نحوه استفاده از یادداشت‌ها How to use Notes?

داده‌های بزرگ و 3V Big Data and 3Vs

  • داده‌های بزرگ (Big Data) چیست؟ What is Big Data?

  • معماری یکپارچه در مقابل معماری توزیع شده Monolithic VS Distributed Architecture

  • سیستم فایل توزیع شده Distributed File System

  • فریم‌ورک MapReduce MapReduce Framework

معماری و راه‌اندازی Apache Spark Apache Spark Architecture & Setup

  • Apache Spark چیست؟ What is Apache Spark?

  • ستون فقرات معماری Spark Spark Architecture - Backbone

  • مقایسه Spark Session و Spark Context Spark Session VS Spark Context

  • مرور کلی Databricks Databricks Overview

  • راه‌اندازی Unity Catalog Unity Catalog Setup

  • نوشتن اولین کد Spark (Spark Session) Write First Spark Code - Spark Session

  • نحوه وارد کردن Notebookها و فایل‌های DBC How to import Notebooks and DBC file?

  • آزمون سنجش دانش Knowledge Test

اجزای Apache Spark Apache Spark Components

  • بررسی گره‌های Driver و Worker Inside Driver and Worker Nodes

  • تبدیلات Narrow و Wide Narrow and Wide Transformations

  • ارزیابی تنبل (Lazy Evaluation) Lazy Evaluation

  • ارزیابی تنبل در عمل Lazy Evaluation In Action

  • بهینه‌ساز Catalyst در Spark Catalyst Optimizer In Spark

  • پیاده‌سازی Catalyst Optimizer در کد Implement Catalyst Optimizer in Code

  • لایه‌های Spark و RDDها Spark Layers & Spark RDDs

  • چرا از Dataframe API استفاده کنیم؟ Why Code in Dataframe API?

  • درک Jobs، Stages و Tasks در Spark Understand Jobs, Stages, & Tasks In Spark

  • اجرای Jobها و Spark UI Trigger Jobs and Spark UI

  • دستور spark submit spark-submit command

  • جریان حرکت Jobs، Stages و Tasks Jobs, Stages, and Tasks Flow

  • استفاده از Coalesce و Repartition برای پارتیشن‌ها Coalesce and Repartition For Partitions

  • تنظیم پارتیشن‌های Spark با Coalesce و Repartition Tuning Spark Partitions with Coalesce & Repartition

  • برنامه‌های کوئری Spark (Query Plans) Spark Query Plans

  • آزمون سنجش دانش Knowledge Test

تبدیلات PySpark PySpark Transformations

  • خواندن فایل‌ها با PySpark Read Files With PySpark

  • خواندن داده‌ها از منبع JDBC Read Data From JDBC Source

  • مدیریت رکوردهای دارای خطا Handle Malformed Records

  • تعریف Schema برای داده‌های خام Define Schema For Raw Data

  • تبدیل SELECT SELECT Transformation

  • استفاده از ALIAS ALIAS

  • تبدیل FILTER FILTER Transformation

  • تغییر نام ستون با WITHCOLUMNRENAMED WITHCOLUMNRENAMED

  • افزودن ستون با WITHCOLUMN WITHCOLUMN

  • تبدیلات تغییر نوع داده (Type Casting) Type Casting Tranformations

  • مرتب‌سازی DataFrameها Sorting DataFrames

  • محدود کردن با LIMIT LIMIT

  • حذف با DROP DROP

  • حذف تکراری‌ها با DROPDUPLICATES DROPDUPLICATES

  • استفاده از UNION و UNIONBYNAME UNION & UNIONBYNAME

  • توابع تاریخ (DATE FUNCTIONS) DATE FUNCTIONS

  • توابع رشته‌ای (STRING FUNCTIONS) STRING FUNCTIONS

  • مدیریت مقادیر NULL Handling NULLS

  • جدا سازی و ایندکس گذاری SPLITTING & INDEXING

  • استفاده از EXPLODE EXPLODE

  • بررسی محتوا با ARRAY CONTAINS ARRAY CONTAINS

  • گروه‌بندی با GROUPBY GROUPBY

  • شمارش تقریبی مقادیر متمایز APPROX_COUNT_DISCTINCT

  • جمع‌آوری لیست با COLLECT_LIST COLLECT_LIST

  • عملیات PIVOTING PIVOTING

  • شرط‌های WHEN OTHERWISE WHEN OTHERWISE

  • اتصال داده‌ها (JOINS) JOINS

  • توابع پنجره‌ای (WINDOW FUNCTIONS) WINDOW FUNCTIONS

  • جمع تراکمی (CUMULATIVE SUM) CUMULATIVE SUM

  • توابع تعریف شده توسط کاربر (UDF) User Defined Functions - UDF

  • توابع جدولی تعریف شده توسط کاربر (UDTF) User Defined Table Functions - UDTF

  • فراخوانی UDFها Call UDFs

  • تبدیلات الحاقی (Concatenation) Concatenation Transformations

  • حالت‌های نوشتن خروجی (Write Output Modes) Write Output Modes

  • کار با فرمت‌های مختلف فایل Working With File Formats

  • فرمت Delta (فرمت جدول باز) Delta Format - Open Table Format

  • عملیات Upsert در PySpark Upsert In PySpark

  • مدیریت اشیاء پیچیده JSON Handling Complex JSON Objects

  • حالت‌های منبع فایل File Source Modes

  • آزمون سنجش دانش Knowledge Test

اشیاء Spark SQL Spark SQL Objects

  • Spark SQL و Viewهای موقت Spark SQL and Temporary View

  • دیتافریم‌های Spark SQL Spark SQL Dataframe

  • Viewهای موقت سراسری (Global Temporary Views) Global Temporary Views

  • دستورات DDL در Spark SQL Spark SQL DDL Commands

  • اتصال‌ها (Joins) در Spark SQL Joins In Spark SQL

  • متد Upsert در Spark SQL Upsert Method in Spark SQL

  • ایجاد پارتیشن‌ها با SparkSQL Create Partitions with SparkSQL

  • توضیح کوئری‌های Spark SQL Explain Spark SQL Query

  • عبارات جدولی مشترک (CTEs) در Spark SQL Spark SQL CTEs - Common Table Expressions

  • توابع اسکریپت‌نویسی Spark SQL Spark SQL Scripting Functions

  • دستورات کمکی Spark SQL Spark SQL Auxiliary Statements

  • توابع تجمیعی Spark SQL Spark SQL Aggregate Functions

  • استفاده از Struct و Map Struct & Map

  • توابع تاریخ و زمان در Spark SQL Spark SQL Datetime Functions

  • توابع پنجره‌ای در Spark SQL Spark SQL Window Functions

  • توابع آرایه‌ای در Spark SQL Spark SQL Array Functions

  • دستورات Properties در Spark SQL Spark SQL Properties Commands

  • استفاده از UDF در Spark SQL Spark SQL UDF

  • خواندن فایل‌ها با استفاده از SparkSQL Read Files Using SparkSQL

  • استفاده از Dynamic Dataframes در SparkSQL Using Dynamic Dataframes in SparkSQL

  • خواندن فایل‌ها با کانکتورها در Spark SQL Read Files With Connectors in Spark SQL

  • آزمون سنجش دانش Knowledge Test

مقایسه انواع Joinها (Shuffle Sort Merge vs Hash vs Broadcast) Shuffle Sort Merge VS Hash VS Broadcast Joins

  • مقدمه‌ای بر Joinها Joins Introduction

  • اتصال Shuffle Sort Merge Join Shuffle Sort Merge Join

  • اتصال Shuffle Hash Join Shuffle Hash Join

  • بررسی Joinها در Spark UI Spark UI for Joins

  • اتصال Broadcast Join Broadcast Join

  • اجرای Broadcast Join در کد Trigger Broadcast Join In Code

  • آزمون سنجش دانش Knowledge Test

مدیریت حافظه و حالت‌های استقرار Memory Management & Deployment Modes

  • مدیریت حافظه Driver Driver Memory Management

  • علت و نحوه رخ دادن خطای Driver OOM Why & How Driver OOM Error?

  • مرور کلی حافظه Executor Executor Memory Overview

  • مدیریت حافظه Executor Executor Memory Managment

  • حافظه یکپارچه (Unified Memory) در Executor Executor's Unified Memory

  • پدیده Data Spilling در Spark Data Spilling In Spark

  • علت و نحوه رخ دادن خطای Executor OOM Why and How Executor OOM Error?

  • حافظه Offheap و PySpark Offheap & PySpark Memory

  • گره Edge در Spark Edge Node in Spark

  • حالت‌های استقرار در Spark Deployment Modes in Spark

اجرای کوئری تطبیقی (AQE) AQE (Adaptive Query Execution)

  • AQE چیست؟ What is AQE?

  • قابلیت AQE Coalesce AQE Coalesce

  • تقسیم پارتیشن‌ها در AQE AQE Split Partitions

  • استراتژی Joinها در AQE AQE Joins Strategy

Cache و Persist در Spark Cache and Persist in Spark

  • کش کردن (Cache) دیتافریم‌ها در Apache Spark Cache Dataframes in Apache Spark

  • ماندگاری (Persist) دیتافریم‌ها در Apache Spark Persist Dataframes in Apache Spark

  • سطوح ذخیره‌سازی برای دیتافریم‌ها Storage Levels For Storing Dataframes

  • اعمال Caching در کد PySpark Apply Caching In The PySpark Code

  • اعمال Persist در کد PySpark Apply Persist in PySpark Code

  • استفاده از Unpersist برای حذف دیتافریم‌های ذخیره شده Apply Unpersist For Eliminating Stored Dataframes

حذف پارتیشن (Partition Pruning) و حذف دینامیک Partition Pruning & Dynamic Partition Pruning

  • مقدمه Introduction

  • پارتیشن‌ها در این متن چه هستند؟ What are partitions in this context?

  • چگونه پارتیشن ایجاد کنیم؟ How to create Partitions?

  • چرا به Partition Pruning نیاز داریم؟ Why Partition Pruning?

  • حذف دینامیک پارتیشن (Dynamic Partition Pruning) چیست؟ What is Dynamic Partition Pruning?

تکنیک Salting، متغیرهای Broadcast و Accumulators Salting, Broadcast Variables, & Accumulators

  • تکنیک Salting چیست؟ What is Salting?

  • اعمال Salting در توابع تجمیعی Apply Salting in Aggregate Functions

  • Salting در عملیات Join چیست؟ What is Salting in Join Operations?

  • نحوه اعمال Salting در Joinها How to apply Salting with JOINS

  • راهنمایی‌های SQL (Hints) در Spark SQL Hints in Spark

  • متغیر Broadcast چیست و چرا به آن نیاز داریم؟ What is a Broadcast Variable & Why do we need it?

  • Accumulators در Spark (متغیرهای فقط-نوشتنی) Accumulators in Spark (Write-Only Variable)

چرخه Garbage Collection و Bucketing Garbage Collection Cycle & Bucketing

  • Garbage Collection چیست؟ What is Garbage Collection?

  • توقف‌های Garbage Collection Garbage Collection Pauses

  • چگونه زمان Garbage Collection را کاهش دهیم؟ How to reduce Garbage Collection Time?

  • نقش Executor در چرخه GC Executor's role in GC Cycle

  • استفاده از Bucketing برای حذف Shuffle Bucketing to eliminate the shuffle

استریمینگ ساختاریافته Spark Spark Structured Streaming

  • استریمینگ (Streaming) چیست؟ What is Streaming?

  • تکامل استریمینگ در Spark Evolution of Streaming in Spark

  • مدل برنامه‌نویسی Structured Streaming Programing model of Structured Streaming

  • تبدیلات بدون وضعیت (Stateless) در Apache Spark Stateless Transformations in Apache Spark

  • تبدیلات وضعیت‌دار (Stateful) با ذخیره در حافظه Stateful Transformations with Storage in Memory

  • جنبه‌های فنی تبدیل‌های وضعیت‌دار The technical side of Stateful Transformation

  • دایرکتوری Checkpoint (ستون فقرات Idempotency) Checkpoint Director - Backbone for idempotency

  • حالت خروجی Append در استریمینگ Append Output Mode In Streaming

  • اعمال Append Mode در PySpark Structured Streaming Apply Append Mode in PySpark Structured Streaming

  • حالت خروجی Complete Complete Output Mode

  • حالت خروجی Update Update Output Mode

  • اعمال Complete Output Mode Apply Complete Output Mode

  • انواع Trigger برای Structured Streaming Trigger Types For Structured Streaming

  • آرشیو کردن فایل‌های منبع در استریمینگ Archive Source Files In Streaming

  • عملیات ForEachBatch برای کدهای سفارشی ForEachBatch Operation For Custom Code

  • زمان رویداد (Event Time) در مقابل زمان پردازش Event Time VS Processing Time

  • درک عملیات پنجره‌ای در استریمینگ Understand Window Operations in Streaming

  • عملیات Tumbling Window Tumbling Window Operation

  • عملیات Sliding Window Sliding Window Operation

  • عملیات Session Window Session Window Operation

  • ادغام عملیات پنجره‌ای در کد استریمینگ Integrate Window Operations in Streaming Code

  • مدیریت رویدادهای با تأخیر در رسیدن Handle Late Arrival Events

  • استفاده از Watermarks برای Spark Structured Streaming Watermarks For Spark Structured Streaming

  • پیاده‌سازی کد Sliding و Session Window Sliding and Session Window Code Implementation

  • آزمون سنجش دانش Knowledge Test

قابلیت Spark Connect در Apache Spark Spark Connect In Apache Spark

  • Spark Connect چیست؟ What is Spark Connect?

  • ایجاد یک شیء Spark Connect Create a Spark Connect Object

  • استفاده از Spark Connect در Databricks Spark Connect in Databricks

رابط Pandas API در Apache Spark Pandas API on Apache Spark

  • Pandas API چیست؟ What is Pandas API

  • چگونه با Pandas API در داخل Spark کار کنیم؟ How to work with Pandas API inside Spark?

  • توابع تعریف شده توسط کاربر در پانداس (Pandas UDFs) Pandas User Defined Functions (UDFs)

  • توابع UDF از Series به Series Series To Series UDFs

  • توابع UDF از Iterator Series به Iterator Series Iterator Series To Iterator Series UDFs

  • توابع UDF از چندین Iterator به Iterator Series Multiple Iterator To Iterator Series UDFs

  • توابع UDF از Series به Scalar Series To Scalar UDFs

تکنیک‌های بهینه‌سازی Delta Delta Optimization Techniques

  • چگونه فایل‌های کوچک را بهینه کنیم؟ How to Optimize the small files?

  • استفاده از ZOrdering برای Data Skipping ZOrderng For Data Skipping

  • خوشه‌بندی مایع (Liquid Clustering) Liquid Clustering

گام‌های بعدی شما Your Next Steps

  • تبریکات نهایی Congratulations

نمایش نظرات

آموزش دوره جامع توسعه‌دهنده تایید شده Databricks برای Apache Spark 4
جزییات دوره
28 hours
174
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
4,871
4.6 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Ansh Lamba JSR Ansh Lamba JSR

مهندس داده