دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش دوره جامع توسعه‌دهنده تایید شده Databricks برای Apache Spark 4 - آخرین آپدیت

دانلود Databricks Certified Associate Developer for Apache Spark 4 bestseller

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: [2026] راهنمای کامل و عملی Apache Spark 4.0 - تسلط بر PySpark، Spark SQL، استریمینگ ساختاریافته و بهینه‌سازی درک معماری Spark و اجزای آن - Driver، Executors، Cluster Manager و نحوه تعامل آن‌ها. آشنایی با مدل ارزیابی تنبل (Lazy Evaluation)، اجرای DAG، بهینه‌ساز Catalyst، اجرای Stage و Task، و نحوه مانیتورینگ برنامه‌ها با Spark UI. تسلط بر PySpark DataFrames و تکنیک‌های دستکاری داده‌ها شامل فیلتر کردن، گروه‌بندی، Exploding arrays، توابع پنجره‌ای (Window Functions) و تجمیع‌های پیشرفته. انجام عملیات Join (از انواع inner، left، broadcast، multi-key، anti)، Unionها و تبدیل‌های پیچیده مانند Pivoting، مدیریت داده‌های JSON تو در تو و آرایه‌های تودرتو. ایجاد Broadcast Variables، Accumulators و توابع تعریف شده توسط کاربر (UDFs و Pandas UDFs). اجرای کوئری‌های SQL مستقیماً روی فایل‌ها (CSV, JSON, PARQUET, DELTA و غیره) و درک تمام حالت‌های ذخیره‌سازی Spark (append, overwrite, partitioning). یادگیری نحوه ثبت DataFrameها به عنوان Viewهای موقت و کار با توابع تاریخ و زمان از جمله تبدیل‌های Unix epoch. بهینه‌سازی عملکرد Spark با استفاده از Partitioning، Repartition، Coalesce، AQE، بهینه‌سازی Shuffle و تکنیک Salting. درک خطاهای Driver OOM و Executor OOM و نحوه عملکرد حافظه Executor. کسب بینش در مورد Garbage Collection در Spark، سطوح ذخیره‌سازی مانند MEMORY_ONLY، DISK_ONLY و استراتژی‌های کشینگ. بررسی عملیات پنجره‌ای در داده‌های استریمینگ مانند Tumbling، Sliding و Session. بررسی Spark Connect و حالت‌های استقرار (Local, Cluster, Client) و نحوه انتخاب گزینه مناسب برای هر برنامه. استفاده از Pandas API در Spark و به‌کارگیری Vectorized UDFs برای بهینه‌سازی عملکرد. بهینه‌سازی‌های Delta Lake شامل Z-ordering، Data Skipping و Liquid Clustering برای کوئری‌های سریع‌تر. ساخت خط لوله‌های (Pipelines) بلادرنگ با استفاده از Structured Streaming به همراه Watermarking و تضمین Exactly-once، در کنار Trigger Types و عملیات ForEachBatch. پیش نیازها: دانش پایه پایتون و SQL مورد نیاز است. هیچ دانش قبلی در مورد Apache Spark لازم نیست (همه موارد از صفر آموزش داده می‌شود).

این یک بوت‌کمپ کامل Apache Spark 4.0 است که شما در سال 2026 برای تبدیل شدن به یک توسعه‌دهنده حرفه‌ای Spark به آن نیاز دارید.

چه مبتدی باشید و چه متخصص در حال کاری که به دنبال ارتقای مهارت‌های خود است، این دوره شما را گام به گام با آموزش‌های عملی، کاربردی و جذاب (همراه با تصاویر گرافیکی) راهنمایی می‌کند.

کسب تجربه عملی قوی در زمینه‌های زیر:

معماری و اجزای Spark - درک نحوه همکاری Driver، Executors و Cluster Manager در پشت صحنه. یادگیری اجرای DAG، ارزیابی تنبل، بهینه‌ساز Catalyst و مانیتورینگ با Spark UI.
PySpark DataFrames و دستکاری داده‌ها - تسلط بر فیلتر کردن، گروه‌بندی، Joinها، توابع پنجره‌ای، مدیریت JSONهای تو در تو و تبدیل‌های پیچیده.
SparkSQL - اجرای کوئری‌های SQL روی CSV، JSON، Parquet، Delta و غیره. کار با Viewهای موقت، حالت‌های ذخیره‌سازی و توابع تاریخ و زمان به صورت حرفه‌ای.
مدیریت حافظه و Garbage Collection - درک استخر حافظه Executor و علت خطاهای OOM. یادگیری عمیق سطوح ذخیره‌سازی و استراتژی‌های Caching.
تنظیم عملکرد و بهینه‌سازی - یادگیری Partitioning، AQE، Broadcast Joins و تکنیک‌های Salting برای افزایش سرعت اپلیکیشن‌های Spark.
Structured Streaming - ساخت خط لوله‌های بلادرنگ با تضمین Exactly-once و پیاده‌سازی پنجره‌های Tumbling، Sliding و Session.
Spark Connect و حالت‌های استقرار - درک تغییرات ارتباط کلاینت-سرور با Spark Connect و انتخاب حالت استقرار مناسب برای پروژه‌های واقعی.
Pandas API در Spark - استفاده از سینتکس آشنای Pandas برای پردازش داده‌های مقیاس‌پذیر و به‌کارگیری Pandas UDFs برای افزایش کارایی.

چه چیزی این دوره را منحصر به فرد می‌کند؟

آموزش‌های بسیار جذاب - بدون تئوری‌های خسته‌کننده! هر مفهوم با مثال‌های واقعی و بصری ساده توضیح داده شده است.
بررسی عمیق هر موضوع - ما فقط به سطح نمی‌پردازیم؛ شما «چرا» و «چگونه» هر ویژگی را درک خواهید کرد.
تمرکز شدید بر یادگیری عملی - شما با انجام دادن یاد می‌گیرید. هر فصل شامل آزمایش‌های کاربردی برای تثبیت مهارت‌ها است.

سلب مسئولیت - این دوره به صورت مستقل تهیه شده و وابسته یا تایید شده توسط شرکت Databricks Inc نیست. تمام محتوا برای مقاصد آموزشی طراحی شده و شامل سوالات واقعی آزمون گواهینامه نیست، بلکه بر اساس مستندات عمومی و تجربیات واقعی است.

سرفصل ها و درس ها

مقدمه دوره و منابع Course Introduction & Resources

مقدمه Introduction
سرفصل‌های آزمون Exam Syllabus
سلب مسئولیت Disclaimer
ساختار محتوای دوره (مرور کلی) Course Content Structure (Overview)
منابع Resources
چگونه بیشترین بهره را از دوره ببریم How to make the best use of course
نحوه استفاده از یادداشت‌ها How to use Notes?

داده‌های بزرگ و 3V Big Data and 3Vs

داده‌های بزرگ (Big Data) چیست؟ What is Big Data?
معماری یکپارچه در مقابل معماری توزیع شده Monolithic VS Distributed Architecture
سیستم فایل توزیع شده Distributed File System
فریم‌ورک MapReduce MapReduce Framework

معماری و راه‌اندازی Apache Spark Apache Spark Architecture & Setup

Apache Spark چیست؟ What is Apache Spark?
ستون فقرات معماری Spark Spark Architecture - Backbone
مقایسه Spark Session و Spark Context Spark Session VS Spark Context
مرور کلی Databricks Databricks Overview
راه‌اندازی Unity Catalog Unity Catalog Setup
نوشتن اولین کد Spark (Spark Session) Write First Spark Code - Spark Session
نحوه وارد کردن Notebookها و فایل‌های DBC How to import Notebooks and DBC file?
آزمون سنجش دانش Knowledge Test

اجزای Apache Spark Apache Spark Components

بررسی گره‌های Driver و Worker Inside Driver and Worker Nodes
تبدیلات Narrow و Wide Narrow and Wide Transformations
ارزیابی تنبل (Lazy Evaluation) Lazy Evaluation
ارزیابی تنبل در عمل Lazy Evaluation In Action
بهینه‌ساز Catalyst در Spark Catalyst Optimizer In Spark
پیاده‌سازی Catalyst Optimizer در کد Implement Catalyst Optimizer in Code
لایه‌های Spark و RDDها Spark Layers & Spark RDDs
چرا از Dataframe API استفاده کنیم؟ Why Code in Dataframe API?
درک Jobs، Stages و Tasks در Spark Understand Jobs, Stages, & Tasks In Spark
اجرای Jobها و Spark UI Trigger Jobs and Spark UI
دستور spark submit spark-submit command
جریان حرکت Jobs، Stages و Tasks Jobs, Stages, and Tasks Flow
استفاده از Coalesce و Repartition برای پارتیشن‌ها Coalesce and Repartition For Partitions
تنظیم پارتیشن‌های Spark با Coalesce و Repartition Tuning Spark Partitions with Coalesce & Repartition
برنامه‌های کوئری Spark (Query Plans) Spark Query Plans
آزمون سنجش دانش Knowledge Test

تبدیلات PySpark PySpark Transformations

خواندن فایل‌ها با PySpark Read Files With PySpark
خواندن داده‌ها از منبع JDBC Read Data From JDBC Source
مدیریت رکوردهای دارای خطا Handle Malformed Records
تعریف Schema برای داده‌های خام Define Schema For Raw Data
تبدیل SELECT SELECT Transformation
استفاده از ALIAS ALIAS
تبدیل FILTER FILTER Transformation
تغییر نام ستون با WITHCOLUMNRENAMED WITHCOLUMNRENAMED
افزودن ستون با WITHCOLUMN WITHCOLUMN
تبدیلات تغییر نوع داده (Type Casting) Type Casting Tranformations
مرتب‌سازی DataFrameها Sorting DataFrames
محدود کردن با LIMIT LIMIT
حذف با DROP DROP
حذف تکراری‌ها با DROPDUPLICATES DROPDUPLICATES
استفاده از UNION و UNIONBYNAME UNION & UNIONBYNAME
توابع تاریخ (DATE FUNCTIONS) DATE FUNCTIONS
توابع رشته‌ای (STRING FUNCTIONS) STRING FUNCTIONS
مدیریت مقادیر NULL Handling NULLS
جدا سازی و ایندکس گذاری SPLITTING & INDEXING
استفاده از EXPLODE EXPLODE
بررسی محتوا با ARRAY CONTAINS ARRAY CONTAINS
گروه‌بندی با GROUPBY GROUPBY
شمارش تقریبی مقادیر متمایز APPROX_COUNT_DISCTINCT
جمع‌آوری لیست با COLLECT_LIST COLLECT_LIST
عملیات PIVOTING PIVOTING
شرط‌های WHEN OTHERWISE WHEN OTHERWISE
اتصال داده‌ها (JOINS) JOINS
توابع پنجره‌ای (WINDOW FUNCTIONS) WINDOW FUNCTIONS
جمع تراکمی (CUMULATIVE SUM) CUMULATIVE SUM
توابع تعریف شده توسط کاربر (UDF) User Defined Functions - UDF
توابع جدولی تعریف شده توسط کاربر (UDTF) User Defined Table Functions - UDTF
فراخوانی UDFها Call UDFs
تبدیلات الحاقی (Concatenation) Concatenation Transformations
حالت‌های نوشتن خروجی (Write Output Modes) Write Output Modes
کار با فرمت‌های مختلف فایل Working With File Formats
فرمت Delta (فرمت جدول باز) Delta Format - Open Table Format
عملیات Upsert در PySpark Upsert In PySpark
مدیریت اشیاء پیچیده JSON Handling Complex JSON Objects
حالت‌های منبع فایل File Source Modes
آزمون سنجش دانش Knowledge Test

اشیاء Spark SQL Spark SQL Objects

Spark SQL و Viewهای موقت Spark SQL and Temporary View
دیتافریم‌های Spark SQL Spark SQL Dataframe
Viewهای موقت سراسری (Global Temporary Views) Global Temporary Views
دستورات DDL در Spark SQL Spark SQL DDL Commands
اتصال‌ها (Joins) در Spark SQL Joins In Spark SQL
متد Upsert در Spark SQL Upsert Method in Spark SQL
ایجاد پارتیشن‌ها با SparkSQL Create Partitions with SparkSQL
توضیح کوئری‌های Spark SQL Explain Spark SQL Query
عبارات جدولی مشترک (CTEs) در Spark SQL Spark SQL CTEs - Common Table Expressions
توابع اسکریپت‌نویسی Spark SQL Spark SQL Scripting Functions
دستورات کمکی Spark SQL Spark SQL Auxiliary Statements
توابع تجمیعی Spark SQL Spark SQL Aggregate Functions
استفاده از Struct و Map Struct & Map
توابع تاریخ و زمان در Spark SQL Spark SQL Datetime Functions
توابع پنجره‌ای در Spark SQL Spark SQL Window Functions
توابع آرایه‌ای در Spark SQL Spark SQL Array Functions
دستورات Properties در Spark SQL Spark SQL Properties Commands
استفاده از UDF در Spark SQL Spark SQL UDF
خواندن فایل‌ها با استفاده از SparkSQL Read Files Using SparkSQL
استفاده از Dynamic Dataframes در SparkSQL Using Dynamic Dataframes in SparkSQL
خواندن فایل‌ها با کانکتورها در Spark SQL Read Files With Connectors in Spark SQL
آزمون سنجش دانش Knowledge Test

مقایسه انواع Joinها (Shuffle Sort Merge vs Hash vs Broadcast) Shuffle Sort Merge VS Hash VS Broadcast Joins

مقدمه‌ای بر Joinها Joins Introduction
اتصال Shuffle Sort Merge Join Shuffle Sort Merge Join
اتصال Shuffle Hash Join Shuffle Hash Join
بررسی Joinها در Spark UI Spark UI for Joins
اتصال Broadcast Join Broadcast Join
اجرای Broadcast Join در کد Trigger Broadcast Join In Code
آزمون سنجش دانش Knowledge Test

مدیریت حافظه و حالت‌های استقرار Memory Management & Deployment Modes

مدیریت حافظه Driver Driver Memory Management
علت و نحوه رخ دادن خطای Driver OOM Why & How Driver OOM Error?
مرور کلی حافظه Executor Executor Memory Overview
مدیریت حافظه Executor Executor Memory Managment
حافظه یکپارچه (Unified Memory) در Executor Executor's Unified Memory
پدیده Data Spilling در Spark Data Spilling In Spark
علت و نحوه رخ دادن خطای Executor OOM Why and How Executor OOM Error?
حافظه Offheap و PySpark Offheap & PySpark Memory
گره Edge در Spark Edge Node in Spark
حالت‌های استقرار در Spark Deployment Modes in Spark

اجرای کوئری تطبیقی (AQE) AQE (Adaptive Query Execution)

AQE چیست؟ What is AQE?
قابلیت AQE Coalesce AQE Coalesce
تقسیم پارتیشن‌ها در AQE AQE Split Partitions
استراتژی Joinها در AQE AQE Joins Strategy

Cache و Persist در Spark Cache and Persist in Spark

کش کردن (Cache) دیتافریم‌ها در Apache Spark Cache Dataframes in Apache Spark
ماندگاری (Persist) دیتافریم‌ها در Apache Spark Persist Dataframes in Apache Spark
سطوح ذخیره‌سازی برای دیتافریم‌ها Storage Levels For Storing Dataframes
اعمال Caching در کد PySpark Apply Caching In The PySpark Code
اعمال Persist در کد PySpark Apply Persist in PySpark Code
استفاده از Unpersist برای حذف دیتافریم‌های ذخیره شده Apply Unpersist For Eliminating Stored Dataframes

حذف پارتیشن (Partition Pruning) و حذف دینامیک Partition Pruning & Dynamic Partition Pruning

مقدمه Introduction
پارتیشن‌ها در این متن چه هستند؟ What are partitions in this context?
چگونه پارتیشن ایجاد کنیم؟ How to create Partitions?
چرا به Partition Pruning نیاز داریم؟ Why Partition Pruning?
حذف دینامیک پارتیشن (Dynamic Partition Pruning) چیست؟ What is Dynamic Partition Pruning?

تکنیک Salting، متغیرهای Broadcast و Accumulators Salting, Broadcast Variables, & Accumulators

تکنیک Salting چیست؟ What is Salting?
اعمال Salting در توابع تجمیعی Apply Salting in Aggregate Functions
Salting در عملیات Join چیست؟ What is Salting in Join Operations?
نحوه اعمال Salting در Joinها How to apply Salting with JOINS
راهنمایی‌های SQL (Hints) در Spark SQL Hints in Spark
متغیر Broadcast چیست و چرا به آن نیاز داریم؟ What is a Broadcast Variable & Why do we need it?
Accumulators در Spark (متغیرهای فقط-نوشتنی) Accumulators in Spark (Write-Only Variable)

چرخه Garbage Collection و Bucketing Garbage Collection Cycle & Bucketing

Garbage Collection چیست؟ What is Garbage Collection?
توقف‌های Garbage Collection Garbage Collection Pauses
چگونه زمان Garbage Collection را کاهش دهیم؟ How to reduce Garbage Collection Time?
نقش Executor در چرخه GC Executor's role in GC Cycle
استفاده از Bucketing برای حذف Shuffle Bucketing to eliminate the shuffle

استریمینگ ساختاریافته Spark Spark Structured Streaming

استریمینگ (Streaming) چیست؟ What is Streaming?
تکامل استریمینگ در Spark Evolution of Streaming in Spark
مدل برنامه‌نویسی Structured Streaming Programing model of Structured Streaming
تبدیلات بدون وضعیت (Stateless) در Apache Spark Stateless Transformations in Apache Spark
تبدیلات وضعیت‌دار (Stateful) با ذخیره در حافظه Stateful Transformations with Storage in Memory
جنبه‌های فنی تبدیل‌های وضعیت‌دار The technical side of Stateful Transformation
دایرکتوری Checkpoint (ستون فقرات Idempotency) Checkpoint Director - Backbone for idempotency
حالت خروجی Append در استریمینگ Append Output Mode In Streaming
اعمال Append Mode در PySpark Structured Streaming Apply Append Mode in PySpark Structured Streaming
حالت خروجی Complete Complete Output Mode
حالت خروجی Update Update Output Mode
اعمال Complete Output Mode Apply Complete Output Mode
انواع Trigger برای Structured Streaming Trigger Types For Structured Streaming
آرشیو کردن فایل‌های منبع در استریمینگ Archive Source Files In Streaming
عملیات ForEachBatch برای کدهای سفارشی ForEachBatch Operation For Custom Code
زمان رویداد (Event Time) در مقابل زمان پردازش Event Time VS Processing Time
درک عملیات پنجره‌ای در استریمینگ Understand Window Operations in Streaming
عملیات Tumbling Window Tumbling Window Operation
عملیات Sliding Window Sliding Window Operation
عملیات Session Window Session Window Operation
ادغام عملیات پنجره‌ای در کد استریمینگ Integrate Window Operations in Streaming Code
مدیریت رویدادهای با تأخیر در رسیدن Handle Late Arrival Events
استفاده از Watermarks برای Spark Structured Streaming Watermarks For Spark Structured Streaming
پیاده‌سازی کد Sliding و Session Window Sliding and Session Window Code Implementation
آزمون سنجش دانش Knowledge Test

قابلیت Spark Connect در Apache Spark Spark Connect In Apache Spark

Spark Connect چیست؟ What is Spark Connect?
ایجاد یک شیء Spark Connect Create a Spark Connect Object
استفاده از Spark Connect در Databricks Spark Connect in Databricks

رابط Pandas API در Apache Spark Pandas API on Apache Spark

Pandas API چیست؟ What is Pandas API
چگونه با Pandas API در داخل Spark کار کنیم؟ How to work with Pandas API inside Spark?
توابع تعریف شده توسط کاربر در پانداس (Pandas UDFs) Pandas User Defined Functions (UDFs)
توابع UDF از Series به Series Series To Series UDFs
توابع UDF از Iterator Series به Iterator Series Iterator Series To Iterator Series UDFs
توابع UDF از چندین Iterator به Iterator Series Multiple Iterator To Iterator Series UDFs
توابع UDF از Series به Scalar Series To Scalar UDFs

تکنیک‌های بهینه‌سازی Delta Delta Optimization Techniques

چگونه فایل‌های کوچک را بهینه کنیم؟ How to Optimize the small files?
استفاده از ZOrdering برای Data Skipping ZOrderng For Data Skipping
خوشه‌بندی مایع (Liquid Clustering) Liquid Clustering

گام‌های بعدی شما Your Next Steps

تبریکات نهایی Congratulations

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش دوره جامع توسعه‌دهنده تایید شده Databricks برای Apache Spark 4

جزییات دوره

زمان دوره: 28 hours

تعداد ویدیو ها: 174

شرکت: Udemy (یودمی)

تاریخ انتشار مرجع: (آخرین آپدیت)

ثبت نام مرجع : 4,871

امتیاز مرجع: 4.6 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Ansh Lamba JSR

لینک کوتاه این دوره

https://donyad.com/d/8395ca

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

IT (فناوری اطلاعات ) و نرم افزار

صدور گواهینامه IT

آموزش دوره جامع توسعه‌دهنده تایید شده Databricks برای Apache Spark 4 - آخرین آپدیت

دانلود Databricks Certified Associate Developer for Apache Spark 4 bestseller

مقدمه دوره و منابع Course Introduction & Resources

مقدمه Introduction

سرفصل‌های آزمون Exam Syllabus

سلب مسئولیت Disclaimer

ساختار محتوای دوره (مرور کلی) Course Content Structure (Overview)

منابع Resources

چگونه بیشترین بهره را از دوره ببریم How to make the best use of course

نحوه استفاده از یادداشت‌ها How to use Notes?

داده‌های بزرگ و 3V Big Data and 3Vs

داده‌های بزرگ (Big Data) چیست؟ What is Big Data?

معماری یکپارچه در مقابل معماری توزیع شده Monolithic VS Distributed Architecture

سیستم فایل توزیع شده Distributed File System

فریم‌ورک MapReduce MapReduce Framework

معماری و راه‌اندازی Apache Spark Apache Spark Architecture & Setup

Apache Spark چیست؟ What is Apache Spark?

ستون فقرات معماری Spark Spark Architecture - Backbone

مقایسه Spark Session و Spark Context Spark Session VS Spark Context

مرور کلی Databricks Databricks Overview

راه‌اندازی Unity Catalog Unity Catalog Setup

نوشتن اولین کد Spark (Spark Session) Write First Spark Code - Spark Session

نحوه وارد کردن Notebookها و فایل‌های DBC How to import Notebooks and DBC file?

آزمون سنجش دانش Knowledge Test

اجزای Apache Spark Apache Spark Components

بررسی گره‌های Driver و Worker Inside Driver and Worker Nodes

تبدیلات Narrow و Wide Narrow and Wide Transformations

ارزیابی تنبل (Lazy Evaluation) Lazy Evaluation

ارزیابی تنبل در عمل Lazy Evaluation In Action

بهینه‌ساز Catalyst در Spark Catalyst Optimizer In Spark

پیاده‌سازی Catalyst Optimizer در کد Implement Catalyst Optimizer in Code

لایه‌های Spark و RDDها Spark Layers & Spark RDDs

چرا از Dataframe API استفاده کنیم؟ Why Code in Dataframe API?

درک Jobs، Stages و Tasks در Spark Understand Jobs, Stages, & Tasks In Spark

اجرای Jobها و Spark UI Trigger Jobs and Spark UI

دستور spark submit spark-submit command

جریان حرکت Jobs، Stages و Tasks Jobs, Stages, and Tasks Flow

استفاده از Coalesce و Repartition برای پارتیشن‌ها Coalesce and Repartition For Partitions

تنظیم پارتیشن‌های Spark با Coalesce و Repartition Tuning Spark Partitions with Coalesce & Repartition

برنامه‌های کوئری Spark (Query Plans) Spark Query Plans

آزمون سنجش دانش Knowledge Test

تبدیلات PySpark PySpark Transformations

خواندن فایل‌ها با PySpark Read Files With PySpark

خواندن داده‌ها از منبع JDBC Read Data From JDBC Source

مدیریت رکوردهای دارای خطا Handle Malformed Records

تعریف Schema برای داده‌های خام Define Schema For Raw Data

تبدیل SELECT SELECT Transformation

استفاده از ALIAS ALIAS

تبدیل FILTER FILTER Transformation

تغییر نام ستون با WITHCOLUMNRENAMED WITHCOLUMNRENAMED

افزودن ستون با WITHCOLUMN WITHCOLUMN

تبدیلات تغییر نوع داده (Type Casting) Type Casting Tranformations

مرتب‌سازی DataFrameها Sorting DataFrames

محدود کردن با LIMIT LIMIT

حذف با DROP DROP

حذف تکراری‌ها با DROPDUPLICATES DROPDUPLICATES

استفاده از UNION و UNIONBYNAME UNION & UNIONBYNAME

توابع تاریخ (DATE FUNCTIONS) DATE FUNCTIONS

توابع رشته‌ای (STRING FUNCTIONS) STRING FUNCTIONS

مدیریت مقادیر NULL Handling NULLS

جدا سازی و ایندکس گذاری SPLITTING & INDEXING

استفاده از EXPLODE EXPLODE

بررسی محتوا با ARRAY CONTAINS ARRAY CONTAINS

گروه‌بندی با GROUPBY GROUPBY

شمارش تقریبی مقادیر متمایز APPROX_COUNT_DISCTINCT

جمع‌آوری لیست با COLLECT_LIST COLLECT_LIST

عملیات PIVOTING PIVOTING

شرط‌های WHEN OTHERWISE WHEN OTHERWISE

اتصال داده‌ها (JOINS) JOINS

توابع پنجره‌ای (WINDOW FUNCTIONS) WINDOW FUNCTIONS

جمع تراکمی (CUMULATIVE SUM) CUMULATIVE SUM

توابع تعریف شده توسط کاربر (UDF) User Defined Functions - UDF

توابع جدولی تعریف شده توسط کاربر (UDTF) User Defined Table Functions - UDTF

فراخوانی UDFها Call UDFs

تبدیلات الحاقی (Concatenation) Concatenation Transformations

حالت‌های نوشتن خروجی (Write Output Modes) Write Output Modes

کار با فرمت‌های مختلف فایل Working With File Formats

فرمت Delta (فرمت جدول باز) Delta Format - Open Table Format