آموزش پایتون، دیتابریکس و آپاچی اسپارک: مهندسی جامع ETL - آخرین آپدیت

دانلود Python, Databricks & Apache Spark: Complete ETL Engineering

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: با استفاده از پایتون، Databricks و Apache Spark خط لوله‌های (Pipelines) قدرتمند ETL بسازید تا داده‌های خام را به بینش‌های تجاری قابل اعتماد تبدیل کنید. ساخت تحلیل‌های یکپارچه سفارشات در سطح Gold و پیوندهای تحلیلی با کیفیت بالا انجام تحلیل توزیع مشتریان، معیارهای فروشندگان و تحلیل دسته‌بندی محصولات راه‌اندازی، پیمایش و مدیریت فضای کاری (Workspace) و رابط کاربری Databricks درک نحوه عملکرد Databricks و دلیل پیشرو بودن آن به عنوان پلتفرمی برای مهندسی داده‌های مدرن کار با اعتماد به نفس با نوت‌بوک‌ها، فایل‌ها و کلاسترهای پردازشی Databricks افزایش سرعت توسعه با استفاده از میان‌برهای بهره‌وری و دستورات ضروری نوت‌بوک یادگیری معماری Lakehouse و الگوی طراحی داده‌های مدالیون (Bronze-Silver-Gold) تسلط بر مبانی Delta Lake، از جمله تراکنش‌های ACID و عملیات Delta Log استفاده از Unity Catalog برای حاکمیت متمرکز، مجوزها و سازماندهی داده‌ها ایجاد و مدیریت کاتالوگ‌ها، طرحواره‌ها (Schemas)، جداول و Volumeها ساخت خط لوله‌های ETL با استفاده از Apache Spark و اعمال آن‌ها بر روی مجموعه‌داده‌های واقعی کاوش و تبدیل مجموعه‌داده Olist از حالت خام Bronze به حالت پاک‌سازی شده Silver شناسایی داده‌های تکراری، داده‌های مفقود، مشکلات طرحواره و اعمال بررسی‌های کیفیت داده پاک‌سازی و غنی‌سازی داده‌های مشتریان، فروشندگان، محصولات، سفارشات، اقلام سفارش، پرداخت‌ها و نظرات حذف تکراری‌ها و اعتبارسنجی داده‌های مکان‌بنیاد (Geolocation) و جداول مرجع در لایه Silver انجام تبدیل‌های تحلیلی برای گزارش‌دهی در لایه Gold یادگیری مبانی پایتون، سینتکس و مفاهیم اصلی برنامه‌نویسی برای ایجاد یک پایه کدنویسی قوی. کار با متغیرها، انواع داده‌ها، لیست‌ها، دیکشنری‌ها، مجموعه‌ها، تاپل‌ها و سایر ساختارهای کلیدی داده. نوشتن توابع، استفاده از حلقه‌ها و منطق شرطی و اعمال جریان کنترل پایتون برای حل مسائل واقعی. استفاده از Jupyter Notebook و نوشتن کدهای حرفه‌ای و تمیز مطابق با استانداردهای PEP8. به‌کارگیری مهارت‌های پایتون در اتوماسیون، تحلیل داده‌ها و وظایف برنامه‌نویسی دنیای واقعی. پیشنیازها:یک کامپیوتر فعال (ویندوز، مک یا لینوکس) یک اتصال اینترنت پایدار برای دسترسی به Databricks درک ابتدایی از SQL (پرس‌وجوهای پایه مانند SELECT، WHERE، JOIN کافی است) علاقه به مهندسی داده و خط لوله‌های داده واقعی کنجکاوی در مورد پلتفرم‌های ابری مدرن و جریان‌های کاری ETL در مقیاس بزرگ انگیزه برای ساخت خط لوله‌های کامل end-to-end با استفاده از Databricks و Apache Spark بدون نیاز به تجربه قبلی در Databricks، Spark یا Lakehouse فقط شما، کیبوردتان و اشتیاقتان برای تبدیل شدن به یک مهندس داده!

به دوره «پایتون، دیتابریکس و آپاچی اسپارک: مهندسی جامع ETL» خوش آمدید.

با استفاده از پایتون، Databricks و Apache Spark خط لوله‌های قدرتمند ETL بسازید تا داده‌های خام را به بینش‌های تجاری قابل اعتماد تبدیل کنید.


پایتون (Python) یکی از قدرتمندترین و پرکاربردترین زبان‌های برنامه‌نویسی در مهندسی و تحلیل داده است. اکوسیستم غنی آن، شامل کتابخانه‌هایی مانند Pandas، PySpark و NumPy، به شما اجازه می‌دهد داده‌ها را به طور بهینه پردازش کنید، گردش کارهای خود را اتوماتیک کرده و سیستم‌های ETL مقیاس‌پذیر بسازید.

دیتابریکس (Databricks) یک پلتفرم یکپارچه تحلیل و مهندسی داده است که برای ساده‌سازی پردازش داده‌های حجیم (Big Data) و جریان‌های کاری یادگیری ماشین طراحی شده است. این پلتفرم که بر پایه Apache Spark ساخته شده، محیطی بهینه برای ایجاد خط لوله‌های ETL قابل اعتماد و با کارایی بالا، نوت‌بوک‌های مشارکتی و حاکمیت داده‌های سازمانی با Unity Catalog فراهم می‌کند.

در این دوره، ما شما را با هر آنچه برای تسلط بر مهندسی داده با استفاده از پایتون، دیتابریکس و آپاچی اسپارک نیاز دارید، همراهی می‌کنیم؛ این مسیر با نمودارها، مثال‌های عملی و توسعه واقعی خط لوله‌های ETL پشتیبانی می‌شود.

این دوره برای تمامی سطوح مهارتی طراحی شده و شما را گام‌به‌گام از مفاهیم مقدماتی به تکنیک‌های پیشرفته می‌برد. با نمایش‌های عملی، توضیحات شفاف و پروژه‌های جذاب، بر اجزای ضروری مهندسی داده مدرن مسلط خواهید شد.

این دوره به شما قدرت می‌دهد تا با بهره‌گیری کامل از پایتون و دیتابریکس، خط لوله‌های داده‌ای کارآمد و آماده برای محیط عملیاتی (Production-ready) بسازید. شما مهارت‌های پاک‌سازی، تبدیل، اعتبارسنجی و تحلیل مجموعه‌داده‌های بزرگ را به همراه تکنیک‌های حل مسئله برای چالش‌های واقعی ETL کسب خواهید کرد و در نتیجه در بازار مهندسی داده دارای یک مزیت رقابتی خواهید بود.

آیا برای ساخت خط لوله‌های ETL قدرتمند با پایتون و دیتابریکس آماده‌اید؟ این دوره نقطه شروع ایده‌آلی است!


آنچه خواهید آموخت:

معماری خط لوله ETL (پایتون و دیتابریکس): درک نحوه عملکرد جریان‌های کاری ETL مدرن. یادگیری منطق نوت‌بوک‌های Databricks، جریان اجرای کارهای Spark و تبدیل‌های مبتنی بر پایتون.

مبانی پایتون برای مهندسی داده: تسلط بر دستکاری داده‌ها با ضروریات پایتون، از جمله Pandas، انواع داده‌ها، مدیریت فایل‌ها، توابع و جریان‌های اتوماسیون.

فضای کاری و نوت‌بوک‌های Databricks: یادگیری نحوه پیمایش رابط کاربری Databricks، استفاده از نوت‌بوک‌ها، مدیریت فایل‌ها و پیکربندی کلاسترها برای کارهای Spark.

مبانی آپاچی اسپارک (Apache Spark): درک مفاهیم اصلی اسپارک شامل DataFrames، ارزیابی تنبل (Lazy Evaluation)، تبدیل‌ها (Transformations)، اکشن‌ها، پارتیشن‌ها و اجرای بهینه.

Delta Lake و ذخیره‌سازی مدرن داده‌ها: یادگیری مفاهیم Delta Lake مانند تراکنش‌های ACID، Delta Log، سفر در زمان (Time Travel)، تکامل طرحواره (Schema Evolution) و ذخیره‌سازی بهینه.

Unity Catalog و حاکمیت داده‌ها: کسب تجربه عملی در مدیریت امن داده‌ها، کاتالوگ‌ها، طرحواره‌ها، جداول و مجوزها.

پاک‌سازی و تبدیل داده‌ها (Bronze → Silver → Gold): تسلط بر معماری مدالیون با استفاده از مجموعه‌داده‌های واقعی. انجام عملیات حذف تکرار، مدیریت مقادیر مفقود، نرمال‌سازی، اعتبارسنجی و غنی‌سازی.

پردازش داده با پایتون و اسپارک: نوشتن کدهای بهینه PySpark برای Joinها، تجمیع‌ها (Aggregations)، توابع پنجره‌ای (Window Functions) و تبدیل‌های در مقیاس بزرگ.

بهینه‌سازی عملکرد (پایتون و اسپارک): یادگیری بهترین روش‌ها مانند Partitioning، Caching، Broadcast Joins و بهینه‌سازی پرس‌وجوها.

استقرار جریان‌های کاری ETL: درک زمان‌بندی کارهای (Job Scheduling)، Databricks Jobs، سیاست‌های کلاستر و بهترین روش‌های اتوماسیون.

در پایان این دوره، شما در ساخت خط لوله‌های ETL مستحکم و مقیاس‌پذیر با پایتون و دیتابریکس اعتماد به نفس خواهید داشت و برای مواجهه با پروژه‌های واقعی مهندسی داده کاملاً آماده خواهید بود.


دیتابریکس (Databricks) چیست؟

دیتابریکس یک پلتفرم یکپارچه ابری مبتنی بر Apache Spark است که برای ساده‌سازی مهندسی داده و تحلیل‌های مقیاس بزرگ طراحی شده است. این پلتفرم نوت‌بوک‌های مشارکتی، توان پردازشی مقیاس‌پذیر، ذخیره‌سازی Delta Lake و حاکمیت داده‌های سازمانی را فراهم می‌کند.

پایتون (Python) چیست؟

پایتون یک زبان برنامه‌نویسی چندمنظوره است که در مهندسی داده برای اتوماسیون، پاک‌سازی، تبدیل و پردازش داده‌های حجیم از طریق فریم‌ورک‌هایی مانند PySpark به طور گسترده استفاده می‌شود.

آپاچی اسپارک (Apache Spark) چیست؟

آپاچی اسپارک یک موتور پردازش توزیع‌شده است که برای حجم‌های بالای داده ساخته شده است. اسپارک ستون فقرات دیتابریکس است و امکان ETL سریع، پردازش جریانی (Streaming) و یادگیری ماشین در مقیاس بزرگ را فراهم می‌کند.


چرا باید این دوره را بگذرانید؟

پاسخ ما ساده است: کیفیت تدریس

آکادمی OAK مستقر در لندن، یک شرکت آموزش آنلاین است که در زمینه‌های IT، نرم‌افزار، طراحی و توسعه به زبان‌های ترکی، انگلیسی، پرتغالی و بسیاری از زبان‌های دیگر در پلتفرم Udemy با بیش از ۲۰۰۰ ساعت آموزش ویدئویی فعالیت می‌کند.

هنگام ثبت‌نام، تخصص توسعه‌دهندگان باسابقه آکادمی OAK را احساس خواهید کرد.


کیفیت تولید ویدئو و صدا

تمام محتوای ما به صورت ویدئو و صدای باکیفیت تولید شده است تا بهترین تجربه یادگیری را برای شما فراهم کند.

شما خواهید توانست:

  • به طور واضح ببینید

  • به طور واضح بشنوید

  • بدون هیچ حواس‌پرتی در دوره پیش بروید


همچنین دریافت خواهید کرد:

  • دسترسی مادام‌العمر به دوره

  • پشتیبانی سریع و دوستانه در بخش پرسش و پاسخ (Q&A)

  • گواهینامه پایان دوره Udemy آماده برای دانلود

ما پشتیبانی کامل را ارائه می‌دهیم و به هر سوالی پاسخ خواهیم داد.


همین حالا در دوره «پایتون، دیتابریکس و آپاچی اسپارک: مهندسی جامع ETL» غوطه‌ور شوید.

با استفاده از پایتون، Databricks و Apache Spark خط لوله‌های قدرتمند ETL بسازید تا داده‌های خام را به بینش‌های تجاری قابل اعتماد تبدیل کنید.


سرفصل ها و درس ها

نصبات Installations

  • نصب Anaconda Distribution برای ویندوز Installing Anaconda Distribution for Windows

  • نصب Anaconda Distribution برای مک Installing Anaconda Distribution for MacOs

  • نصب Anaconda Distribution برای لینوکس Installing Anaconda Distribution for Linux

  • بررسی Jupyter Notebook Reviewing The Jupyter Notebook

  • بررسی Jupyter Lab Reviewing The Jupyter Lab

اولین قدم در کدنویسی First Step to Coding

  • مقدمه‌ای بر پایتون Python Introduction

  • فایل‌های پروژه Project Files

  • اولین قدم در کدنویسی First Step to Coding

  • استفاده از علامت‌های نقل قول در کدنویسی پایتون Using Quotation Marks in Python Coding

  • فرم و استایل کدنویسی چگونه باید باشد (Pep8) How Should the Coding Form and Style Be (Pep8)

  • کوییز Quiz

عملیات پایه با پایتون Basic Operations with Python

  • مقدمه‌ای بر ساختارهای داده پایه در پایتون Introduction to Basic Data Structures in Python

  • انجام تخصیص به متغیرها Performing Assignment to Variables

  • انجام تخصیص‌های پیچیده به متغیرها Performing Complex Assignment to Variables

  • تبدیل نوع (Type Conversion) Type Conversion

  • عملیات ریاضی در پایتون Arithmetic Operations in Python

  • بررسی عمیق تابع Print Examining the Print Function in Depth

  • عملیات توالی Escape Escape Sequence Operations

  • کوییز Quiz

نوع داده Boolean در زبان برنامه‌نویسی پایتون Boolean Data Type in Python Programming Language

  • عبارات منطقی Boolean Boolean Logic Expressions

  • ترتیب عملیات در عملگرهای Boolean Order Of Operations In Boolean Operators

  • تمرین با پایتون Practice with Python

  • کوییز Quiz

نوع داده String در زبان برنامه‌نویسی پایتون String Data Type in Python Programming Language

  • بررسی تخصصی رشته‌ها (Strings) Examining Strings Specifically

  • دسترسی به اطلاعات طول رشته (متد Len) Accessing Length Information (Len Method)

  • متدهای جستجو در رشته‌ها Startswith() و Endswith() Search Method In Strings Startswith(), Endswith()

  • متد تغییر کاراکتر در رشته‌ها Replace() Character Change Method In Strings Replace()

  • متدهای جایگزینی املایی در رشته Spelling Substitution Methods in String

  • متدهای برش کاراکتر در رشته Character Clipping Methods in String

  • اندیس‌گذاری و برش رشته‌های کاراکتری Indexing and Slicing Character String

  • عملیات پیچیده اندیس‌گذاری و برش Complex Indexing and Slicing Operations

  • فرمت‌بندی رشته با عملیات ریاضی String Formatting with Arithmetic Operations

  • فرمت‌بندی رشته با عملگر % String Formatting With % Operator

  • فرمت‌بندی رشته با متد String.Format String Formatting With String.Format Method

  • فرمت‌بندی رشته با متد f-string String Formatting With f-string Method

  • کوییز Quiz

ساختار داده List در زبان برنامه‌نویسی پایتون List Data Structure in Python Programming Language

  • ایجاد لیست (List) Creation of List

  • دسترسی به عناصر لیست – اندیس‌گذاری و برش Reaching List Elements – Indexing and Slicing

  • افزودن، تغییر و حذف عناصر لیست Adding & Modifying & Deleting Elements of List

  • افزودن و حذف با استفاده از متدها Adding and Deleting by Methods

  • افزودن و حذف بر اساس اندیس Adding and Deleting by Index

  • سایر متدهای لیست Other List Methods

  • کوییز Quiz

ساختار داده Tuple در زبان برنامه‌نویسی پایتون Tuple Data Structure in Python Programming Language

  • ایجاد تاپل (Tuple) Creation of Tuple

  • دسترسی به عناصر تاپل، اندیس‌گذاری و برش Reaching Tuple Elements Indexing And Slicing

  • کوییز Quiz

ساختار داده Dictionary در زبان برنامه‌نویسی پایتون Dictionary Data Structure in Python Programming Language

  • ایجاد دیکشنری (Dictionary) Creation of Dictionary

  • دسترسی به عناصر دیکشنری Reaching Dictionary Elements

  • افزودن، تغییر و حذف عناصر در دیکشنری Adding & Changing & Deleting Elements in Dictionary

  • متدهای دیکشنری Dictionary Methods

  • کوییز Quiz

ساختار داده Set در زبان برنامه‌نویسی پایتون Set Data Structure in Python Programming Language

  • ایجاد مجموعه (Set) Creation of Set

  • متدهای افزودن و حذف عناصر در مجموعه‌ها Adding & Removing Elements Methods in Sets

  • متدهای عملیات تفاضل در مجموعه‌ها Difference Operation Methods In Sets

  • متدهای اشتراک و اجتماع در مجموعه‌ها Intersection & Union Methods In Sets

  • پرسش از مجموعه‌ها با استفاده از متدها Asking Questions to Sets with Methods

  • کوییز Quiz

عبارات شرطی در زبان برنامه‌نویسی پایتون Conditional Expressions in Python Programming Language

  • عملگرهای مقایسه‌ای Comparison Operators

  • ساختار دستورات if Structure of “if” Statements

  • ساختار دستورات if else Structure of “if-else” Statements

  • ساختار دستورات if elif else Structure of “if-elif-else” Statements

  • ساختار دستورات تو در تو if elif else Structure of Nested “if-elif-else” Statements

  • برنامه‌نویسی هماهنگ با IF و INPUT Coordinated Programming with “IF” and “INPUT”

  • شرط سه تایی (Ternary Condition) Ternary Condition

  • کوییز Quiz

حلقه For در زبان برنامه‌نویسی پایتون For Loop in Python Programming Language

  • حلقه For در پایتون For Loop in Python

  • حلقه For در پایتون (تثبیت موضوع) For Loop in Python(Reinforcing the Topic)

  • استفاده همزمان از عبارات شرطی و حلقه For Using Conditional Expressions and For Loop Together

  • دستور Continue Continue Command

  • دستور Break Break Command

  • لیست‌های جامع (List Comprehension) List Comprehension

  • کوییز Quiz

حلقه While در زبان برنامه‌نویسی پایتون While Loop in Python Programming Language

  • حلقه While در پایتون While Loop in Python

  • حلقه‌های While در پایتون (تثبیت موضوع) While Loops in Python Reinforcing the Topic

  • کوییز Quiz

توابع در زبان برنامه‌نویسی پایتون Functions in Python Programming Language

  • آشنایی با توابع Getting know to the Functions

  • نحوه نوشتن تابع How to Write Function

  • عبارت Return در توابع Return Expression in Functions

  • نوشتن توابع با چندین آرگومان Writing Functions with Multiple Argument

  • نوشتن Docstring در توابع Writing Docstring in Functions

  • استفاده همزمان از توابع و عبارات شرطی Using Functions and Conditional Expressions Together

  • کوییز Quiz

آرگومان‌ها و پارامترها در زبان برنامه‌نویسی پایتون Arguments And Parameters in Python Programming Language

  • آرگومان‌ها و پارامترها Arguments and Parameters

  • عملیات سطح بالا با آرگومان‌ها High Level Operations with Arguments

  • کوییز Quiz

پرکاربردترین توابع در زبان برنامه‌نویسی پایتون Most Used Functions in Python Programming Language

  • توابع all() و any() all(), any() Functions

  • تابع map() map() Function

  • تابع filter() filter() Function

  • تابع zip() zip() Function

  • تابع enumerate() enumerate() Function

  • توابع max() و min() max(), min() Functions

  • تابع sum() sum() Function

  • تابع round() round() Function

  • توابع لامبدا (Lambda) Lambda Function

  • کوییز Quiz

ساختار کلاس در زبان برنامه‌نویسی پایتون Class Structure in Python Programming Language

  • متغیرهای محلی و سراسری Local and Global Variables

  • ویژگی‌های کلاس Features of Class

  • نمونه‌سازی از کلاس (Instantiation) Instantiation of Class

  • ویژگی‌های نمونه‌سازی Attribute of Instantiation

  • نوشتن تابع در کلاس Write Function in the Class

  • ساختار ارث‌بری (Inheritance) Inheritance Structure

مقدمه و راه‌اندازی Introduction & Setup

  • مرور دوره و مسیر یادگیری Course Overview & Learning Path

  • منابع پروژه دوره Course Project Resources

  • بررسی راهنمای آزمون Exam Guide Breakdown

  • دیتابریکس چیست و چرا مهندسی داده؟ What is Databricks & Why Data Engineering?

  • ایجاد محیط رایگان دیتابریکس Creating Your Free Databricks Environment

  • پیمایش رابط کاربری دیتابریکس Navigating the Databricks User Interface

  • کوییز Quiz

اجزای سازنده دیتابریکس Databricks Building Blocks

  • دیتابریکس چگونه کنار هم قرار می‌گیرد – درس ۱ How Databricks Fits Together – Lesson 1

  • دیتابریکس چگونه کنار هم قرار می‌گیرد – درس ۲ How Databricks Fits Together – Lesson 2

  • مدیریت فایل و نوت‌بوک در دیتابریکس File and Notebook Management in Databricks

  • گزینه‌های پردازشی دیتابریکس – درس ۱ Databricks Compute Options – Lesson 1

  • گزینه‌های پردازشی دیتابریکس – درس ۲ Databricks Compute Options – Lesson 2

  • تنظیمات کلاستر دیتابریکس: راهنمای تئوری و آماده‌سازی برای گواهینامه Databricks Cluster Settings: Theoretical Guide and Certification Preparation

  • دیتابریکس نوت‌بوک دیجیتال و آزمایشگاه شما – درس ۱ Databricks Your Digital Notebook and Laboratory – Lesson 1

  • دیتابریکس نوت‌بوک دیجیتال و آزمایشگاه شما – درس ۲ Databricks Your Digital Notebook and Laboratory – Lesson 2

  • دیتابریکس نوت‌بوک دیجیتال و آزمایشگاه شما – درس ۳ Databricks Your Digital Notebook and Laboratory – Lesson 3

  • دستورات ضروری نوت‌بوک در دیتابریکس Essential Notebook Commands in Databricks

  • میان‌برهای هوشمند در دیتابریکس Smart Shortcuts in Databricks

  • کوییز Quiz

مبانی معماری Lakehouse Lakehouse Architecture Fundamentals

  • لیک‌هاوس (Lakehouse) چیست؟ – پلتفرم داده یکپارچه What is Lakehouse? – The Unified Data Platform

  • درک لایه‌های مدالیون (Bronze, Silver, Gold) Understanding the Medallion Layers (Bronze, Silver, Gold)

  • تراکنش‌های ACID و لاگ‌های تراکنش ACID Transactions & Transaction Logs

  • کوییز Quiz

حاکمیت داده‌ها و Unity Catalog Data Governance & Unity Catalog

  • از DBFS تا Unity Catalog: تکامل حاکمیت داده‌ها From DBFS to Unity Catalog: The Evolution of Data Governance

  • درک لایه‌های Unity Catalog Understanding Unity Catalog Layers

  • جداول مدیریت‌شده در مقابل جداول خارجی در Unity Catalog Managed vs External Tables in Unity Catalog

  • ایجاد یک Unity Catalog Creating a Unity Catalog

  • ایجاد جداول مدیریت‌شده – درس ۱ Creating Managed Tables – Lesson 1

  • ایجاد جداول مدیریت‌شده – درس ۲ Creating Managed Tables – Lesson 2

  • ایجاد Volumeها – درس ۱ Creating Volumes – Lesson 1

  • ایجاد Volumeها – درس ۲ Creating Volumes – Lesson 2

  • کوییز Quiz

شروع کار با ETL آپاچی اسپارک Getting Started with ETL Apache Spark

  • شروع کار با ETL و آپاچی اسپارک Getting Started with ETL and Apache Spark

  • درک مدل داده Understanding the Data Model

  • کوییز Quiz

مهندسی داده با آپاچی اسپارک – لایه Bronze Data Engineering with Apache Spark – Bronze Layer

  • اولین گام‌های ETL (استخراج) با آپاچی اسپارک – درس ۱ Your First ETL Steps (Extract) with Apache Spark – Lesson 1

  • اولین گام‌های ETL (استخراج) با آپاچی اسپارک – درس ۲ Your First ETL Steps (Extract) with Apache Spark – Lesson 2

  • اولین گام‌های ETL (استخراج) با آپاچی اسپارک – درس ۳ Your First ETL Steps (Extract) with Apache Spark – Lesson 3

  • کاوش در تمام DataFrameهای لایه Bronze با PySpark Exploring All Bronze DataFrames with PySpark

  • جداول خارجی: استفاده از داده‌های خارجی بدون انتقال به دیتابریکس External Tables: Using External Data Without Bringing It into Databricks

  • شناسایی کلیدهای تکراری در لایه Bronze Detecting Duplicate Keys in the Bronze Layer

  • پروفایل‌بندی مقادیر مفقود در لایه Bronze Missing Value Profiling in the Bronze Layer

  • بررسی‌های نهایی قبل از انتقال به لایه Silver – درس ۱ Final Checks Before Moving to Silver Layer – Lesson 1

  • بررسی‌های نهایی قبل از انتقال به لایه Silver – درس ۲ Final Checks Before Moving to Silver Layer – Lesson 2

  • کوییز Quiz

مهندسی داده با آپاچی اسپارک – لایه Silver Data Engineering with Apache Spark – Silver Layer

  • پاک‌سازی و نرمال‌سازی جدول مشتریان – درس ۱ Cleaning and Normalizing Customers Table – Lesson 1

  • پاک‌سازی و نرمال‌سازی جدول مشتریان – درس ۲ Cleaning and Normalizing Customers Table – Lesson 2

  • فروشندگان Olist: تبدیل Bronze به Silver – درس ۱ Olist Sellers: Transforming Bronze to Silver – Lesson 1

  • فروشندگان Olist: تبدیل Bronze به Silver – درس ۲ Olist Sellers: Transforming Bronze to Silver – Lesson 2

  • پاک‌سازی و غنی‌سازی جدول محصولات – درس ۱ Cleaning and Enriching the Products Table – Lesson 1

  • پاک‌سازی و غنی‌سازی جدول محصولات – درس ۲ Cleaning and Enriching the Products Table – Lesson 2

  • پاک‌سازی و غنی‌سازی جدول محصولات – درس ۳ Cleaning and Enriching the Products Table – Lesson 3

  • پاک‌سازی و غنی‌سازی جدول محصولات – درس ۴ Cleaning and Enriching the Products Table – Lesson 4

  • پاک‌سازی و غنی‌سازی جدول محصولات – درس ۵ Cleaning and Enriching the Products Table – Lesson 5

  • مدیریت زمان، کیفیت و داده‌های مفقود در جدول سفارشات – درس ۱ Time, Quality, and Missing Data Management in Orders Table – Lesson 1

  • مدیریت زمان، کیفیت و داده‌های مفقود در جدول سفارشات – درس ۲ Time, Quality, and Missing Data Management in Orders Table – Lesson 2

  • مدیریت زمان، کیفیت و داده‌های مفقود در جدول سفارشات – درس ۳ Time, Quality, and Missing Data Management in Orders Table – Lesson 3

  • مدیریت زمان، کیفیت و داده‌های مفقود در جدول سفارشات – درس ۴ Time, Quality, and Missing Data Management in Orders Table – Lesson 4

  • مدیریت زمان، کیفیت و داده‌های مفقود در جدول سفارشات – درس ۵ Time, Quality, and Missing Data Management in Orders Table – Lesson 5

  • تبدیل داده‌های Order_Items و بررسی‌های کیفیت – درس ۱ Order_Items Data Transformation and Quality Checks – Lesson 1

  • تبدیل داده‌های Order_Items و بررسی‌های کیفیت – درس ۲ Order_Items Data Transformation and Quality Checks – Lesson 2

  • تبدیل داده‌های Order_Items و بررسی‌های کیفیت – درس ۳ Order_Items Data Transformation and Quality Checks – Lesson 3

  • اعتبارسنجی و تبدیل داده‌های پرداخت – درس ۱ Payments Data Validation and Transformation – Lesson 1

  • اعتبارسنجی و تبدیل داده‌های پرداخت – درس ۲ Payments Data Validation and Transformation – Lesson 2

  • اعتبارسنجی و تبدیل داده‌های پرداخت – درس ۳ Payments Data Validation and Transformation – Lesson 3

  • اعتبارسنجی و تبدیل داده‌های پرداخت – درس ۴ Payments Data Validation and Transformation – Lesson 4

  • ساخت نسخه Silver از order_reviews – درس ۱ Building the Silver Version of order_reviews – Lesson 1

  • ساخت نسخه Silver از order_reviews – درس ۲ Building the Silver Version of order_reviews – Lesson 2

  • ساخت نسخه Silver از order_reviews – درس ۳ Building the Silver Version of order_reviews – Lesson 3

  • پاک‌سازی و حذف تکراری‌های داده‌های مکان‌بنیاد – درس ۱ Geolocation Data Cleaning and Deduplication – Lesson 1

  • پاک‌سازی و حذف تکراری‌های داده‌های مکان‌بنیاد – درس ۲ Geolocation Data Cleaning and Deduplication – Lesson 2

  • پاک‌سازی و حذف تکراری‌های داده‌های مکان‌بنیاد – درس ۳ Geolocation Data Cleaning and Deduplication – Lesson 3

  • پاک‌سازی و حذف تکراری‌های داده‌های مکان‌بنیاد – درس ۴ Geolocation Data Cleaning and Deduplication – Lesson 4

  • جداول مرجع پاک‌سازی شده در لایه Silver Clean Reference Tables in the Silver Layer

  • کوییز Quiz

مهندسی داده با آپاچی اسپارک – لایه Gold Data Engineering with Apache Spark – Gold Layer

  • تحلیل توزیع مشتریان – درس ۱ Customer Distribution Analysis – Lesson 1

  • تحلیل توزیع مشتریان – درس ۲ Customer Distribution Analysis – Lesson 2

  • معیارهای فروشندگان و بصری‌سازی پارتو – درس ۱ Seller Metrics and Pareto Visualization – Lesson 1

  • معیارهای فروشندگان و بصری‌سازی پارتو – درس ۲ Seller Metrics and Pareto Visualization – Lesson 2

  • تحلیل دسته‌بندی محصولات بر اساس وزن، حجم و چگالی – درس ۱ Analyzing Product Categories by Weight, Volume and Density – Lesson 1

  • تحلیل دسته‌بندی محصولات بر اساس وزن، حجم و چگالی – درس ۲ Analyzing Product Categories by Weight, Volume and Density – Lesson 2

  • تحلیل دسته‌بندی محصولات بر اساس وزن، حجم و چگالی – درس ۳ Analyzing Product Categories by Weight, Volume and Density – Lesson 3

  • لایه Gold – هر جدول داستان خود را می‌گوید Gold Layer – Each Table Tells Its Own Story

  • تحلیل یکپارچه سفارشات Gold – درس ۱ Unified Order Gold Analytics – Lesson 1

  • تحلیل یکپارچه سفارشات Gold – درس ۲ Unified Order Gold Analytics – Lesson 2

  • تحلیل یکپارچه سفارشات Gold – درس ۳ Unified Order Gold Analytics – Lesson 3

  • تحلیل یکپارچه سفارشات Gold – درس ۴ Unified Order Gold Analytics – Lesson 4

  • تحلیل یکپارچه سفارشات Gold – درس ۵ Unified Order Gold Analytics – Lesson 5

  • طراحی پیوندهای تحلیلی در لایه Gold Designing Analytical Joins in the Gold Layer

  • کوییز Quiz

بخش اضافی Extra

  • پایتون، دیتابریکس و آپاچی اسپارک: مهندسی جامع ETL Python, Databricks & Apache Spark: Complete ETL Engineering

نمایش نظرات

آموزش پایتون، دیتابریکس و آپاچی اسپارک: مهندسی جامع ETL
جزییات دوره
23.5 hours
170
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
147
4.6 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

OAK Academy OAK Academy

کارآفرین

OAK Academy Team OAK Academy Team

مربی

Ali̇ CAVDAR Ali̇ CAVDAR

دانشمند داده و مدرس IT