آموزش دیتابریکس و PySpark برای داده‌های بزرگ: از مبتدی تا متخصص - آخرین آپدیت

دانلود Databricks and PySpark for Big Data: From Zero to Expert

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:

دوره جامع آموزش Databricks: پیاده‌سازی Spark، دیتافریم‌ها، یادگیری ماشین و تحلیل پیشرفته

یادگیری پردازش داده‌های حجیم با PySpark در Databricks

آیا به دنبال یک دوره عملی، جامع و پیشرفته برای یادگیری Databricks و PySpark هستید؟ جای درستی آمده‌اید!

Databricks یک پلتفرم تحلیل داده مبتنی بر Apache Spark برای مهندسی داده، علم داده و یادگیری ماشین است. Databricks به یکی از مهم‌ترین پلتفرم‌ها برای کار با Spark تبدیل شده است و با Azure، AWS و Google Cloud سازگار است. این امر باعث می‌شود که Databricks و Apache Spark به برخی از مهم‌ترین مهارت‌های مورد نیاز برای مهندسان داده و دانشمندان داده و برخی از ارزشمندترین مهارت‌ها در حال حاضر تبدیل شوند. این دوره هر آنچه را که برای قرار دادن خود در بازار کار کلان داده نیاز دارید، به شما آموزش می‌دهد.

این دوره به گونه‌ای طراحی شده است که شما را برای یادگیری هر آنچه مربوط به Databricks و Apache Spark است، از محیط Databricks، پلتفرم و قابلیت‌ها، تا Spark SQL API، Spark Dataframes، Spark Streaming، Machine Learning، تحلیل پیشرفته و تصویرسازی داده‌ها در Databricks آماده کند.

با یک آموزش کامل، راهنماهای مطالعه قابل دانلود، تمرین‌های عملی و موارد استفاده واقعی، این تنها دوره‌ای است که برای یادگیری Databricks و Apache Spark به آن نیاز خواهید داشت. شما Databricks را از اصول اولیه تا پیشرفته‌ترین قابلیت‌ها یاد خواهید گرفت. برای این کار، از ارائه‌های تصویری، اشتراک توضیحات واضح و مشاوره‌های حرفه‌ای مفید استفاده خواهیم کرد.

مباحث پوشش داده شده در این دوره:

  • آشنایی با بیگ دیتا و Apache Spark
  • مبانی Spark با Spark RDDs، Dataframes
  • محیط Databricks
  • تحلیل پیشرفته و تصویرسازی داده‌ها با Databricks
  • یادگیری ماشین با Spark در Databricks
  • Spark Streaming در Databricks

اگر آماده هستید تا مهارت‌های خود را بهبود ببخشید، فرصت‌های شغلی خود را افزایش دهید و به یک متخصص کلان داده تبدیل شوید، امروز به ما بپیوندید و دسترسی فوری و مادام العمر به موارد زیر دریافت کنید:

  • راهنمای کامل Databricks با Apache Spark (کتاب الکترونیکی PDF)
  • فایل‌های پروژه قابل دانلود
  • تمرین‌ها و پرسشنامه‌های عملی
  • منابع Databricks مانند: Cheat sheet ها و خلاصه‌ها
  • پشتیبانی تخصصی یک به یک
  • انجمن پرسش و پاسخ دوره

پیش نیازها: اصول PySpark

به امید دیدار!


سرفصل ها و درس ها

Introduction to this course

  • مطالب دوره Course Material

  • نحوه استفاده حداکثری از دوره How to get the most out of the course

مقدمه ای بر آپاچی اسپارک و داده های بزرگ (Big Data) Introduction to Apache Spark and Big Data

  • مبانی اسپارک (Spark) Spark Fundamentals

  • نحوه کار آپاچی اسپارک How Apache Spark works

  • اکوسیستم آپاچی اسپارک و مستندات رسمی Apache Spark ecosystem and official documentation

  • پای‌اسپارک (PySpark): مدیریت کلاستر (cluster management) و معماری PySpark: cluster management and architecture

نصب اسپارک به صورت محلی (اضافی) Installation of Spark on premises (Addiotional)

  • نصب اسپارک: دانلود ابزارها Spark installation: downloading tools

  • نصب اسپارک: تنظیم متغیرهای محیطی Installing Spark: setting environment variables

  • اجرای اسپارک در خط فرمان و جوپیتر نوت‌بوک (jupyter notebook) Running Spark at the prompt and jupyter notebook

اسپارک دیتافریم‌ها (DataFrames) و آپاچی اسپارک SQL Spark DataFrames and Apache Spark SQL

  • مبانی و مزایای دیتافریم‌ها Fundamentals and advantages of DataFrames

  • ویژگی‌های دیتافریم‌ها و منابع داده Characteristics of DataFrames and data sources

  • ایجاد دیتافریم‌ها در پای‌اسپارک Creating DataFrames in PySpark

  • عملیات با دیتافریم‌های پای‌اسپارک Operations with PySpark DataFrames

  • انواع مختلف Join در دیتافریم‌ها Different types of joins in DataFrames

  • پرس و جوهای SQL در پای‌اسپارک Consultas SQL en PySpark

  • توابع پیشرفته برای بارگیری و صادر کردن داده‌ها در پای‌اسپارک Funciones avanzadas para cargar y exportar datos en PySpark

ویژگی‌های پیشرفته اسپارک Spark Advanced Features

  • ویژگی‌های پیشرفته و بهینه‌سازی عملکرد Advanced Features and Performance Optimization

  • BroadCast Join و کشینگ (caching) BroadCast Join and caching

  • توابع تعریف شده توسط کاربر (UDF) و توابع پیشرفته SQL User Defined Functions (UDF) and advanced SQL functions

  • مدیریت و جایگذاری مقادیر از دست رفته (Missing values) Handling and imputation of missing values

مبانی دیتابریکس (Databricks) Databricks Fundamentals

  • مقدمه ای بر دیتابریکس Introduction to Databricks

  • اصطلاحات دیتابریکس و انجمن دیتابریکس (Databricks Community) Databricks Terminology and Databricks Community

  • ایجاد یک حساب کاربری رایگان دیتابریکس Crear una cuenta gratuita de Databricks

پلتفرم دیتابریکس Databricks Platform

  • مقدمه ای بر محیط دیتابریکس Introduction to the Databricks environment

  • اولین گام‌ها با دیتابریکس First steps with Databricks

ابزارهای دیتابریکس (Databricks Utilities) Databricks Utilities

  • ابزارهای دیتابریکس Databricks Utilities

  • Databricks Utils برای مدیریت سیستم فایل و کتابخانه‌ها Databricks Utils for managing File System and libraries

  • Databricks Utils برای نوت‌بوک‌ها، سکرت‌ها (secrets) و ویجت‌ها (Widgets) Databricks Utils for notebooks, secrets and Widgets

ETL، دیتافریم‌ها و مصورسازی داده در دیتابریکس ETL, Dataframes and data visualization in Databricks

  • ایجاد و ذخیره دیتافریم‌ها در دیتابریکس Creating and saving DataFrames in Databricks

  • تبدیل و مصورسازی داده‌ها در دیتابریکس Transformation and visualization of data in Databricks

یادگیری ماشین با دیتابریکس و آپاچی اسپارک Machine learning with Databricks and Apache Spark

  • مبانی یادگیری ماشین با اسپارک Fundamentals of Machine Learning with Spark

  • اجزای یادگیری ماشین اسپارک Spark Machine Learning components

  • مراحل توسعه یک مدل یادگیری ماشین Stages in the development of a Machine Learning model

  • تعریف مدل یادگیری ماشین و توسعه پایپ‌لاین (Pipeline) Machine Learning Model Definition and Pipeline Development

  • ارزیابی مدل با پای‌اسپارک و دیتابریکس Model evaluation with PySpark and Databricks

  • تنظیم ابرپارامترها (Hyperparameter setting) و لاگینگ (logging) در MLFlow Hyperparameter setting and logging in MLFlow

  • پیش‌بینی با داده‌های جدید و مصورسازی نتایج Predictions with new data and visualization of results

دیتابریکس کوآلاز (Koalas): API پانداس (Pandas API) برای آپاچی اسپارک Databricks Koalas: The Pandas API for Apache Spark

  • مبانی اسپارک کوآلاز Spark Koalas Fundamentals

  • مهندسی ویژگی (Feature Engineering) با کوآلاز Feature Engineering with Koalas

  • ایجاد دیتافریم‌ها با کوآلاز Creating DataFrames with Koalas

  • دستکاری داده و دیتافریم‌ها با کوآلاز Data Manipulation and DataFrames with Koalas

  • کار با داده‌های از دست رفته در کوآلاز Working with missing data in Koalas

  • مصورسازی داده و تولید نمودار با کوآلاز Data visualization and graph generation with Koalas

  • وارد کردن و صادر کردن داده با کوآلاز Import and export data with Koalas

اسپارک استریمینگ (Spark Streaming) در دیتابریکس Spark Streaming at Databricks

  • مبانی اسپارک استریمینگ Spark Streaming Fundamentals

  • مثالی از شمارش کلمات استریمینگ با اسپارک استریمینگ Example of Streaming word count with Spark Streaming

  • پیکربندی‌های اسپارک استریمینگ: حالت‌های خروجی و انواع عملیات Spark Streaming Configurations: Output Modes and Operation Types

  • قابلیت‌های اسپارک استریمینگ Spark Streaming Capabilities

  • آزمایشگاه عملی قسمت اول: اسپارک استریمینگ در دیتابریکس Hands-on Lab part I: Spark Streaming in Databricks

  • آزمایشگاه عملی قسمت دوم: اسپارک استریمینگ در دیتابریکس Hands-on Lab part II: Spark Streaming in Databricks

پیش‌بینی بی‌درنگ با دیتابریکس، اسپارک ML و اسپارک استریمینگ Real-time forecasting with Databricks, Spark ML and Spark Streaming

  • مطالعه موردی: پایپ‌لاین پیش‌پردازش و توسعه مدل ML Case Study: Preprocessing Pipeline and ML Model Development

دلتا لیک (Delta Lake) Delta Lake

  • مبانی دلتا لیک Delta Lake Fundamentals

  • ویژگی‌ها و مزایای دلتا لیک Delta Lake features and benefits

  • معماری یک دلتا لیک در Azure Architecture of a Delta Lake in Azure

  • تولید یک دلتا لیک و پرس و جو از داده‌ها Generate a Delta Lake and query the data

  • یکپارچه‌سازی فرآیندهای دسته‌ای و استریمینگ با دلتا لیک و تراکنش‌های ACID Unifying Batch and Streamning processes with Delta Lake and ACID transactions

  • حفظ یکپارچگی داده‌ها با اعمال و تکامل اسکیما (Schema Enforcement and Evolution) در دلتا لیک Preserving data integrity with Schema Enforcement and Evolution in Delta Lake

  • بازیابی نسخه دلتا لیک Delta Lake version recovery

  • پرس و جوهای DML در دلتا لیک DML Consultations at Delta Lake

  • بهینه‌سازی عملکرد دلتا لیک Delta Lake performance optimization

مفاهیم معماری اسپارک Spark Architecture Concepts

  • تکنیک‌های بهینه‌سازی اسپارک Spark Optimization Techniques

  • ارزیابی تنبل (Lazy Evaluation) Lazy Evaluation

  • تبدیلات گسترده و باریک (Wide and Narrow Transformations) Wide and Narrow Transformations

  • فایل Parquet در اسپارک Parquet file in Spark

  • موازی‌سازی و پارتیشن‌بندی (Parallelism and Partitions) Parallelism and Partitions

  • شافلینگ (Shuffling) Shuffling

  • کشینگ (Caching) و سطوح ذخیره‌سازی Caching and Storage Levels

یادگیری ماشین با دیتابریکس و آپاچی اسپارک Machine Learning with Databricks and Apache Spark

  • وارد کردن و تحلیل اکتشافی داده‌ها Import and exploratory analysis of data

  • پیش‌پردازش متغیرها با پای‌اسپارک و دیتابریکس Variable preprocessing with PySpark and Databricks

  • تعریف مدل یادگیری ماشین و توسعه پایپ‌لاین Definition of the Machine Learning model and development of the Pipeline

  • ارزیابی مدل با پای‌اسپارک و دیتابریکس Model evaluation with PySpark and Databricks

  • تنظیم ابرپارامترها و ثبت در MLFlow Hyperparameter tuning and registration in MLFlow

  • پیش‌بینی با داده‌های جدید و مصورسازی نتایج Predictions with new data and visualization of the results

اسپارک DataFrame API Spark DataFrame API

  • اسپارک SQL و SQL Dataframe API Spark SQL and SQL Dataframe API

  • Temporary Views در مقابل Global Temporary Views Temporary Views vs Global Temporary Views

  • اسپارک دیتافریم‌ها Spark Dataframes

  • آزمایشگاه اسپارک SQL و SQL Dataframe API Spark SQL and SQL Dataframe API Lab

اسپارک Column Expresions Spark Column Expresions

  • مقدمه ای بر Spark Column Expresions Introduction to Spark Column Expresions

  • Column Expressions، اپراتورها و متدها Column Expressions, operators and methods

  • متدهای تبدیل DataFrame DataFrame Transformation Methods

  • زیرمجموعه ردیف‌ها در DataFrame Subset Rows in Dataframe

Dataframe Agregations Dataframe Agregations

  • متدهای تجمیع اسپارک Spark Aggregation Methods

  • متدهای داده گروه بندی شده Grouped data methods

  • توابع تجمیع و توابع ریاضی Aggregate Functions and Math Functions

  • بررسی توابع و توابع داخلی Functions and built-in functions review

  • توابع NaN دیتافریم و join دیتافریم Dataframe NaN functions and dataframe join

گواهینامه دیتابریکس (Databricks Certification) Databricks Certification

  • چرا گواهینامه آپاچی اسپارک؟ Why Apache Spark Certification?

  • موضوعات گواهینامه Certification topics

  • اطلاعات کلی گواهینامه Certification General information

  • فرآیند آماده‌سازی Preparation process

  • نکاتی برای قبولی در امتحان در اولین تلاش Tips for passing exam in the first attempt

  • فرآیند ثبت نام و گواهینامه Registration and Certification process

  • انواع سوالات گواهینامه Certification questions types

  • نحوه دریافت گواهینامه رایگان دیتابریکس How to obtain Databricks certification for free

نمایش نظرات

آموزش دیتابریکس و PySpark برای داده‌های بزرگ: از مبتدی تا متخصص
جزییات دوره
5.5 hours
94
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
1,000
4.2 از 5
دارد
دارد
دارد
Data Bootcamp
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Data Bootcamp Data Bootcamp

دانشمند داده