آموزش تسلط بر دستکاری و آماده سازی داده ها با پای‌اسپارک (PySpark) در دیتابریکس (Databricks) - آخرین آپدیت

دانلود Mastering Data Wrangling with PySpark in Databricks

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:

آموزش جامع پردازش داده و یادگیری ماشین با PySpark در Databricks

از مبتدی تا حرفه‌ای: مهارت‌های کلیدی پردازش داده و یادگیری ماشین را با PySpark در Databricks بیاموزید.

آنچه در این دوره خواهید آموخت:

  • درک مفاهیم اساسی PySpark و Databricks و اهمیت آنها در دنیای تحلیل داده‌های بزرگ.
  • نحوه راه‌اندازی و پیکربندی محیط Databricks خود، از جمله ایجاد حساب کاربری و مدیریت خوشه‌ها.
  • کاوش در ساختارهای داده PySpark، DataFrames و Datasets، و یادگیری نحوه ایجاد و کار با داده‌های ساخت‌یافته.
  • تسلط بر تکنیک‌های ضروری دستکاری داده‌ها در PySpark، از جمله انتخاب، فیلتر کردن، تبدیل، جمع‌آوری و مدیریت داده‌های گمشده.
  • کشف نحوه استفاده از PySpark SQL برای پرس و جوهای ساخت‌یافته، مقایسه آن با عملیات DataFrame و درک زمان استفاده از هر کدام.
  • یادگیری اصول اولیه فرآیندهای ETL (استخراج، تبدیل، بارگذاری) با PySpark، از جمله خواندن و نوشتن داده‌ها، پاکسازی داده‌ها و پارتیشن‌بندی.
  • به دست آوردن یک مرور کلی از کتابخانه MLlib PySpark و انواع مختلف وظایف یادگیری ماشین.
  • غواصی در مهندسی ویژگی، انتخاب مدل، ارزیابی و تنظیم هایپرپارامتر برای ساخت مدل‌های یادگیری ماشین قوی با استفاده از PySpark.
  • کشف تکنیک‌های بهینه‌سازی عملکرد در PySpark، از جمله حافظه پنهان داده‌ها، متغیرهای broadcast و بهینه‌سازی پرس و جو.
  • کاوش در استراتژی‌ها برای مقیاس‌بندی حجم‌های کاری PySpark، از جمله بهترین شیوه‌ها برای مدیریت مجموعه‌داده‌های بزرگ.

پیش‌نیازها:

دانشجویان باید دانش اولیه‌ای از پایتون، مانند اشیاء داده، حلقه‌ها و توابع داشته باشند.

دنیای تحلیل داده‌های بزرگ را با دوره جامع ما، "تسلط بر پردازش داده‌ها با PySpark در Databricks" کاوش کنید.

در این دوره، ما شما را به مهارت‌ها و دانش عملی مورد نیاز برای پیمایش در پیچیدگی‌های PySpark و Databricks، دو ابزار پیشرو در صنعت برای پردازش کارآمد داده‌ها، تجزیه و تحلیل و استخراج بینش‌های ارزشمند از مجموعه‌داده‌های بزرگ، مجهز می‌کنیم.

با تکامل فناوری، دسترسی به داده‌های بزرگ هر روز آسان‌تر می‌شود، و متخصصانی که مهارت پردازش و استخراج بینش از آن مجموعه‌داده‌های بزرگ را دارند، مورد نیاز شرکت‌های بزرگ فناوری هستند. یادگیری نحوه استفاده از Databricks به شما کمک می‌کند تا آن متخصص مورد نظر باشید!

مهارت‌های عملی در PySpark و Databricks را به دست آورید تا به طور کارآمد داده‌های عظیم را پردازش، تجزیه و تحلیل کرده و بینش‌های ارزشمندی از آن‌ها استخراج کنید. پردازش داده، تبدیل، بهینه‌سازی پرس و جو و تکنیک‌های یادگیری ماشین را از پایه کشف کنید.

در عصر تصمیم‌گیری مبتنی بر داده، درک PySpark در Databricks نه تنها یک مزیت، بلکه یک ضرورت است. با ثبت نام در این دوره، آماده خواهید بود تا قابلیت‌های تجزیه و تحلیل داده خود را به سطح بعدی برسانید و شما را به یک متخصص مورد تقاضا در دنیای داده محور تبدیل کند.

به ما بپیوندید و اولین قدم را در جهت بهینه‌سازی مهارت‌های پردازش داده خود بردارید.

در پایان این دوره، شما آماده خواهید بود PySpark را به رزومه خود اضافه کنید!

همین امروز ثبت‌نام کنید تا قابلیت‌های تجزیه و تحلیل داده خود را افزایش داده و شغل خود را در دنیای داده‌محور ارتقا دهید!


سرفصل ها و درس ها

مقدمه Introduction

  • مروری بر دوره Course Overview

  • نوت‌بوک‌ها Notebooks

شروع کار با PySpark و Databricks Getting Started with PySpark and Databricks

  • مقدمه‌ای بر PySpark و Databricks Introduction to PySpark and Databricks

  • راه‌اندازی محیط Databricks Setting up Your Databricks Environment

  • درون Databricks Inside Databricks

  • تبدیل‌ها در مقابل اقدامات Transformations vs Actions

مبانی PySpark Basics of PySpark

  • ساختارهای داده PySpark PySpark Data Structures

  • ساختارهای داده Pyspark Pyspark Data Structures

  • اسکیما و انواع داده Schema and data types

  • ایجاد DataFrames Creating DataFrames

  • ایجاد DataFrames - قسمت 2 Creating DataFrames - Part 2

  • وارد کردن توابع PySpark در Databricks Importing PySpark Functions in Databricks

  • چه چیزی را به یک جلسه PySpark وارد کنیم What to import to a PySpark Session

  • بارگیری و نمایش داده در Databricks Loading and Displaying Data in Databricks

  • استنتاج اسکیما Infer Schema

  • نحوه بارگذاری داده در Databricks How to Load data to Databricks

داده‌کاوی با PySpark Data Wrangling With PySpark

  • دستکاری داده با PySpark Data Manipulation with PySpark

  • انتخاب، اضافه کردن و حذف ستون‌ها Selecting, Adding and Removing Columns

  • تغییر نام ستون‌ها Renaming Columns

  • شمارش، شمارش متمایز، مرتب‌سازی، ریخته‌گری Count, Count Distinct, Sort, Cast

  • فیلتر کردن داده Filtering Data

  • فیلتر کردن شامل و مانند Filtering Contains and Like

  • بین و isin Between and isin

  • مقادیر پر کردن و جایگزینی، مدیریت داده‌های گمشده Fill and Replace Values, Handling Missing Data

  • مدیریت داده‌های گمشده 2 Handling Missing Data 2

  • بررسی محتوا Content Check

  • Case When Case When

  • تجمیع داده Aggregating Data

  • جدول Pivot Pivot Table

  • پرداختن به تاریخ و زمان Dealing with Date and Time

  • Window Window

  • بررسی محتوا Content Check

  • پیوستن به مجموعه داده‌ها Joining Datasets

  • درصدک Percentile

  • میانه (به‌روزرسانی) Median (Update)

  • سایر توابع مفید Other Useful Functions

  • سایر توابع مفید قسمت 2 Other Useful Functions Part 2

  • ذخیره‌سازی داده Data Caching

  • ذخیره داده در CSV Saving Data to CSV

  • ذخیره داده در سیستم فایل Databricks Saving Data to Databricks File System

  • تمرین‌ها Exercises

  • راه‌حل‌های تمرین‌ها Exercises Solutions

بهینه‌سازی پرس‌وجو Query Optimization

  • بهینه‌سازی پرس‌وجو Query Optimization

  • Cache و Persist Cache and Persist

  • بهترین شیوه‌ها برای مدیریت مجموعه‌های داده بزرگ Best practices for handling large datasets

Databricks SQL Databricks SQL

  • DataFrame API در مقابل SQL API DataFrame API vs. SQL API

  • کار با SQL Working with SQL

  • پرس‌وجوهای SQL پایه Basic SQL Queries

یادگیری ماشین با PySpark Machine Learning with PySpark

  • مقدمه‌ای بر یادگیری ماشین با Pyspark Introduction to Machine Learning with Pyspark

  • رگرسیون MLlib: قیمت الماس MLlib Regression: Diamonds Prices

  • رگرسیون MLlib: قیمت الماس (2) MLlib Regression: Diamonds Prices (2)

  • رگرسیون MLlib: قیمت الماس (3) MLlib Regression: Diamonds Prices (3)

  • مورد ML 2 - رگرسیون لجستیک ML Case 2 - Logistic Regression

  • مهندسی ویژگی Feature engineering

  • آماده‌سازی داده برای مدل‌سازی Preparing Data for Modeling

  • آموزش و ارزیابی مدل‌های یادگیری ماشین Training and Evaluating Machine Learning Models

  • تنظیم مدل Model Tunning

نتیجه‌گیری Conclusion

  • نتیجه‌گیری دوره Course Conclusion

  • گاف‌ها Bloppers

  • مطالب جایزه Bonus Materials

  • مقدمه‌ای بر Polars Introduction to Polars

نمایش نظرات

آموزش تسلط بر دستکاری و آماده سازی داده ها با پای‌اسپارک (PySpark) در دیتابریکس (Databricks)
جزییات دوره
6.5 hours
56
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
422
4.5 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Gustavo R Santos Gustavo R Santos

دانشمند داده