آموزش Apache Spark 3 برای مهندسی داده و تجزیه و تحلیل با پایتون

Apache Spark 3 for Data Engineering & Analytics with Python

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: آموزش نحوه استفاده از Python و PySpark 3.0.1 برای مهندسی داده/تجزیه و تحلیل (Databricks) - از مبتدی تا نینجا معماری Spark را بیاموزید مفاهیم اجرای Spark را بیاموزید تغییر و اقدامات Spark را با استفاده از API ساختاریافته آموزش تبدیل Spark و اقدامات با استفاده از RDD (Resilient Distributed) را بیاموزید. Datasets) API یاد بگیرید چگونه محیط PySpark محلی خود را راه اندازی کنید یاد بگیرید چگونه Spark Web UI را تفسیر کنید آموزش نحوه تفسیر DAG (گراف غیر چرخه مستقیم) برای Spark Execution یاد بگیرید RDD (Resilient Distributed Datasets) API (دوره Crash) Spark را بیاموزید DataFrame API  (Structured APIs) Learn Spark SQL Learn Spark on Databricks آموزش تجسم (نمودارها و داشبوردها) داده ها در Databricks پیش نیازها: یک رایانه لپ تاپ پایه با سیستم عامل ویندوز یا Mac OS با حداقل 6 تا 8 گیگابایت رم دانش برنامه نویسی اولیه

اهداف کلیدی این دوره به شرح زیر است؛

  • معماری Spark را بیاموزید

  • مفاهیم اجرای Spark را بیاموزید

  • تغییرها و اقدامات Spark را با استفاده از API ساختاریافته بیاموزید

  • تغییرها و اقدامات Spark را با استفاده از API RDD (Resilient Distributed Datasets) بیاموزید

  • با نحوه تنظیم محیط PySpark محلی خود آشنا شوید

  • با نحوه تفسیر Spark Web UI

    آشنا شوید
  • با نحوه تفسیر DAG (گراف غیر چرخه ای جهت دار) برای Spark Execution آشنا شوید

  • آموزش API RDD (Resilient Distributed Datasets) (Crash Course)

    • تحولات RDD

    • عملکردهای RDD

  • API Spark DataFrame (APIهای ساختاریافته) را بیاموزید

    • ایجاد طرحواره و اختصاص انواع داده

    • خواندن و نوشتن داده ها با استفاده از DataFrame Reader and Writer

    • داده های نیمه ساختار یافته مانند JSON را بخوانید

    • با استفاده از عبارات، ستون های داده جدید را در DataFrame ایجاد کنید

    • DataFrame را با استفاده از تبدیل‌های "Filter" و "Where" فیلتر کنید

    • مطمئن شوید که DataFrame دارای ردیف‌های منحصربه‌فرد است

    • تشخیص و رها کردن موارد تکراری

    • با افزودن ردیف‌های جدید، DataFrame را افزایش دهید

    • ۲ یا بیشتر DataFrame را ترکیب کنید

    • DataFrame را بر اساس ستون‌های خاص سفارش دهید

    • تغییر نام و رها کردن ستون ها از DataFrame

    • DataFrame را با شناسایی و حذف داده های گمشده یا بد پاک کنید

    • توابع Spark تعریف شده توسط کاربر را ایجاد کنید

    • خواندن و نوشتن در/از فایل پارکت

    • DataFrame را پارتیشن بندی کنید و در فایل پارکت بنویسید

    • با استفاده از توابع Spark SQL (count، countDistinct، حداکثر، حداقل، جمع، SumDistinct، AVG) DataFrame را جمع آوری کنید

    • اجرای تجمع با گروه بندی

  • Spark SQL و Databricks را بیاموزید

    • یک حساب Databricks ایجاد کنید

    • یک خوشه Databricks ایجاد کنید

    • ایجاد Databricks SQL و Python Notebook

    • میانبرهای Databricks را بیاموزید

    • با استفاده از Spark SQL پایگاه داده و جداول ایجاد کنید

    • از DML، DQL و DDL با Spark SQL استفاده کنید

    • از توابع Spark SQL

      استفاده کنید
    • تفاوت‌های جداول مدیریت‌شده و غیرمدیریت‌شده را بیاموزید

    • فایل‌های CSV را از سیستم فایل Databricks بخوانید

    • نوشتن SQL پیچیده را بیاموزید

    • از توابع Spark SQL

      استفاده کنید
    • تجسم‌ها را با Databricks ایجاد کنید

    • یک داشبورد Databricks ایجاد کنید


پروژه Python Spark که قرار است با هم انجام دهیم؛

داده های فروش

  • یک جلسه Spark ایجاد کنید

  • یک فایل CSV را در Spark Dataframe بخوانید

  • یاد بگیرید که یک طرحواره را استنتاج کنید

  • داده‌ها را از Spark Dataframe انتخاب کنید

  • تحلیلی تولید کنید که بالاترین سفارشات فروش را در هر منطقه و کشور نشان دهد


فارنهایت را به درجه سانتیگراد تبدیل کنید

  • یک جلسه Spark ایجاد کنید

  • خواندن و موازی کردن داده ها با استفاده از Spark Context در یک RDD

  • یک تابع برای تبدیل فارنهایت به درجه سانتیگراد ایجاد کنید

  • از تابع نقشه برای تبدیل داده های موجود در یک RDD استفاده کنید

  • دماهای فیلتر بیشتر یا مساوی 13 درجه سانتیگراد


تحقیقات XYZ

  • مجموعه‌ای از RDD که داده‌های تحقیقاتی را در خود نگه می‌دارد ایجاد کنید

  • از تبدیل اتحادیه برای ترکیب RDD ها استفاده کنید

  • یاد بگیرید که از تبدیل تفریق به مقادیر منهای یک RDD استفاده کنید

  • از RDD API برای پاسخ به سوالات زیر استفاده کنید

    • چند پروژه تحقیقاتی در سه سال اول آغاز شد؟

    • چند پروژه در سال اول تکمیل شد؟

    • چند پروژه در دو سال اول تکمیل شد؟


تجزیه و تحلیل فروش

  • Sales Analytics DataFrame را در مجموعه‌ای از فایل‌های CSV ایجاد کنید

  • DataFrame را با اعمال یک ساختار آماده کنید

  • سوابق بد را از DataFrame (تمیز کردن) حذف کنید

  • ستون های جدید را از DataFrame ایجاد کنید

  • یک DataFrame پارتیشن بندی شده در فهرست پارکت بنویسید

  • به سوالات زیر پاسخ دهید و با استفاده از Seaborn و Matplotlib تجسمی ایجاد کنید

    • بهترین ماه در فروش چه بود؟

    • کدام شهر بیشترین محصولات را فروخته است؟

    • در چه زمانی کسب و کار باید تبلیغات را نمایش دهد تا احتمال خرید محصولات توسط مشتریان به حداکثر برسد؟

    • چه محصولاتی اغلب با هم در ایالت "NY" فروخته می شوند؟

مشخصات فناوری

  1. پایتون

  2. نوت بوک ژوپیتر

  3. آزمایشگاه ژوپیتر

  4. PySpark (Spark with Python)

  5. پاندا

  6. Matplotlib

  7. دریا

  8. داده‌ها

  9. SQL


سرفصل ها و درس ها

مقدمه ای بر Spark و نصب Introduction to Spark and Installation

  • معرفی Introduction

  • معماری جرقه The Spark Architecture

  • Spark Unified Stack The Spark Unified Stack

  • ویندوز - دانلود جاوا Windows - Download Java

  • ویندوز - جاوا را نصب کنید Windows - Install Java

  • ویندوز - متغیرهای محیط جاوا را تنظیم کنید Windows - Set up Java environment variables

  • ویندوز - نصب کننده پایتون را دانلود کنید Windows - Download Python Installer

  • ویندوز - پایتون را نصب کنید Windows - Install Python

  • ویندوز - متغیر PATH را برای پایتون تنظیم کنید Windows - Set up PATH variable for Python

  • ویندوز - Spark را برای پایتون نصب کنید Windows - Install Spark for Python

  • ویندوز - برنامه تست PySpark Windows - PySpark Test Program

  • نصب Hadoop Hadoop Installation

  • Microsoft Buid Tools را نصب کنید Install Microsoft Buid Tools

  • سیستم عامل مک - نصب جاوا Mac OS - Java Installation

  • سیستم عامل مک - نصب پایتون Mac OS - Python Installation

  • سیستم عامل مک - نصب PySpark Mac OS - PySpark Installation

  • سیستم عامل مک - آزمایش نصب Spark Mac OS - Testing the Spark Installation

  • نوت بوک های Jupyter را نصب کنید Install Jupyter Notebooks

  • رابط کاربری Spark Web The Spark Web UI

  • خلاصه بخش Section Summary

مفاهیم اجرای جرقه Spark Execution Concepts

  • بخش مقدمه Section Introduction

  • برنامه و جلسه Spark Spark Application and Session

  • تبدیل جرقه و اقدامات قسمت 1 Spark Transformations and Actions Part 1

  • دگرگونی ها و اقدامات جرقه قسمت 2 Spark Transformations and Actions Part 2

  • تجسم DAG DAG Visualisation

دوره تصادف RDD RDD Crash Course

  • مقدمه ای بر RDD ها Introduction to RDDs

  • آماده سازی داده ها Data Preparation

  • تفکیک و تبدیل فیلتر Distince and Filter Transformations

  • تبدیل نقشه و نقشه مسطح Map and Flat Map Transformations

  • تبدیل SortByKey SortByKey Transformations

  • اقدامات RDD RDD Actions

  • چالش - تبدیل فارنهایت به درجه سانتیگراد Challenge - Convert Fahrenheit to Centigrade

  • چالش - تحقیقات XYZ Challenge - XYZ Research

  • تحقیقات XYZ XYZ Research

  • چالش - بخش 1 تحقیق XYZ Challenge - XYZ Research Part 1

  • Challenge XYZ Research Part 2 Challenge XYZ Research Part 2

Structured API - Spark DataFrame Structured API - Spark DataFrame

  • Structured APIs معرفی Structured APIs Introduction

  • آماده سازی پوشه پروژه Preparing the Project Folder

  • PySpark DataFrame، Schema و DataTypes PySpark DataFrame, Schema and DataTypes

  • DataFrame Reader و Writer DataFrame Reader and Writer

  • چالش قسمت 1 - مختصر Challenge Part 1 - Brief

  • چالش قسمت 1 Challenge Part 1

  • چالش قسمت 1 - آماده سازی داده ها Challenge Part 1 - Data Preparation

  • کار با عملیات ساختاریافته Working with Structured Operations

  • مدیریت خطاهای عملکرد Managing Performance Errors

  • خواندن یک فایل JSON Reading a JSON File

  • ستون ها و عبارات Columns and Expressions

  • شرایط فیلتر و مکان Filter and Where Conditions

  • قطره متمایز تکراری ترتیب بر اساس Distinct Drop Duplicates Order By

  • ردیف و اتحاد Rows and Union

  • اضافه کردن، تغییر نام و حذف ستون ها Adding, Renaming and Dropping Columns

  • کار با داده های گم شده یا بد Working with Missing or Bad Data

  • کار با توابع تعریف شده توسط کاربر Working with User Defined Functions

  • چالش قسمت 2 - مختصر Challenge Part 2 - Brief

  • چالش قسمت 2 Challenge Part 2

  • چالش قسمت 2 - حذف ردیف پوچ و رکوردهای بد Challenge Part 2 - Remove Null Row and Bad Records

  • چالش قسمت 2 - شهر و ایالت را بدست آورید Challenge Part 2 - Get the City and State

  • چالش قسمت 2 - طرحواره را دوباره مرتب کنید Challenge Part 2 - Rearrange the Schema

  • چالش قسمت 2 - DataFrame پارتیشن بندی شده را در پارکت بنویسید Challenge Part 2 - Write Partitioned DataFrame to Parquet

  • تجمعات Aggregations

  • تجمعات - تنظیم داده های خلاصه پرواز Aggregations - Setting up Flight Summary Data

  • تجمعات - تعداد و شمارش متمایز Aggregations - Count and Count Distinct

  • تجمعات - حداقل حداکثر مجموع SumDistinct AVG Aggregations - Min Max Sum SumDistinct AVG

  • تجمیع با گروه بندی Aggregations with Grouping

  • چالش قسمت 3 - مختصر Challenge Part 3 - Brief

  • چالش قسمت 3 Challenge Part 3

  • چالش قسمت 3 - داده های 2019 را آماده کنید Challenge Part 3 - Prepare 2019 Data

  • چالش قسمت 3 - Q1 بهترین ماه فروش را دریافت کنید Challenge Part 3 - Q1 Get the Best Sales Month

  • چالش قسمت 3 - Q2 شهری را دریافت کنید که بیشترین محصولات را فروخته است Challenge Part 3 - Q2 Get the City that sold the most products

  • چالش قسمت 3 - Q3 چه زمانی باید تبلیغ کرد Challenge Part 3 - Q3 When to advertise

  • چالش قسمت 3 - محصولات Q4 با هم خریداری شده اند Challenge Part 3 - Q4 Products Bought Together

مقدمه ای بر Spark SQL و Databricks Introduction to Spark SQL and Databricks

  • مقدمه ای بر DataBricks Introduction to DataBricks

  • معرفی Spark SQL Spark SQL Introduction

  • ثبت حساب در Databricks Register Account on Databricks

  • یک خوشه Databricks ایجاد کنید Create a Databricks Cluster

  • ایجاد 2 اولین نوت بوک Databricks ما Creating our First 2 Databricks Notebooks

  • خواندن فایل‌های CSV در DataFrame Reading CSV Files into DataFrame

  • ایجاد پایگاه داده و جدول Creating a Database and Table

  • درج رکوردها در جدول Inserting Records into a Table

  • افشای سوابق بد Exposing Bad Records

  • فهمیدن نحوه حذف سوابق بد Figuring out how to remove bad records

  • شهر و ایالت را استخراج کنید Extract the City and State

  • درج رکوردها در جدول فروش نهایی Inserting Records to Final Sales Table

  • بهترین ماه در فروش چه ماه بود؟ What was the best month in sales?

  • شهری را دریافت کنید که بیشترین محصولات را فروخته است Get the City that sold the most products

  • زمان مناسب را برای تبلیغات در نظر بگیرید Get the right time to advertise

  • بیشترین محصولات فروخته شده را با هم دریافت کنید Get the most products sold together

  • داشبورد ایجاد کنید Create a Dashboard

  • خلاصه Summary

نمایش نظرات

آموزش Apache Spark 3 برای مهندسی داده و تجزیه و تحلیل با پایتون
جزییات دوره
8.5 hours
89
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
6,476
4.3 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Thulani Mngadi Thulani Mngadi

مهندس / مشاور ارشد داده بزرگ در ABN AMROI من یک متخصص مدیریت داده هستم که تحت تأثیر قدرت و نفوذ داده ها در زندگی ما قرار دارد. با قدرت داده ها ، من توانستم به شرکت ها کمک کنم تا برای دستیابی به مزیت رقابتی یا تأمین نیازهای نظارتی ، داده محورتر شوند. در 15 سال گذشته ، من از طراحی و اجرای راه حل های ذخیره سازی داده در صنایع خرده فروشی ، Telco و Banking و اخیراً در پیاده سازی های خاص بیشتر دریاچه داده بزرگ لذت بردم. من لذت بردن از هدایت و همچنین هدایت تیم ها برای اجرای استراتژی های فوق را داشتم و در اوقات فراغت خود ، به عنوان علاقه مند به فن آوری ، برنامه نویسی را بصورت آنلاین به عنوان یوتیوب آموزش می دهم.