لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش Apache Spark 3 برای مهندسی داده و تجزیه و تحلیل با پایتون
Apache Spark 3 for Data Engineering & Analytics with Python
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
آموزش نحوه استفاده از Python و PySpark 3.0.1 برای مهندسی داده/تجزیه و تحلیل (Databricks) - از مبتدی تا نینجا معماری Spark را بیاموزید مفاهیم اجرای Spark را بیاموزید تغییر و اقدامات Spark را با استفاده از API ساختاریافته آموزش تبدیل Spark و اقدامات با استفاده از RDD (Resilient Distributed) را بیاموزید. Datasets) API یاد بگیرید چگونه محیط PySpark محلی خود را راه اندازی کنید یاد بگیرید چگونه Spark Web UI را تفسیر کنید آموزش نحوه تفسیر DAG (گراف غیر چرخه مستقیم) برای Spark Execution یاد بگیرید RDD (Resilient Distributed Datasets) API (دوره Crash) Spark را بیاموزید DataFrame API (Structured APIs) Learn Spark SQL Learn Spark on Databricks آموزش تجسم (نمودارها و داشبوردها) داده ها در Databricks پیش نیازها: یک رایانه لپ تاپ پایه با سیستم عامل ویندوز یا Mac OS با حداقل 6 تا 8 گیگابایت رم دانش برنامه نویسی اولیه
اهداف کلیدی این دوره به شرح زیر است؛
معماری Spark را بیاموزید
مفاهیم اجرای Spark را بیاموزید
تغییرها و اقدامات Spark را با استفاده از API ساختاریافته بیاموزید
تغییرها و اقدامات Spark را با استفاده از API RDD (Resilient Distributed Datasets) بیاموزید
با نحوه تنظیم محیط PySpark محلی خود آشنا شوید
با نحوه تفسیر Spark Web UI
آشنا شوید
با نحوه تفسیر DAG (گراف غیر چرخه ای جهت دار) برای Spark Execution آشنا شوید
آموزش API RDD (Resilient Distributed Datasets) (Crash Course)
تحولات RDD
عملکردهای RDD
API Spark DataFrame (APIهای ساختاریافته) را بیاموزید
ایجاد طرحواره و اختصاص انواع داده
خواندن و نوشتن داده ها با استفاده از DataFrame Reader and Writer
داده های نیمه ساختار یافته مانند JSON را بخوانید
با استفاده از عبارات، ستون های داده جدید را در DataFrame ایجاد کنید
DataFrame را با استفاده از تبدیلهای "Filter" و "Where" فیلتر کنید
مطمئن شوید که DataFrame دارای ردیفهای منحصربهفرد است
تشخیص و رها کردن موارد تکراری
با افزودن ردیفهای جدید، DataFrame را افزایش دهید
۲ یا بیشتر DataFrame را ترکیب کنید
DataFrame را بر اساس ستونهای خاص سفارش دهید
تغییر نام و رها کردن ستون ها از DataFrame
DataFrame را با شناسایی و حذف داده های گمشده یا بد پاک کنید
توابع Spark تعریف شده توسط کاربر را ایجاد کنید
خواندن و نوشتن در/از فایل پارکت
DataFrame را پارتیشن بندی کنید و در فایل پارکت بنویسید
با استفاده از توابع Spark SQL (count، countDistinct، حداکثر، حداقل، جمع، SumDistinct، AVG) DataFrame را جمع آوری کنید
اجرای تجمع با گروه بندی
Spark SQL و Databricks را بیاموزید
یک حساب Databricks ایجاد کنید
یک خوشه Databricks ایجاد کنید
ایجاد Databricks SQL و Python Notebook
میانبرهای Databricks را بیاموزید
با استفاده از Spark SQL پایگاه داده و جداول ایجاد کنید
از DML، DQL و DDL با Spark SQL استفاده کنید
از توابع Spark SQL
استفاده کنید
تفاوتهای جداول مدیریتشده و غیرمدیریتشده را بیاموزید
فایلهای CSV را از سیستم فایل Databricks بخوانید
نوشتن SQL پیچیده را بیاموزید
از توابع Spark SQL
استفاده کنید
تجسمها را با Databricks ایجاد کنید
یک داشبورد Databricks ایجاد کنید
پروژه Python Spark که قرار است با هم انجام دهیم؛
داده های فروش
یک جلسه Spark ایجاد کنید
یک فایل CSV را در Spark Dataframe بخوانید
یاد بگیرید که یک طرحواره را استنتاج کنید
دادهها را از Spark Dataframe انتخاب کنید
تحلیلی تولید کنید که بالاترین سفارشات فروش را در هر منطقه و کشور نشان دهد
فارنهایت را به درجه سانتیگراد تبدیل کنید
یک جلسه Spark ایجاد کنید
خواندن و موازی کردن داده ها با استفاده از Spark Context در یک RDD
یک تابع برای تبدیل فارنهایت به درجه سانتیگراد ایجاد کنید
از تابع نقشه برای تبدیل داده های موجود در یک RDD استفاده کنید
دماهای فیلتر بیشتر یا مساوی 13 درجه سانتیگراد
تحقیقات XYZ
مجموعهای از RDD که دادههای تحقیقاتی را در خود نگه میدارد ایجاد کنید
از تبدیل اتحادیه برای ترکیب RDD ها استفاده کنید
یاد بگیرید که از تبدیل تفریق به مقادیر منهای یک RDD استفاده کنید
از RDD API برای پاسخ به سوالات زیر استفاده کنید
چند پروژه تحقیقاتی در سه سال اول آغاز شد؟
چند پروژه در سال اول تکمیل شد؟
چند پروژه در دو سال اول تکمیل شد؟
تجزیه و تحلیل فروش
Sales Analytics DataFrame را در مجموعهای از فایلهای CSV ایجاد کنید
DataFrame را با اعمال یک ساختار آماده کنید
سوابق بد را از DataFrame (تمیز کردن) حذف کنید
ستون های جدید را از DataFrame ایجاد کنید
یک DataFrame پارتیشن بندی شده در فهرست پارکت بنویسید
به سوالات زیر پاسخ دهید و با استفاده از Seaborn و Matplotlib تجسمی ایجاد کنید
بهترین ماه در فروش چه بود؟
کدام شهر بیشترین محصولات را فروخته است؟
در چه زمانی کسب و کار باید تبلیغات را نمایش دهد تا احتمال خرید محصولات توسط مشتریان به حداکثر برسد؟
چه محصولاتی اغلب با هم در ایالت "NY" فروخته می شوند؟
مشخصات فناوری
پایتون
نوت بوک ژوپیتر
آزمایشگاه ژوپیتر
PySpark (Spark with Python)
پاندا
Matplotlib
دریا
دادهها
SQL
سرفصل ها و درس ها
مقدمه ای بر Spark و نصب
Introduction to Spark and Installation
معرفی
Introduction
معماری جرقه
The Spark Architecture
Spark Unified Stack
The Spark Unified Stack
ویندوز - دانلود جاوا
Windows - Download Java
ویندوز - جاوا را نصب کنید
Windows - Install Java
ویندوز - متغیرهای محیط جاوا را تنظیم کنید
Windows - Set up Java environment variables
ویندوز - نصب کننده پایتون را دانلود کنید
Windows - Download Python Installer
ویندوز - پایتون را نصب کنید
Windows - Install Python
ویندوز - متغیر PATH را برای پایتون تنظیم کنید
Windows - Set up PATH variable for Python
ویندوز - Spark را برای پایتون نصب کنید
Windows - Install Spark for Python
ویندوز - برنامه تست PySpark
Windows - PySpark Test Program
نصب Hadoop
Hadoop Installation
Microsoft Buid Tools را نصب کنید
Install Microsoft Buid Tools
سیستم عامل مک - نصب جاوا
Mac OS - Java Installation
سیستم عامل مک - نصب پایتون
Mac OS - Python Installation
سیستم عامل مک - نصب PySpark
Mac OS - PySpark Installation
سیستم عامل مک - آزمایش نصب Spark
Mac OS - Testing the Spark Installation
نوت بوک های Jupyter را نصب کنید
Install Jupyter Notebooks
رابط کاربری Spark Web
The Spark Web UI
خلاصه بخش
Section Summary
مفاهیم اجرای جرقه
Spark Execution Concepts
بخش مقدمه
Section Introduction
برنامه و جلسه Spark
Spark Application and Session
تبدیل جرقه و اقدامات قسمت 1
Spark Transformations and Actions Part 1
دگرگونی ها و اقدامات جرقه قسمت 2
Spark Transformations and Actions Part 2
تجسم DAG
DAG Visualisation
دوره تصادف RDD
RDD Crash Course
مقدمه ای بر RDD ها
Introduction to RDDs
آماده سازی داده ها
Data Preparation
تفکیک و تبدیل فیلتر
Distince and Filter Transformations
تبدیل نقشه و نقشه مسطح
Map and Flat Map Transformations
تبدیل SortByKey
SortByKey Transformations
اقدامات RDD
RDD Actions
چالش - تبدیل فارنهایت به درجه سانتیگراد
Challenge - Convert Fahrenheit to Centigrade
چالش - تحقیقات XYZ
Challenge - XYZ Research
تحقیقات XYZ
XYZ Research
چالش - بخش 1 تحقیق XYZ
Challenge - XYZ Research Part 1
Challenge XYZ Research Part 2
Challenge XYZ Research Part 2
Structured API - Spark DataFrame
Structured API - Spark DataFrame
مهندس / مشاور ارشد داده بزرگ در ABN AMROI من یک متخصص مدیریت داده هستم که تحت تأثیر قدرت و نفوذ داده ها در زندگی ما قرار دارد. با قدرت داده ها ، من توانستم به شرکت ها کمک کنم تا برای دستیابی به مزیت رقابتی یا تأمین نیازهای نظارتی ، داده محورتر شوند.
در 15 سال گذشته ، من از طراحی و اجرای راه حل های ذخیره سازی داده در صنایع خرده فروشی ، Telco و Banking و اخیراً در پیاده سازی های خاص بیشتر دریاچه داده بزرگ لذت بردم.
من لذت بردن از هدایت و همچنین هدایت تیم ها برای اجرای استراتژی های فوق را داشتم و در اوقات فراغت خود ، به عنوان علاقه مند به فن آوری ، برنامه نویسی را بصورت آنلاین به عنوان یوتیوب آموزش می دهم.
نمایش نظرات