آموزش بهترین روش‌های عملی داده‌های بزرگ با PySpark و Spark Tuning

Best Hands-on Big Data Practices with PySpark & Spark Tuning

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: تجزیه و تحلیل داده های نیمه ساختاریافته (JSON)، ساختاریافته و بدون ساختار با تنظیم عملکرد اسپارک و پایتون و اسپارک درک چارچوب، اجرا و مدل برنامه نویسی آپاچی اسپارک برای توسعه سیستم های داده بزرگ یاد بگیرید چگونه با یک ماشین دسکتاپ و مبتنی بر ابر رایگان کار کنید. برای راه اندازی و پیکربندی Spark ساخت برنامه های ساده تا پیشرفته Big Data برای انواع مختلف داده ها (حجم، تنوع، صحت) از طریق مطالعات موردی واقعی، تمرینات PySpark را به صورت گام به گام روی داده های ساختاریافته، بدون ساختار و نیمه ساختار یافته با استفاده از RDD بیاموزید. , DataFrame و SQL بررسی و به کارگیری روش های بهینه سازی و تنظیم عملکرد برای مدیریت چولگی داده ها و جلوگیری از نشت. ) و کار داخلی Spark Build و یادگیری برنامه های Spark SQL با استفاده از JDBC پیش نیازها: Python و SQL بسیار ابتدایی اگر در برنامه نویسی Python تازه کار هستید، اصلا نگران نباشید، می توانید آن را آزادانه از طریق کانال یوتیوب من یاد بگیرید. در کانال یوتیوب من مشترک شوید و بدون هیچ زحمتی به یادگیری ادامه دهید

در این دوره، تمرین‌های عملی PySpark با استفاده از مطالعات موردی واقعی از دانشگاه و صنعت به دانش‌آموزان ارائه می‌شود تا بتوانند به صورت تعاملی با داده‌های عظیم کار کنند. علاوه بر این، دانش‌آموزان چالش‌های پردازش توزیع‌شده، مانند چولگی داده‌ها و نشت در پردازش داده‌های بزرگ را در نظر خواهند گرفت. ما این دوره را برای کسانی طراحی کردیم که به دنبال تسلط بر Spark و PySpark و گسترش دانش Big Data Analytics با استفاده از موارد استفاده واقعی و چالش برانگیز هستند.

ما با Spark RDD، DF و SQL کار خواهیم کرد تا حجم عظیمی از داده‌ها را در قالب داده‌های نیمه ساختاریافته، ساختاریافته و بدون ساختار پردازش کنیم. نتایج یادگیری و رویکرد تدریس در این دوره با شناسایی حیاتی ترین مهارت های مورد نیاز در صنعت و درک نیازهای محتوای تجزیه و تحلیل داده های بزرگ، یادگیری را تسریع می کند.

ما نه تنها جزئیات موتور Spark را برای پردازش داده در مقیاس بزرگ پوشش خواهیم داد، بلکه مشکلات کلان داده را نیز بررسی خواهیم کرد که به کاربران امکان می دهد فوراً از یک نمای کلی از داده های مقیاس بزرگ به یک نمای کلی تر و دقیق تر تغییر کنند. مشاهده با استفاده از RDD، DF و SQL در نمونه های واقعی. برای دستیابی به هدف این دوره، گام به گام مطالعات موردی Big Data را بررسی خواهیم کرد.

در پایان دوره، می‌توانید برنامه‌های Big Data را برای انواع مختلف داده (حجم، تنوع، صحت) بسازید و با بهترین نمونه‌های کلاسی از مشکلات Big Data با استفاده از PySpark آشنا خواهید شد.


سرفصل ها و درس ها

مقدمه دوره Introduction to Course

  • در کانال یوتیوب من به طور عملی پایتون را بیاموزید (رایگان) Learn Hands-on Python on my YouTube Channel (free)

  • ما دوست داریم بدانیم شما چه فکر می کنید! We Would Like to Know What You Think!

  • PySpark برای پردازش موازی PySpark for Parallel Processing

  • محیط کدگذاری جرقه Spark Coding Environment

  • بررسی کدگذاری PySpark با استفاده از RDD (part_1) PySpark Coding review using RDD (part_1)

  • بررسی کدگذاری PySpark با استفاده از RDD (بخش 2) PySpark Coding review using RDD (part_2)

  • بررسی کدگذاری PySpark با استفاده از DF (part_1) PySpark Coding review using DF (part_1)

  • بررسی کدگذاری PySpark با استفاده از DF (part_2) PySpark Coding review using DF (part_2)

مقدمه دوره Introduction to Course

PySpark برای یک فایل نیمه ساختار یافته (JSON) بزرگ PySpark for a large Semi-Structured (JSON) File

  • تجزیه و تحلیل JSON با استفاده از RDD JSON analysis using RDD

  • تجزیه و تحلیل JSON با استفاده از DF JSON analysis using DF

  • چالش اضافی: تجزیه و تحلیل فایل JSON Extra Challenge: JSON file Analysis

PySpark برای یک فایل نیمه ساختار یافته (JSON) بزرگ PySpark for a large Semi-Structured (JSON) File

PySpark برای یک فایل ساختاری بزرگ PySpark for a large Structured File

  • تجزیه و تحلیل داده های ساخت یافته با استفاده از RDD Structured Data Analysis using RDD

  • تجزیه و تحلیل داده های ساخت یافته با استفاده از DF Structured Data Analysis using DF

  • چالش اضافی: تجزیه و تحلیل داده های ساخت یافته Extra Challenge: Structured Data Analysis

PySpark برای یک فایل ساختاری بزرگ PySpark for a large Structured File

PySpark برای یک فایل بزرگ بدون ساختار (LOG). PySpark for a large Unstructured (LOG) File

  • RDD برای تجزیه و تحلیل فایل گزارش RDD for Log File Analysis

  • چالش اضافی: تجزیه و تحلیل فایل ورود به سیستم Extra Challenge: Log file Analysis

PySpark برای یک فایل بزرگ بدون ساختار (LOG). PySpark for a large Unstructured (LOG) File

چالش های پردازش توزیع شده و تنظیم عملکرد جرقه Distributed Processing Challenges and Spark Performance Tuning

  • بهینه سازی داده های کج در Spark (قسمت 1) Optimizing the Skewed Data in Spark (part_1)

  • بهینه سازی داده های کج در Spark (قسمت 2) Optimizing the Skewed Data in Spark (part_2)

  • بهینه سازی داده های کج شده در Spark (قسمت 3) Optimizing the Skewed Data in Spark (part_3)

  • بهینه سازی جرقه برای عملکرد بهتر (جلوگیری از نشت) Spark Optimization for Better Performance (Prevent Spill)

  • Spark Optimization با استفاده از Adaptive Query Execution_1 Spark Optimization using Adaptive Query Execution_1

  • Spark Optimization با استفاده از Adaptive Query Execution_2 Spark Optimization using Adaptive Query Execution_2

چالش های پردازش توزیع شده و تنظیم عملکرد جرقه Distributed Processing Challenges and Spark Performance Tuning

ملاحظات اضافی Additional Considerations

  • ارزیابی تنبل (تحول باریک در مقابل دگرگونی گسترده) Lazy Evaluations (Narrow vs Wide Transformation)

  • Spark چگونه به صورت داخلی یک برنامه (کار، مرحله، مجری و وظیفه) را اجرا می کند؟ How does Spark internally execute a program (job, stage, executor and task)?

  • Spark SQL با استفاده از JDBC (part_1) Spark SQL using JDBC (part_1)

  • Spark SQL با استفاده از JDBC (part_2) Spark SQL using JDBC (part_2)

ملاحظات اضافی Additional Considerations

نمایش نظرات

آموزش بهترین روش‌های عملی داده‌های بزرگ با PySpark و Spark Tuning
جزییات دوره
13 hours
23
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
3,305
4.6 از 5
دارد
دارد
دارد
Amin Karami
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Amin Karami Amin Karami

مشاور ارشد Big Data و رهبر دوره برای MSc Big Data