لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش بهترین روشهای عملی دادههای بزرگ با PySpark و Spark Tuning
Best Hands-on Big Data Practices with PySpark & Spark Tuning
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
تجزیه و تحلیل داده های نیمه ساختاریافته (JSON)، ساختاریافته و بدون ساختار با تنظیم عملکرد اسپارک و پایتون و اسپارک درک چارچوب، اجرا و مدل برنامه نویسی آپاچی اسپارک برای توسعه سیستم های داده بزرگ یاد بگیرید چگونه با یک ماشین دسکتاپ و مبتنی بر ابر رایگان کار کنید. برای راه اندازی و پیکربندی Spark ساخت برنامه های ساده تا پیشرفته Big Data برای انواع مختلف داده ها (حجم، تنوع، صحت) از طریق مطالعات موردی واقعی، تمرینات PySpark را به صورت گام به گام روی داده های ساختاریافته، بدون ساختار و نیمه ساختار یافته با استفاده از RDD بیاموزید. , DataFrame و SQL بررسی و به کارگیری روش های بهینه سازی و تنظیم عملکرد برای مدیریت چولگی داده ها و جلوگیری از نشت. ) و کار داخلی Spark Build و یادگیری برنامه های Spark SQL با استفاده از JDBC پیش نیازها: Python و SQL بسیار ابتدایی اگر در برنامه نویسی Python تازه کار هستید، اصلا نگران نباشید، می توانید آن را آزادانه از طریق کانال یوتیوب من یاد بگیرید. در کانال یوتیوب من مشترک شوید و بدون هیچ زحمتی به یادگیری ادامه دهید
در این دوره، تمرینهای عملی PySpark با استفاده از مطالعات موردی واقعی از دانشگاه و صنعت به دانشآموزان ارائه میشود تا بتوانند به صورت تعاملی با دادههای عظیم کار کنند. علاوه بر این، دانشآموزان چالشهای پردازش توزیعشده، مانند چولگی دادهها و نشت در پردازش دادههای بزرگ را در نظر خواهند گرفت. ما این دوره را برای کسانی طراحی کردیم که به دنبال تسلط بر Spark و PySpark و گسترش دانش Big Data Analytics با استفاده از موارد استفاده واقعی و چالش برانگیز هستند.
ما با Spark RDD، DF و SQL کار خواهیم کرد تا حجم عظیمی از دادهها را در قالب دادههای نیمه ساختاریافته، ساختاریافته و بدون ساختار پردازش کنیم. نتایج یادگیری و رویکرد تدریس در این دوره با شناسایی حیاتی ترین مهارت های مورد نیاز در صنعت و درک نیازهای محتوای تجزیه و تحلیل داده های بزرگ، یادگیری را تسریع می کند.
ما نه تنها جزئیات موتور Spark را برای پردازش داده در مقیاس بزرگ پوشش خواهیم داد، بلکه مشکلات کلان داده را نیز بررسی خواهیم کرد که به کاربران امکان می دهد فوراً از یک نمای کلی از داده های مقیاس بزرگ به یک نمای کلی تر و دقیق تر تغییر کنند. مشاهده با استفاده از RDD، DF و SQL در نمونه های واقعی. برای دستیابی به هدف این دوره، گام به گام مطالعات موردی Big Data را بررسی خواهیم کرد.
در پایان دوره، میتوانید برنامههای Big Data را برای انواع مختلف داده (حجم، تنوع، صحت) بسازید و با بهترین نمونههای کلاسی از مشکلات Big Data با استفاده از PySpark آشنا خواهید شد.
سرفصل ها و درس ها
مقدمه دوره
Introduction to Course
در کانال یوتیوب من به طور عملی پایتون را بیاموزید (رایگان)
Learn Hands-on Python on my YouTube Channel (free)
ما دوست داریم بدانیم شما چه فکر می کنید!
We Would Like to Know What You Think!
PySpark برای پردازش موازی
PySpark for Parallel Processing
محیط کدگذاری جرقه
Spark Coding Environment
بررسی کدگذاری PySpark با استفاده از RDD (part_1)
PySpark Coding review using RDD (part_1)
بررسی کدگذاری PySpark با استفاده از RDD (بخش 2)
PySpark Coding review using RDD (part_2)
بررسی کدگذاری PySpark با استفاده از DF (part_1)
PySpark Coding review using DF (part_1)
بررسی کدگذاری PySpark با استفاده از DF (part_2)
PySpark Coding review using DF (part_2)
مقدمه دوره
Introduction to Course
PySpark برای یک فایل نیمه ساختار یافته (JSON) بزرگ
PySpark for a large Semi-Structured (JSON) File
تجزیه و تحلیل JSON با استفاده از RDD
JSON analysis using RDD
تجزیه و تحلیل JSON با استفاده از DF
JSON analysis using DF
چالش اضافی: تجزیه و تحلیل فایل JSON
Extra Challenge: JSON file Analysis
PySpark برای یک فایل نیمه ساختار یافته (JSON) بزرگ
PySpark for a large Semi-Structured (JSON) File
PySpark برای یک فایل ساختاری بزرگ
PySpark for a large Structured File
تجزیه و تحلیل داده های ساخت یافته با استفاده از RDD
Structured Data Analysis using RDD
تجزیه و تحلیل داده های ساخت یافته با استفاده از DF
Structured Data Analysis using DF
چالش اضافی: تجزیه و تحلیل داده های ساخت یافته
Extra Challenge: Structured Data Analysis
PySpark برای یک فایل ساختاری بزرگ
PySpark for a large Structured File
PySpark برای یک فایل بزرگ بدون ساختار (LOG).
PySpark for a large Unstructured (LOG) File
RDD برای تجزیه و تحلیل فایل گزارش
RDD for Log File Analysis
چالش اضافی: تجزیه و تحلیل فایل ورود به سیستم
Extra Challenge: Log file Analysis
PySpark برای یک فایل بزرگ بدون ساختار (LOG).
PySpark for a large Unstructured (LOG) File
چالش های پردازش توزیع شده و تنظیم عملکرد جرقه
Distributed Processing Challenges and Spark Performance Tuning
بهینه سازی داده های کج در Spark (قسمت 1)
Optimizing the Skewed Data in Spark (part_1)
بهینه سازی داده های کج در Spark (قسمت 2)
Optimizing the Skewed Data in Spark (part_2)
بهینه سازی داده های کج شده در Spark (قسمت 3)
Optimizing the Skewed Data in Spark (part_3)
بهینه سازی جرقه برای عملکرد بهتر (جلوگیری از نشت)
Spark Optimization for Better Performance (Prevent Spill)
Spark Optimization با استفاده از Adaptive Query Execution_1
Spark Optimization using Adaptive Query Execution_1
Spark Optimization با استفاده از Adaptive Query Execution_2
Spark Optimization using Adaptive Query Execution_2
چالش های پردازش توزیع شده و تنظیم عملکرد جرقه
Distributed Processing Challenges and Spark Performance Tuning
ملاحظات اضافی
Additional Considerations
ارزیابی تنبل (تحول باریک در مقابل دگرگونی گسترده)
Lazy Evaluations (Narrow vs Wide Transformation)
Spark چگونه به صورت داخلی یک برنامه (کار، مرحله، مجری و وظیفه) را اجرا می کند؟
How does Spark internally execute a program (job, stage, executor and task)?
Spark SQL با استفاده از JDBC (part_1)
Spark SQL using JDBC (part_1)
Spark SQL با استفاده از JDBC (part_2)
Spark SQL using JDBC (part_2)
نمایش نظرات