لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
Apache Spark با Python - Big Data با PySpark و Spark [ویدئو]
Apache Spark with Python - Big Data with PySpark and Spark [Video]
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
این دوره آموزشی تمام اصول Apache Spark با پایتون را پوشش میدهد و هر آنچه را که باید در مورد توسعه برنامههای Spark با استفاده از PySpark، Python API برای Spark بدانید، به شما آموزش میدهد. در پایان این دوره، دانش عمیقی در مورد Apache Spark و مهارت های کلی تجزیه و تحلیل و دستکاری کلان داده کسب خواهید کرد تا به شرکت خود کمک کنید تا Apache Spark را برای ساخت خط لوله پردازش داده های بزرگ و برنامه های کاربردی تجزیه و تحلیل داده اتخاذ کند. این دوره بیش از 10 نمونه داده های بزرگ را پوشش می دهد. شما دانش ارزشمندی در مورد نحوه قالب بندی مسائل تجزیه و تحلیل داده ها به عنوان مسائل Spark خواهید آموخت. با هم نمونه هایی مانند جمع آوری وبلاگ های آپاچی ناسا از منابع مختلف را یاد خواهیم گرفت. ما روند قیمت را با نگاهی به داده های املاک در کالیفرنیا بررسی خواهیم کرد. ما برنامههای Spark را مینویسیم تا از طریق دادههای نظرسنجی Stack Overflow، میانگین دستمزد توسعهدهندگان در کشورهای مختلف را بفهمیم. ما سیستمی را برای تجزیه و تحلیل چگونگی توزیع فضاهای سازنده در مناطق مختلف بریتانیا توسعه خواهیم داد. و خیلی خیلی بیشتر. - مروری بر معماری آپاچی اسپارک.
- برنامه های Apache Spark 2.0 را با استفاده از تبدیل ها و اقدامات RDD و Spark SQL توسعه دهید.
- برای پردازش و تجزیه و تحلیل مجموعه دادههای بزرگ، با مجموعه دادههای توزیعشده (RDD) انتزاعی اولیه Apache Spark کار کنید.
- داده های ساختار یافته و نیمه ساختار یافته را با استفاده از DataFrames تجزیه و تحلیل کنید و درک کاملی در مورد Spark SQL ایجاد کنید.
- تکنیک های پیشرفته برای بهینه سازی و تنظیم کارهای Apache Spark با پارتیشن بندی، کش کردن و ماندگاری RDD ها.
- برنامه های Spark را در یک خوشه Hadoop YARN از طریق سرویس Elastic MapReduce آمازون افزایش دهید.
- اطلاعات را در میان گره های مختلف در یک خوشه اسپارک آپاچی توسط متغیرهای پخش و انباشته ها به اشتراک بگذارید.
- برنامه های Spark را با استفاده از Python API بنویسید - PySpark هر کسی که می خواهد به طور کامل نحوه عملکرد فناوری Apache Spark را درک کند و یاد بگیرد که چگونه Apache Spark در این زمینه استفاده می شود. مهندسان نرمافزاری که میخواهند برنامههای Apache Spark 2.0 را با استفاده از دانشمندان Spark Core و Spark SQL.Data توسعه دهند یا مهندسان دادهای که میخواهند با بهبود مهارتهای پردازش دادههای بزرگ، شغل خود را ارتقا دهند. - Apache Spark به ما توانایی نامحدودی برای ساخت برنامه های کاربردی پیشرفته می دهد. همچنین یکی از قانعکنندهترین فناوریهای دهه گذشته از نظر اختلال در دنیای کلان داده است. * - Spark محاسبات خوشه ای در حافظه را فراهم می کند که سرعت الگوریتم های تکراری و وظایف داده کاوی تعاملی را تا حد زیادی افزایش می دهد.
سرفصل ها و درس ها
با آپاچی اسپارک شروع کنید
Get Started with Apache Spark
بررسی اجمالی دوره
Course Overview
مقدمه ای بر اسپارک
Introduction to Spark
جاوا و گیت را نصب کنید
Install Java and Git
Spark را راه اندازی کنید
Set up Spark
اولین کار Spark ما را اجرا کنید
Run our first Spark job
RDD
RDD
مبانی RDD
RDD Basics
RDD ها را ایجاد کنید
Create RDDs
تبدیل نقشه و فیلتر
Map and Filter Transformation
راه حل مسئله فرودگاه ها بر اساس عرض جغرافیایی
Solution to Airports by Latitude Problem
تبدیل FlatMap
FlatMap Transformation
تنظیم عملیات
Set Operations
راه حل برای مشکل همان هاست
Solution for the Same Hosts Problem
اقدامات
Actions
حل مسئله جمع اعداد
Solution to Sum of Numbers Problem
جنبه های مهم در مورد RDD
Important Aspects about RDD
خلاصه ای از عملیات RDD
Summary of RDD Operations
ذخیره سازی و ماندگاری
Caching and Persistance
معماری اسپارک و اجزای سازنده
Spark Architecture and Components
معماری جرقه
Spark Architecture
اجزای جرقه
Spark Components
RDD را جفت کنید
Pair RDD
مقدمه ای بر جفت RDD
Introduction to Pair RDD
ایجاد جفت RDD
Create Pair RDDs
تبدیلهای فیلتر و MapValue در جفت RDD
Filter and MapValue Transformations on Pair RDD
کاهش با تجمع کلید
Reduce By Key Aggregation
راه حل برای مشکل خانه متوسط
Solution for the Average House Problem
گروه با تبدیل کلید
Group By Key Transformation
مرتب سازی بر اساس تبدیل کلید
Sort By Key Transformation
راه حلی برای مشکل شمارش کلمات مرتب شده
Solution for the Sorted Word Count Problem
پارتیشن بندی داده ها
Data Partitioning
به عملیات بپیوندید
Join Operations
موضوعات پیشرفته Spark
Advanced Spark Topics
آکومولاتورها
Accumulators
راه حل مشکل پیگیری StackOverflow Survey
Solution to StackOverflow Survey Follow-up Problem
متغیرهای پخش
Broadcast Variables
Spark SQL
Spark SQL
مقدمه ای بر Spark SQL
Introduction to Spark SQL
Spark SQL در عمل
Spark SQL in Action
عمل Spark SQL: مشکل قیمت خانه
Spark SQL practice: House Price Problem
Spark SQL Joins
Spark SQL Joins
Dataframe یا RDD
Dataframe or RDD
Dataframe و تبدیل RDD
Dataframe and RDD Conversion
تنظیم عملکرد Spark SQL
Performance Tuning of Spark SQL
در حال اجرا جرقه در یک خوشه
Running Spark in a Cluster
مقدمه ای بر Running Spark in a Cluster
Introduction to Running Spark in a Cluster
Spark-Submit
Spark-submit
برنامه Spark را در خوشه آمازون EMR (ElasticMapReduce) اجرا کنید
Run Spark Application on Amazon EMR (ElasticMapReduce) cluster
نمایش نظرات