🔔 با توجه به بهبود نسبی اینترنت، آمادهسازی دورهها آغاز شده است. به دلیل تداوم برخی اختلالات، بارگذاری دورهها ممکن است با کمی تأخیر انجام شود. مدت اشتراکهای تهیهشده محفوظ است.
لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش از صفر تا یک: اسپارک برای علم داده با پایتون
- آخرین آپدیت
دانلود From 0 to 1 : Spark for Data Science with Python
نکته:
ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:
تحلیل داده با اسپارک: یادگیری ماشین، علم داده و تحلیل
دادههای خود را با اسپارک برای تحلیل، یادگیری ماشین و علم داده به پرواز درآورید.
از اسپارک برای طیف وسیعی از وظایف تحلیلی و یادگیری ماشین استفاده کنید. الگوریتمهای پیچیدهای مانند PageRank یا توصیهگر موسیقی را پیادهسازی کنید. با مجموعه دادههای متنوعی از تاخیر پروازها گرفته تا توییتر، گرافهای وب، شبکههای اجتماعی و رتبهبندی محصولات کار کنید. از تمام ویژگیها و کتابخانههای مختلف اسپارک بهره ببرید: RDDها، DataFrameها، Spark SQL، MLlib، Spark Streaming و GraphX.
پیشنیازها
این دوره فرض میکند شما با پایتون آشنایی دارید. میتوانید مستقیماً در محیط PySpark کد پایتون را اجرا کنید. اگر IPython Notebook را نصب دارید، نحوه پیکربندی آن برای اسپارک را به شما نشان خواهیم داد.
برای بخش جاوا، فرض ما دانش پایهای از جاوا است. یک IDE که از Maven پشتیبانی میکند، مانند IntelliJ IDEA/Eclipse، مفید خواهد بود.
تمام مثالها با یا بدون هادوپ کار میکنند. اگر میخواهید از اسپارک با هادوپ استفاده کنید، نیاز به نصب هادوپ (در حالت شبه-توزیع شده یا کلاستر) خواهید داشت.
تدریس شده توسط:
تیمی متشکل از 4 نفر، شامل 2 فارغالتحصیل استنفورد و کارمندان سابق گوگل، و 2 تحلیلگر ارشد سابق فلیپکارت. این تیم دههها تجربه عملی در کار با جاوا و میلیاردها ردیف داده دارد.
اسپارک چیست؟
اگر یک تحلیلگر یا دانشمند داده هستید، به استفاده از سیستمهای متعدد برای کار با داده عادت دارید: SQL، پایتون، R، جاوا و غیره. با اسپارک، شما یک موتور واحد دارید که در آن میتوانید حجم عظیمی از دادهها را کاوش کرده و با آنها کار کنید، الگوریتمهای یادگیری ماشین را اجرا کنید و سپس از همان سیستم برای تولید کد خود استفاده نمایید.
تحلیل داده با اسپارک
با استفاده از اسپارک و پایتون، میتوانید دادههای خود را در محیطی تعاملی با بازخورد سریع تحلیل و کاوش کنید. این دوره نحوه بهرهگیری از قدرت RDDها و DataFrameها برای دستکاری آسان دادهها را نشان میدهد.
یادگیری ماشین و علم داده با اسپارک
قابلیتهای اصلی و کتابخانههای داخلی اسپارک، پیادهسازی الگوریتمهای پیچیده مانند سیستمهای توصیهگر را با خطوط کد بسیار کمی آسان میکند. ما مجموعهدادهها و الگوریتمهای متنوعی از جمله PageRank، MapReduce و مجموعه دادههای گراف را پوشش خواهیم داد.
محتوای دوره
مطالب جالب و کاربردی:
توصیهگر موسیقی با استفاده از روش حداقل مربعات متناوب (Alternating Least Squares) و مجموعه داده Audioscrobbler
DataFrameها و Spark SQL برای کار با دادههای توییتر
استفاده از الگوریتم PageRank با مجموعه داده گراف وب گوگل
استفاده از Spark Streaming برای پردازش جریان داده
کار با دادههای گراف با استفاده از مجموعه داده شبکه اجتماعی Marvel
و البته تمام ویژگیهای پایه و پیشرفته اسپارک:
مجموعههای داده توزیع شده مقاوم (Resilient Distributed Datasets)، تبدیلها (map، filter، flatMap)، عملیات (reduce، aggregate)
Spark SQL، Spark Streaming، MLlib و GraphFrames (GraphX برای پایتون)
سرفصل ها و درس ها
شما، این دوره و ما
You, This Course and Us
مواد درسی
Course Materials
شما، این دوره و ما
You, This Course and Us
شما، این دوره و ما
You, This Course and Us
شما، این دوره و ما
You, This Course and Us
مواد دوره
Course Materials
مقدمه ای بر Spark
Introduction to Spark
دونالد رامسفلد چه ربطی به تحلیل داده ها دارد؟
What does Donald Rumsfeld have to do with data analysis?
چرا اسپارک خیلی باحاله؟
Why is Spark so cool?
کتابخانه های داخلی برای Spark
Built-in libraries for Spark
نصب اسپارک
Installing Spark
پوسته PySpark
The PySpark Shell
تحولات و اقدامات
Transformations and Actions
آن را در عمل ببینید: Munging Airlines Data با PySpark - I
See it in Action : Munging Airlines Data with PySpark - I
[برای مبتدیان شل سیستم عامل لینوکس/مک] مسیر و سایر متغیرهای محیطی
[For Linux/Mac OS Shell Newbies] Path and other Environment Variables
مقدمه ای بر اسپارک
Introduction to Spark
دونالد رامسفلد چه ربطی به تجزیه و تحلیل داده ها دارد؟
What does Donald Rumsfeld have to do with data analysis?
چرا Spark اینقدر جذاب است؟
Why is Spark so cool?
مقدمه ای بر RDDs - Resilient Distributed Datasets
An introduction to RDDs - Resilient Distributed Datasets
مقدمه ای بر RDD ها - مجموعه داده های توزیع شده انعطاف پذیر
An introduction to RDDs - Resilient Distributed Datasets
کتابخانه های داخلی برای Spark
Built-in libraries for Spark
نصب Spark
Installing Spark
پوسته PySpark
The PySpark Shell
تبدیلات و اقدامات
Transformations and Actions
مشاهده در عمل: پاکسازی داده های ایرلاین ها با PySpark - بخش اول
See it in Action : Munging Airlines Data with PySpark - I
[برای تازه کاران پوسته لینوکس/مک] مسیر و سایر متغیرهای محیطی
[For Linux/Mac OS Shell Newbies] Path and other Environment Variables
مجموعه داده های توزیع شده انعطاف پذیر
Resilient Distributed Datasets
ویژگی های RDD: نسب، RDD ها می دانند که از کجا آمده اند
RDD Characteristics: Lineage, RDDs know where they came from
میانگین مسافت طی شده توسط یک پرواز با استفاده از عملیات map() و reduce().
Average distance travelled by a flight using map() and reduce() operations
دریافت پروازهای تاخیری با استفاده از filter()، داده های حافظه پنهان با استفاده از persist()
Get delayed flights using filter(), cache data using persist()
میانگین تاخیر پرواز در یک مرحله با استفاده از aggregate()
Average flight delay in one-step using aggregate()
آن را در عمل ببینید: تجزیه و تحلیل داده های خطوط هوایی با PySpark - II
See it in Action : Analyzing Airlines Data with PySpark - II
مجموعه داده های توزیع شده انعطاف پذیر
Resilient Distributed Datasets
ویژگی های RDD: پارتیشن ها و تغییرناپذیری
RDD Characteristics: Partitions and Immutability
ویژگی های RDD: پارتیشن ها و تغییر ناپذیری
RDD Characteristics: Partitions and Immutability
ویژگی های RDD: تبار، RDD ها می دانند از کجا آمده اند
RDD Characteristics: Lineage, RDDs know where they came from
با RDD ها چه کاری می توانید انجام دهید؟
What can you do with RDDs?
با RDD ها چه کاری می توان انجام داد؟
What can you do with RDDs?
اولین RDD خود را از یک فایل ایجاد کنید
Create your first RDD from a file
اولین RDD خود را از یک فایل ایجاد کنید
Create your first RDD from a file
میانگین مسافت طی شده توسط یک پرواز با استفاده از عملیات map() و reduce()
Average distance travelled by a flight using map() and reduce() operations
دریافت پروازهای با تاخیر با استفاده از filter()، کش کردن داده ها با استفاده از persist()
Get delayed flights using filter(), cache data using persist()
میانگین تاخیر پرواز در یک مرحله با استفاده از aggregate()
Average flight delay in one-step using aggregate()
هیستوگرام فراوانی تاخیرها با استفاده از countByValue()
Frequency histogram of delays using countByValue()
هیستوگرام فرکانس تاخیرها با استفاده از countByValue()
Frequency histogram of delays using countByValue()
مشاهده در عمل: تجزیه و تحلیل داده های ایرلاین ها با PySpark - بخش دوم
See it in Action : Analyzing Airlines Data with PySpark - II
RDD های پیشرفته: مجموعه داده های زوجی توزیع شده انعطاف پذیر
Advanced RDDs: Pair Resilient Distributed Datasets
جستجوی توضیحات فرودگاه با استفاده از lookup()، collectAsMap()، broadcast()
Lookup airport descriptions using lookup(), collectAsMap(), broadcast()
RDD های پیشرفته: جفت مجموعه داده های توزیع شده انعطاف پذیر
Advanced RDDs: Pair Resilient Distributed Datasets
تبدیلات و اقدامات ویژه
Special Transformations and Actions
تحولات و اقدامات ویژه
Special Transformations and Actions
میانگین تاخیر در هر فرودگاه، از ()reducByKey، mapValues() و join() استفاده کنید
Average delay per airport, use reduceByKey(), mapValues() and join()
میانگین تاخیر در هر فرودگاه، استفاده از reduceByKey()، mapValues() و join()
Average delay per airport, use reduceByKey(), mapValues() and join()
میانگین تاخیر در هر فرودگاه در یک مرحله با استفاده از ()combinbyKey
Average delay per airport in one step using combineByKey()
میانگین تاخیر در هر فرودگاه در یک مرحله با استفاده از combineByKey()
Average delay per airport in one step using combineByKey()
با استفاده از sortBy() فرودگاه های برتر را با تاخیر دریافت کنید
Get the top airports by delay using sortBy()
دریافت فرودگاه های برتر بر اساس تاخیر با استفاده از sortBy()
Get the top airports by delay using sortBy()
جستجوی توضیحات فرودگاه با استفاده از lookup()، collectAsMap()، broadcast()
Lookup airport descriptions using lookup(), collectAsMap(), broadcast()
مشاهده در عمل: تجزیه و تحلیل داده های ایرلاین ها با PySpark - بخش سوم
See it in Action : Analyzing Airlines Data with PySpark - III
آن را در عمل ببینید: تجزیه و تحلیل داده های خطوط هوایی با PySpark - III
See it in Action : Analyzing Airlines Data with PySpark - III
نمایش نظرات