آموزش PySpark برای علوم داده - متوسط
2h 9m
16
Udemy
10 تیر 1400
12,376
از 5
دارد (اگر در سایت مرجع باشد، قرارداده می شود.)
معمولا دارد
معمولا دارد (در صورت درخواست)
Ganesh D

https://donyad.com/d/a50f

آموزش PySpark برای علوم داده - متوسط

PySpark for Data Science - Intermediate

سرفصل ها و درس ها | نظرات

توضیحات دوره: شما می توانید در مورد چگونگی استفاده از spark python یا PySpark برای انجام تجزیه و تحلیل داده ها یاد بگیرید.

آنچه خواهید آموخت

  • این ماژول در PySpark Tutorials با هدف تبیین مفاهیم میانی مانند مفاهیمی مانند استفاده از Spark session در مورد نسخه های بعدی و استفاده از Spark Config و Spark Context در مورد نسخه های قبلی ارائه شده است.
  • او همچنین به شما در درک نحوه تنظیم محیط مربوط به Spark ، مفاهیم صدا و سیما و باتری ، سایر فنون بهینه سازی شامل مواردی نظیر موازی کاری ، تنگستن و بهینه ساز کاتالیزور کمک می کند.

هدف این ماژول در PySpark Tutorials ، تبیین مفاهیم میانی مانند مفاهیمی مانند استفاده از جلسه Spark در مورد نسخه های بعدی و استفاده از Spark Config و Spark Context در مورد نسخه های قبلی است. این امر همچنین به شما در درک چگونگی تنظیم محیط مربوط به Spark ، مفاهیم Broadcasting و باتری ، سایر فنون بهینه سازی شامل مواردی نظیر موازی کاری ، تنگستن و بهینه ساز کاتالیزور کمک می کند. همچنین در مورد روشهای مختلف فشرده سازی مانند Snappy و Zlib به شما آموزش داده خواهد شد. ما همچنین مفاهیم مختلف مربوط به اکوسیستم Big data مانند HDFS و ذخیره سازی بلوک ، اجزای مختلف Spark مانند Spark Core ، Mila ، GraphX ، R ، Streaming ، SQL و غیره را درک خواهیم کرد و در مورد آنها صحبت خواهیم کرد و همچنین اصول Python را مطالعه خواهیم کرد. زبانی که مرتبط و مرتبط باشد تا همراه با Apache Spark استفاده شود و در نتیجه Pyspark شود. موارد زیر را در این دوره یاد خواهیم گرفت:

  • رگرسیون

  • رگرسیون خطی

  • ستون خروجی

  • داده های آزمون

  • پیش بینی

  • رگرسیون خطی تعمیم یافته

  • بازگشت جنگل

  • طبقه بندی

  • رگرسیون لجستیک دوجمله ای

  • رگرسیون لجستیک چند جمله ای

  • درخت تصمیم

  • جنگل تصادفی

  • خوشه بندی

  • مدل K-Means

Pyspark یک راه حل بزرگ داده است که برای پخش همزمان با استفاده از زبان برنامه نویسی Python قابل استفاده است و روشی بهتر و کارآمد برای انجام انواع محاسبات و محاسبات را فراهم می کند. همچنین احتمالاً بهترین راه حل در بازار است زیرا قابلیت همکاری دارد یعنی Pyspark به راحتی می تواند همراه با سایر فناوری ها و سایر اجزای کل خط لوله مدیریت شود. تکنیک های داده بزرگ قبلی و Hadoop شامل تکنیک های پردازش زمان دسته ای بودند.

Pyspark یک برنامه منبع باز است که در آن تمام پایگاه کد در Python نوشته شده است که برای انجام بیشتر تمام عملیات یادگیری ماشین و فشرده استفاده می شود. این مورد به طور گسترده مورد استفاده قرار گرفته و در صنعت رواج یافته است و بنابراین می توان Pyspark را جایگزین سایر م basedلفه های مبتنی بر جرقه مانند م suchلفه هایی که با Java یا Scala کار می کنند ، کرد. یک ویژگی منحصر به فرد که همراه با Pyspark وجود دارد ، استفاده از مجموعه داده ها و نه فریم داده ها است زیرا مورد دوم توسط Pyspark ارائه نمی شود. پزشکان به ابزارهای بیشتری احتیاج دارند که اغلب هنگام اطمینان از جریان داده های بی درنگ ، قابل اطمینان تر و سریعتر هستند. ابزارهای قبلی مانند کاهش نقشه از نقشه استفاده کرده و مفاهیم کاهش شامل استفاده از نگاشت ها ، سپس مرتب کردن یا مرتب سازی و سپس تقلیل آنها به یک موجود واحد. این MapReduce راهی برای محاسبه و محاسبه موازی ارائه کرده است. Pyspark از تکنیک های حافظه استفاده می کند که از فضای ذخیره سازی داخل دیسک سخت استفاده نمی کنند. این یک واحد محاسباتی سریعتر و هدفمند را فراهم می کند.

چه کسی این دوره است:

  • مخاطبان هدف برای این آموزش های PYSPARK شامل مواردی مانند توسعه دهندگان، تحلیلگران، برنامه نویسان نرم افزارها، مشاوران، مهندسین داده، دانشمندان داده، تحلیلگران داده، مهندسان نرم افزار، برنامه نویسان داده بزرگ، توسعه دهندگان Hadoop هستند. مخاطبان دیگر شامل مواردی مانند دانش آموزان و کارآفرینانی هستند که به دنبال ایجاد چیزی از خودشان در فضای داده های بزرگ هستند.


سرفصل ها و درس ها

معرفی Introduction

  • مقدمه ای بر Pyspark Intermediate Introduction to Pyspark Intermediate

پسرفت Regression

  • رگرسیون خطی Liner Regration

  • ستون خروجی Output Colomn

  • داده های آزمون Test Data

  • پیش بینی Prediction

  • رگرسیون خطی تعمیم یافته Generalised Linear Regression

  • بازگشت جنگل Forest Regration

طبقه بندی Classification

  • رگرسیون لجستیک دو جمله ای قسمت 1 Binomial Logistic Regression Part 1

  • رگرسیون لجستیک دو جمله ای قسمت 2 Binomial Logistic Regression Part 2

  • رگرسیون لجستیک دو جمله ای قسمت 3 Binomial Logistic Regression Part 3

  • رگرسیون لجستیک دو جمله ای قسمت 4 Binomial Logistic Regression Part 4

  • رگرسیون لجستیک چند جمله ای Multinomial Logistic Regression

  • رگرسیون لجستیک چند جمله ای ادامه دهید Multinomial Logistic Regression Continue

  • درخت تصمیم Decision Tree

  • جنگل تصادفی Random Forest

خوشه بندی Clustering

  • مدل K-Means K-Means Model

نمایش نظرات

نظری ارسال نشده است.

Ganesh D

کارآفرین و مربی من یک کارآفرین و مربی هستم. من از طریق دوره های خود و فیلم های آنلاین به هزاران دانش آموز در چندین موضوع در زمینه های مختلف آموزش داده ام. من 11 سال سابقه مربیگری دارم. من دوست دارم دانش خود را با دانش آموزان در میان بگذارم. در طول سال ها من ایده های تجاری مختلفی از اصول اولیه تا الگوی پیچیده تر را اجرا کرده ام و دانش بزرگی کسب کرده ام که دوست دارم آنها را به اشتراک بگذارم. من چندین ماه را برای آماده سازی دوره هایم صرف می کنم. قدرت من به عنوان یک معلم از توانایی من در تجزیه و تحلیل موضوعات پیچیده به مفاهیم ساده تر ناشی می شود. و توجه من به جزئیات به من کمک می کند تا این مفاهیم را به گونه ای توضیح دهم که برای دانشجویان بسیار قابل دسترسی باشد. من به طور مداوم در حال تحقیق ، مطالعه و آموزش هستم تا مهارت های خود را ارتقا دهم. امیدوارم از دوره های من لذت ببرید