Apache Spark که به عنوان یک پروژه تحقیقاتی در دانشگاه کالیفرنیا در سال 2009 آغاز شد، Apache Spark در حال حاضر یکی از پرکاربردترین موتورهای تحلیلی است. جای تعجب نیست: می تواند داده ها را در مقیاسی عظیم پردازش کند، از چندین زبان برنامه نویسی پشتیبانی می کند (شما می توانید از جاوا، اسکالا، پایتون، R و SQL استفاده کنید) و به تنهایی یا در فضای ابری و همچنین در سیستم های دیگر اجرا می شود (به عنوان مثال، Hadoop یا Kubernetes).
در این آموزش Apache Spark، یکی از قابل توجه ترین موارد استفاده از Apache Spark را به شما معرفی می کنم: یادگیری ماشین. در کمتر از دو ساعت، ما تمام مراحل یک پروژه یادگیری ماشینی را طی خواهیم کرد که در پایان یک پیشبینی دقیق ریزش مشتریان مخابراتی را به ما ارائه میدهد. این یک تجربه کاملاً عملی خواهد بود، بنابراین آستینهای خود را بالا بزنید و برای ارائه بهترینهای خود آماده شوید!
اول از همه، یادگیری ماشینی Apache Spark چگونه کار می کند؟
قبل از اینکه Apache Spark را یاد بگیرید، باید بدانید که دارای چند کتابخانه داخلی است. یکی از آنها MLlib نام دارد. به بیان ساده، به Spark Core اجازه می دهد تا وظایف یادگیری ماشین را انجام دهد - و (همانطور که در این آموزش آپاچی اسپارک خواهید دید) این کار را با سرعتی خیره کننده انجام می دهد. Apache Spark به دلیل توانایی آن در مدیریت مقادیر قابل توجهی از داده ها، برای کارهای مرتبط با یادگیری ماشین عالی است، زیرا می تواند نتایج دقیق تری را هنگام آموزش الگوریتم ها تضمین کند.
تسلط بر یادگیری ماشینی Apache Spark نیز میتواند مهارتی باشد که بسیار مورد توجه کارفرمایان و هدشارچیان قرار میگیرد: شرکتهای بیشتری به استفاده از راهحلهای یادگیری ماشین برای تجزیه و تحلیل کسبوکار، امنیت یا خدمات مشتری علاقه مند میشوند. از این رو، این آموزش عملی آپاچی اسپارک می تواند اولین قدم شما به سمت یک حرفه پردرآمد باشد!
با ایجاد یک پروژه از A تا Z خودتان Apache Spark را بیاموزید!
من اعتقاد راسخ دارم که بهترین راه برای یادگیری انجام دادن است. به همین دلیل است که من هیچ سخنرانی صرفاً نظری را در این آموزش آپاچی اسپارک نگذاشته ام: شما همه چیز را در راه یاد خواهید گرفت و می توانید بلافاصله آن را عملی کنید. دیدن نحوه عملکرد هر ویژگی به شما کمک می کند تا یادگیری ماشینی Apache Spark را بطور کامل از روی قلب یاد بگیرید.
من همچنین برخی از مطالب را در بایگانی ZIP ارائه خواهم کرد. مطمئن شوید که آنها را در ابتدای دوره دانلود کنید، زیرا بدون آن نمی توانید پروژه را ادامه دهید.
و این تمام چیزی نیست که از این دوره به دست می آورید - آیا می توانید آن را باور کنید؟
بهجز خود Spark، Databricks را نیز به شما معرفی میکنم – پلتفرمی که مدیریت و سازماندهی دادهها را برای Spark ساده میکند. توسط همان تیمی که در ابتدا Spark را راه اندازی کرده بود، تأسیس شده است. در این دوره، نحوه ایجاد حساب کاربری در Databricks و استفاده از ویژگی Notebook آن برای نوشتن و سازماندهی کد خود را توضیح خواهم داد.
بعد از اتمام آموزش Apache Spark من، یک پروژه کاملاً کارآمد پیش بینی ریزش مشتری از راه دور خواهید داشت. اکنون دوره را بگذرانید و تنها در چند ساعت درک بسیار قوی تری از یادگیری ماشین و تجزیه و تحلیل داده داشته باشید!
پروژه یادگیری ماشین اسپارک (پیشبینی ریزش مشتری از راه دور) برای مبتدیان با استفاده از Databricks Notebook (غیر رسمی) (سرور نسخه انجمن)
در این پروژه یادگیری ماشین علم داده، پروژه پیشبینی انحراف مشتریان مخابراتی را با استفاده از رگرسیون لجستیک مدل طبقهبندی، Naive Bayes و طبقهبندی کننده One-Vs-Rest چند مدل پیشبینی کننده ایجاد خواهیم کرد.
Apache Spark و Machine Learning را در پلتفرم Databricks کاوش کنید.
راه اندازی Spark Cluster
یک خط لوله داده ایجاد کنید
آن داده ها را با استفاده از مدل یادگیری ماشین (کتابخانه Spark ML) پردازش کنید
یادگیری عملی
مورد استفاده در زمان واقعی
پروژه را در وب منتشر کنید تا استخدام کننده خود را تحت تأثیر قرار دهید
نمایش گرافیکی داده ها با استفاده از دفترچه یادداشت Databricks.
داده های ساخت یافته را با استفاده از SparkSQL و DataFrames تغییر دهید
پیشبینی ریزش مشتریان مخابراتی یک مورد استفاده همزمان در Apache Spark
درباره Databricks:
Databricks به شما امکان می دهد فوراً شروع به نوشتن کد Spark ML کنید تا بتوانید روی مشکلات داده خود تمرکز کنید.
مهندس Bigdata من معمار راه حل هستم با 12 سال تجربه در صنعت بانکداری ، ارتباطات از راه دور و خدمات مالی در طیف متنوعی از نقش ها در برنامه های کارت اعتباری ، پرداخت ها ، انبار داده و مرکز داده نقش من به عنوان Bigdata و Cloud Architect به عنوان بخشی از تیم Bigdata برای ارائه راه حل نرم افزاری کار می کنم. مسئولیت ها شامل - از همه مسائل مربوط به Hadoop پشتیبانی کنید - معیار سیستم های موجود ، تجزیه و تحلیل چالش های سیستم موجود/گلوگاه ها و پیشنهاد راه حل های مناسب برای از بین بردن آنها بر اساس فن آوری های مختلف Big Data - تجزیه و تحلیل و تعریف جوانب مثبت و منفی فناوری ها و سیستم عامل های مختلف - موارد استفاده ، راه حل ها و توصیه ها را تعریف کنید - استراتژی Big Data را تعریف کنید - انجام تجزیه و تحلیل دقیق از مشکلات کسب و کار و محیط های فنی - راه حل عملی بزرگ داده را بر اساس تجزیه و تحلیل نیازهای مشتری تعریف کنید - توصیه های عملی Big Big Cluster را تعریف کنید - به مشتریان در مورد فن آوری های مختلف Big Data آموزش دهید تا به آنها در درک نکات مثبت و منفی Big Data کمک کند - حاکمیت داده ها - ساخت ابزارهایی برای بهبود بهره وری توسعه دهنده و اجرای روشهای استاندارد
نمایش نظرات