آموزش Master Apache Spark با استفاده از Spark SQL و PySpark 3

Master Apache Spark using Spark SQL and PySpark 3

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: Master Apache Spark با استفاده از Spark SQL و همچنین PySpark با Python3 با دسترسی آزمایشگاهی مکمل، Single Node Hadoop و Spark را با استفاده از Docker به صورت محلی یا در AWS Cloud9 تنظیم کنید. و پوشه ها در HDFS. خلاصه سریع پایتون که برای یادگیری Spark مرتبط است. Pyspark Dataframe API برای حل مشکلات با استفاده از APIهای سبک Dataframe. ارتباط Spark Metastore برای تبدیل Dataframs به نماهای موقت به طوری که می توان داده ها را در Dataframe با استفاده از Spark SQL پردازش کرد. چرخه عمر توسعه برنامه Apache Spark Apache Spark Application Execution Cycle Life and Spark UI Setup Proxy SSH برای دسترسی به گزارش های Spark Application استقرار حالت های استقرار برنامه های Spark (Cluster و Client) عبور دادن فایل های ویژگی های برنامه و وابستگی های خارجی در حین اجرای برنامه های SparkBall پیشهاski: با استفاده از هر زبان برنامه نویسی آزمایشگاه خود پشتیبانی (دستورالعمل های ارائه شده) یا آزمایشگاه ITVersity با هزینه اضافی برای محیط مناسب. حداقل حافظه مورد نیاز بر اساس محیطی که با سیستم عامل 64 بیتی استفاده می کنید، 4 گیگابایت رم با دسترسی به کلاسترهای مناسب یا 16 گیگابایت رم برای راه اندازی محیط با استفاده از داکر

به عنوان بخشی از این دوره، تمام مهارت های کلیدی برای ساخت خطوط لوله مهندسی داده با استفاده از Spark SQL و Spark Data Frame API با استفاده از Python به عنوان یک زبان برنامه نویسی را خواهید آموخت. این دوره قبلاً یک دوره CCA 175 Spark و Hadoop Developer برای آمادگی برای آزمون گواهینامه بود. از تاریخ 10/31/2021، امتحان غروب است و ما آن را با استفاده از Python 3 به Apache Spark 2 و Apache Spark 3 تغییر نام داده‌ایم زیرا موضوعات مرتبط با صنعت را فراتر از محدوده صدور گواهینامه پوشش می‌دهد.

درباره مهندسی داده

مهندسی داده چیزی جز پردازش داده ها بسته به نیازهای پایین دست ما نیست. ما باید خطوط لوله مختلفی مانند خط لوله دسته ای، خط لوله جریان و غیره را به عنوان بخشی از مهندسی داده بسازیم. تمام نقش های مربوط به پردازش داده ها تحت مهندسی داده ادغام شده است. به طور معمول، آنها به عنوان توسعه ETL، توسعه انبار داده و غیره شناخته می شوند. Apache Spark به عنوان یک فناوری پیشرو برای مراقبت از مهندسی داده در مقیاس تکامل یافته است.

من این دوره آموزشی را برای هر کسی که مایل است با استفاده از Pyspark (پایتون + اسپارک) به نقش مهندس داده تبدیل شود آماده کرده ام. من خودم یک معمار راه حل مهندسی داده با تجربه ثابت شده در طراحی راه حل ها با استفاده از Apache Spark هستم.

اجازه دهید جزئیات آنچه را که در این دوره یاد می گیرید بررسی کنیم. به خاطر داشته باشید که این دوره با بسیاری از کارهای عملی ایجاد شده است که به شما تمرین کافی را با استفاده از ابزارهای مناسب می دهد. همچنین، تعداد زیادی کار و تمرین برای ارزیابی خودتان وجود دارد. ما جزئیاتی در مورد منابع یا محیط‌ها برای یادگیری Spark SQL و PySpark 3 با استفاده از Python 3 و همچنین Reference Material در GitHub برای تمرین Spark SQL و PySpark 3 با استفاده از Python 3 ارائه خواهیم کرد. به خاطر داشته باشید که می‌توانید از کلاستر در محل کار خود استفاده کنید یا محیط را با استفاده از دستورالعمل های ارائه شده تنظیم کنید یا از آزمایشگاه ITVersity برای شرکت در این دوره استفاده کنید.

راه اندازی خوشه داده بزرگ تک گره

بسیاری از شما دوست دارید از فناوری‌های مرسوم مانند Mainframes، Oracle PL/SQL و غیره به Big Data منتقل شوید و ممکن است به Big Data Cluster دسترسی نداشته باشید. برای شما بسیار مهم است که محیط را به شیوه ای درست تنظیم کنید. اگر خوشه را در دسترس ندارید نگران نباشید، ما شما را از طریق پشتیبانی از طریق Udemy Q A راهنمایی خواهیم کرد.

  • نمونه AWS Cloud9 مبتنی بر اوبونتو را با پیکربندی مناسب تنظیم کنید

  • اطمینان حاصل کنید که Docker راه اندازی شده است

  • آزمایشگاه Jupyter و سایر اجزای کلیدی را راه اندازی کنید

  • Hadoop، Hive، YARN و Spark را راه اندازی و اعتبارسنجی کنید

آیا در مورد تنظیم محیط کمی احساس ناراحتی می کنید؟ نگران نباش!!! ما دسترسی تکمیلی به آزمایشگاه را تا 2 ماه فراهم خواهیم کرد. در اینجا جزئیات است.

  • آموزش با استفاده از یک محیط تعاملی. برای شروع 2 هفته به آزمایشگاه دسترسی خواهید داشت. اگر محیط را دوست دارید و با ارائه امتیاز و بازخورد 5* آن را تأیید می کنید، دسترسی به آزمایشگاه تا 6 هفته (2 ماه) دیگر تمدید خواهد شد. برای دسترسی به آزمایشگاه تکمیلی، می توانید یک ایمیل به support@itversity.com ارسال کنید. همچنین، اگر کارفرمای شما یک محیط چند گره ای را فراهم کند، ما به شما کمک می کنیم تا مطالب را برای تمرین به عنوان بخشی از جلسه زنده تنظیم کنید. علاوه بر پشتیبانی Q A، ما همچنین پشتیبانی لازم را از طریق جلسات زنده ارائه می دهیم.

خلاصه ای سریع از پایتون

این دوره به دانش کافی در مورد پایتون نیاز دارد. برای اطمینان از اینکه Spark را از منظر مهندسی داده درک می کنید، ماژولی را برای گرم کردن سریع با پایتون اضافه کردیم. اگر با Python آشنایی ندارید، پیشنهاد می کنیم دوره دیگر ما را در مورد نیازهای مهندسی داده - Python، SQL، و Spark مرور کنید.

استاد برای ساخت برنامه های مهندسی داده به مهارت های Hadoop نیاز دارد

به عنوان بخشی از این بخش، شما در درجه اول بر روی دستورات HDFS تمرکز خواهید کرد تا بتوانیم فایل ها را در HDFS کپی کنیم. داده های کپی شده در HDFS به عنوان بخشی از ساخت خطوط لوله مهندسی داده با استفاده از Spark و Hadoop با Python به عنوان زبان برنامه نویسی استفاده می شود.

  • نمای کلی از دستورات HDFS

  • کپی کردن فایل ها در HDFS با استفاده از دستور put یا copyFromLocal با استفاده از دستورات HDFS مناسب

  • با استفاده از دستورات HDFS بررسی کنید که آیا فایل ها به درستی در HDFS کپی شده اند یا نه.

  • اندازه فایل ها را با استفاده از دستورات HDFS مانند du، df و غیره دریافت کنید.

  • برخی مفاهیم اساسی مرتبط با HDFS مانند اندازه بلوک، ضریب تکرار و غیره.

مهندسی داده با استفاده از Spark SQL

اجازه دهید به Spark SQL عمیق بپردازیم تا بفهمیم چگونه می توان از آن برای ساخت خطوط لوله مهندسی داده استفاده کرد. Spark with SQL این توانایی را در اختیار ما قرار می دهد که از قابلیت های محاسباتی توزیع شده Spark همراه با نحوی به سبک SQL که استفاده آسان برای توسعه دهندگان است، استفاده کنیم.

  • شروع به کار با Spark SQL

  • تبدیل‌های اساسی با استفاده از Spark SQL

  • مدیریت جداول - DDL و DML اساسی در Spark SQL

  • مدیریت جداول - DML و ایجاد جداول پارتیشن بندی شده با استفاده از Spark SQL

  • نمای کلی از توابع Spark SQL برای دستکاری رشته ها، تاریخ ها، مقادیر تهی و غیره

  • توابع پنجره با استفاده از Spark SQL برای رتبه‌بندی، تجمیع‌های پیشرفته و غیره.

مهندسی داده با استفاده از Spark Data Frame API

APIهای Spark Data Frame روشی جایگزین برای ساخت برنامه‌های مهندسی داده در مقیاس با استفاده از قابلیت‌های محاسباتی توزیع‌شده Apache Spark هستند. مهندسان داده از پیشینه توسعه برنامه ممکن است APIهای Data Frame را به Spark SQL برای ساخت برنامه های مهندسی داده ترجیح دهند.

  • نمای کلی پردازش داده با استفاده از Spark یا Pyspark Data Frame API.

  • طراحی یا انتخاب داده‌ها از Spark Data Frames، تغییر نام ستون‌ها، ارائه نام مستعار، حذف ستون‌ها از Data Frame و غیره با استفاده از Pyspark Data Frame API.

  • پردازش داده های ستون با استفاده از Spark یا Pyspark Data Frame API - شما در حال یادگیری توابع برای دستکاری رشته ها، تاریخ ها، مقادیر تهی و غیره خواهید بود.

  • تبدیل‌های اساسی در فریم‌های داده Spark با استفاده از APIهای Pyspark Data Frame مانند Filtering، Aggregations، و مرتب‌سازی با استفاده از توابعی مانند filter/where، groupBy با agg، sort یا orderBy و غیره.

  • پیوستن به مجموعه داده ها در Spark Data Frames با استفاده از Pyspark Data Frame API مانند join. اتصالات داخلی، اتصالات بیرونی و غیره را با استفاده از مثال های مناسب یاد خواهید گرفت.

  • پنجره‌سازی توابع در فریم‌های داده Spark با استفاده از APIهای Pyspark Data Frame برای انجام تجمیع‌ها، رتبه‌بندی و توابع تحلیلی پیشرفته

  • پایگاه‌های داده و جداول Spark Metastore و ادغام بین Spark SQL و APIهای Data Frame

چرخه عمر توسعه و استقرار برنامه Apache Spark

هنگامی که محتوای مربوط به Spark را با استفاده از یک محیط مبتنی بر Jupyter مرور کردید، همچنین جزئیات مربوط به نحوه توسعه برنامه‌های Spark را معمولاً با استفاده از Python، مستقر و بازبینی می‌کنیم.

  • تنظیم محیط مجازی پایتون و پروژه برای توسعه برنامه Spark با استفاده از Pycharm

  • با استفاده از Pycharm و Python چرخه کامل توسعه برنامه Spark را درک کنید

  • فایل فشرده را برای Spark Application بسازید، در محیطی که قرار است اجرا شود و اجرا شود کپی کنید.

  • با نحوه بررسی چرخه عمر اجرای برنامه Spark آشنا شوید.

همه نسخه‌های نمایشی در کلاستر Big Data پیشرفته ما ارائه می‌شوند. با دریافت رسید Udemy می‌توانید از دسترسی رایگان یک ماهه به آزمایشگاه با تماس با support@itversity.com استفاده کنید.


سرفصل ها و درس ها

نمایش نظرات

آموزش Master Apache Spark با استفاده از Spark SQL و PySpark 3
جزییات دوره
32 hours
346
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
14,245
4.3 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Durga Viswanatha Raju Gadiraju Durga Viswanatha Raju Gadiraju

مشاور فناوری و Evangelist 13 سال تجربه در اجرای پروژه های پیچیده با استفاده از مجموعه گسترده ای از فناوری ها از جمله Big Data و Cloud. Iversity، llc - یک شرکت مستقر در ایالات متحده برای ارائه آموزش با کیفیت برای متخصصان فناوری اطلاعات و کارکنان و همچنین راه حل های مشاوره ای برای مشتریان سازمانی ، پیدا کردم. من هزاران نفر از متخصصان فناوری اطلاعات را در زمینه فن آوری های زیادی از جمله Big Data و Cloud آموزش داده ام. ایجاد حرفه ای فناوری اطلاعات برای افراد و ارائه خدمات با کیفیت به مشتریان از اهمیت بالاتری در سازمان ما برخوردار است. به عنوان یک استراتژی ورود ، ارائه آموزش با کیفیت در زمینه های ABCD خواهد بود * توسعه برنامه * داده های بزرگ و هوش تجاری * ابر * پایگاه داده ، پایگاه داده

Durga Viswanatha Raju Gadiraju Durga Viswanatha Raju Gadiraju

مشاور فناوری و Evangelist 13 سال تجربه در اجرای پروژه های پیچیده با استفاده از مجموعه گسترده ای از فناوری ها از جمله Big Data و Cloud. Iversity، llc - یک شرکت مستقر در ایالات متحده برای ارائه آموزش با کیفیت برای متخصصان فناوری اطلاعات و کارکنان و همچنین راه حل های مشاوره ای برای مشتریان سازمانی ، پیدا کردم. من هزاران نفر از متخصصان فناوری اطلاعات را در زمینه فن آوری های زیادی از جمله Big Data و Cloud آموزش داده ام. ایجاد حرفه ای فناوری اطلاعات برای افراد و ارائه خدمات با کیفیت به مشتریان از اهمیت بالاتری در سازمان ما برخوردار است. به عنوان یک استراتژی ورود ، ارائه آموزش با کیفیت در زمینه های ABCD خواهد بود * توسعه برنامه * داده های بزرگ و هوش تجاری * ابر * پایگاه داده ، پایگاه داده

Asasri Manthena Asasri Manthena

Asasri Manthena Asasri Manthena