به عنوان بخشی از این دوره، تمام مهارت های کلیدی برای ساخت خطوط لوله مهندسی داده با استفاده از Spark SQL و Spark Data Frame API با استفاده از Python به عنوان یک زبان برنامه نویسی را خواهید آموخت. این دوره قبلاً یک دوره CCA 175 Spark و Hadoop Developer برای آمادگی برای آزمون گواهینامه بود. از تاریخ 10/31/2021، امتحان غروب است و ما آن را با استفاده از Python 3 به Apache Spark 2 و Apache Spark 3 تغییر نام دادهایم زیرا موضوعات مرتبط با صنعت را فراتر از محدوده صدور گواهینامه پوشش میدهد.
درباره مهندسی داده
مهندسی داده چیزی جز پردازش داده ها بسته به نیازهای پایین دست ما نیست. ما باید خطوط لوله مختلفی مانند خط لوله دسته ای، خط لوله جریان و غیره را به عنوان بخشی از مهندسی داده بسازیم. تمام نقش های مربوط به پردازش داده ها تحت مهندسی داده ادغام شده است. به طور معمول، آنها به عنوان توسعه ETL، توسعه انبار داده و غیره شناخته می شوند. Apache Spark به عنوان یک فناوری پیشرو برای مراقبت از مهندسی داده در مقیاس تکامل یافته است.
من این دوره آموزشی را برای هر کسی که مایل است با استفاده از Pyspark (پایتون + اسپارک) به نقش مهندس داده تبدیل شود آماده کرده ام. من خودم یک معمار راه حل مهندسی داده با تجربه ثابت شده در طراحی راه حل ها با استفاده از Apache Spark هستم.
اجازه دهید جزئیات آنچه را که در این دوره یاد می گیرید بررسی کنیم. به خاطر داشته باشید که این دوره با بسیاری از کارهای عملی ایجاد شده است که به شما تمرین کافی را با استفاده از ابزارهای مناسب می دهد. همچنین، تعداد زیادی کار و تمرین برای ارزیابی خودتان وجود دارد. ما جزئیاتی در مورد منابع یا محیطها برای یادگیری Spark SQL و PySpark 3 با استفاده از Python 3 و همچنین Reference Material در GitHub برای تمرین Spark SQL و PySpark 3 با استفاده از Python 3 ارائه خواهیم کرد. به خاطر داشته باشید که میتوانید از کلاستر در محل کار خود استفاده کنید یا محیط را با استفاده از دستورالعمل های ارائه شده تنظیم کنید یا از آزمایشگاه ITVersity برای شرکت در این دوره استفاده کنید.
راه اندازی خوشه داده بزرگ تک گره
بسیاری از شما دوست دارید از فناوریهای مرسوم مانند Mainframes، Oracle PL/SQL و غیره به Big Data منتقل شوید و ممکن است به Big Data Cluster دسترسی نداشته باشید. برای شما بسیار مهم است که محیط را به شیوه ای درست تنظیم کنید. اگر خوشه را در دسترس ندارید نگران نباشید، ما شما را از طریق پشتیبانی از طریق Udemy Q A راهنمایی خواهیم کرد.
نمونه AWS Cloud9 مبتنی بر اوبونتو را با پیکربندی مناسب تنظیم کنید
اطمینان حاصل کنید که Docker راه اندازی شده است
آزمایشگاه Jupyter و سایر اجزای کلیدی را راه اندازی کنید
Hadoop، Hive، YARN و Spark را راه اندازی و اعتبارسنجی کنید
آیا در مورد تنظیم محیط کمی احساس ناراحتی می کنید؟ نگران نباش!!! ما دسترسی تکمیلی به آزمایشگاه را تا 2 ماه فراهم خواهیم کرد. در اینجا جزئیات است.
آموزش با استفاده از یک محیط تعاملی. برای شروع 2 هفته به آزمایشگاه دسترسی خواهید داشت. اگر محیط را دوست دارید و با ارائه امتیاز و بازخورد 5* آن را تأیید می کنید، دسترسی به آزمایشگاه تا 6 هفته (2 ماه) دیگر تمدید خواهد شد. برای دسترسی به آزمایشگاه تکمیلی، می توانید یک ایمیل به support@itversity.com ارسال کنید. همچنین، اگر کارفرمای شما یک محیط چند گره ای را فراهم کند، ما به شما کمک می کنیم تا مطالب را برای تمرین به عنوان بخشی از جلسه زنده تنظیم کنید. علاوه بر پشتیبانی Q A، ما همچنین پشتیبانی لازم را از طریق جلسات زنده ارائه می دهیم.
خلاصه ای سریع از پایتون
این دوره به دانش کافی در مورد پایتون نیاز دارد. برای اطمینان از اینکه Spark را از منظر مهندسی داده درک می کنید، ماژولی را برای گرم کردن سریع با پایتون اضافه کردیم. اگر با Python آشنایی ندارید، پیشنهاد می کنیم دوره دیگر ما را در مورد نیازهای مهندسی داده - Python، SQL، و Spark مرور کنید.
استاد برای ساخت برنامه های مهندسی داده به مهارت های Hadoop نیاز دارد
به عنوان بخشی از این بخش، شما در درجه اول بر روی دستورات HDFS تمرکز خواهید کرد تا بتوانیم فایل ها را در HDFS کپی کنیم. داده های کپی شده در HDFS به عنوان بخشی از ساخت خطوط لوله مهندسی داده با استفاده از Spark و Hadoop با Python به عنوان زبان برنامه نویسی استفاده می شود.
نمای کلی از دستورات HDFS
کپی کردن فایل ها در HDFS با استفاده از دستور put یا copyFromLocal با استفاده از دستورات HDFS مناسب
با استفاده از دستورات HDFS بررسی کنید که آیا فایل ها به درستی در HDFS کپی شده اند یا نه.
اندازه فایل ها را با استفاده از دستورات HDFS مانند du، df و غیره دریافت کنید.
برخی مفاهیم اساسی مرتبط با HDFS مانند اندازه بلوک، ضریب تکرار و غیره.
مهندسی داده با استفاده از Spark SQL
اجازه دهید به Spark SQL عمیق بپردازیم تا بفهمیم چگونه می توان از آن برای ساخت خطوط لوله مهندسی داده استفاده کرد. Spark with SQL این توانایی را در اختیار ما قرار می دهد که از قابلیت های محاسباتی توزیع شده Spark همراه با نحوی به سبک SQL که استفاده آسان برای توسعه دهندگان است، استفاده کنیم.
شروع به کار با Spark SQL
تبدیلهای اساسی با استفاده از Spark SQL
مدیریت جداول - DDL و DML اساسی در Spark SQL
مدیریت جداول - DML و ایجاد جداول پارتیشن بندی شده با استفاده از Spark SQL
نمای کلی از توابع Spark SQL برای دستکاری رشته ها، تاریخ ها، مقادیر تهی و غیره
توابع پنجره با استفاده از Spark SQL برای رتبهبندی، تجمیعهای پیشرفته و غیره.
مهندسی داده با استفاده از Spark Data Frame API
APIهای Spark Data Frame روشی جایگزین برای ساخت برنامههای مهندسی داده در مقیاس با استفاده از قابلیتهای محاسباتی توزیعشده Apache Spark هستند. مهندسان داده از پیشینه توسعه برنامه ممکن است APIهای Data Frame را به Spark SQL برای ساخت برنامه های مهندسی داده ترجیح دهند.
نمای کلی پردازش داده با استفاده از Spark یا Pyspark Data Frame API.
طراحی یا انتخاب دادهها از Spark Data Frames، تغییر نام ستونها، ارائه نام مستعار، حذف ستونها از Data Frame و غیره با استفاده از Pyspark Data Frame API.
پردازش داده های ستون با استفاده از Spark یا Pyspark Data Frame API - شما در حال یادگیری توابع برای دستکاری رشته ها، تاریخ ها، مقادیر تهی و غیره خواهید بود.
تبدیلهای اساسی در فریمهای داده Spark با استفاده از APIهای Pyspark Data Frame مانند Filtering، Aggregations، و مرتبسازی با استفاده از توابعی مانند filter/where، groupBy با agg، sort یا orderBy و غیره.
پیوستن به مجموعه داده ها در Spark Data Frames با استفاده از Pyspark Data Frame API مانند join. اتصالات داخلی، اتصالات بیرونی و غیره را با استفاده از مثال های مناسب یاد خواهید گرفت.
پنجرهسازی توابع در فریمهای داده Spark با استفاده از APIهای Pyspark Data Frame برای انجام تجمیعها، رتبهبندی و توابع تحلیلی پیشرفته
پایگاههای داده و جداول Spark Metastore و ادغام بین Spark SQL و APIهای Data Frame
چرخه عمر توسعه و استقرار برنامه Apache Spark
هنگامی که محتوای مربوط به Spark را با استفاده از یک محیط مبتنی بر Jupyter مرور کردید، همچنین جزئیات مربوط به نحوه توسعه برنامههای Spark را معمولاً با استفاده از Python، مستقر و بازبینی میکنیم.
تنظیم محیط مجازی پایتون و پروژه برای توسعه برنامه Spark با استفاده از Pycharm
با استفاده از Pycharm و Python چرخه کامل توسعه برنامه Spark را درک کنید
فایل فشرده را برای Spark Application بسازید، در محیطی که قرار است اجرا شود و اجرا شود کپی کنید.
با نحوه بررسی چرخه عمر اجرای برنامه Spark آشنا شوید.
همه نسخههای نمایشی در کلاستر Big Data پیشرفته ما ارائه میشوند. با دریافت رسید Udemy میتوانید از دسترسی رایگان یک ماهه به آزمایشگاه با تماس با support@itversity.com استفاده کنید.
مشاور فناوری و Evangelist 13 سال تجربه در اجرای پروژه های پیچیده با استفاده از مجموعه گسترده ای از فناوری ها از جمله Big Data و Cloud. Iversity، llc - یک شرکت مستقر در ایالات متحده برای ارائه آموزش با کیفیت برای متخصصان فناوری اطلاعات و کارکنان و همچنین راه حل های مشاوره ای برای مشتریان سازمانی ، پیدا کردم. من هزاران نفر از متخصصان فناوری اطلاعات را در زمینه فن آوری های زیادی از جمله Big Data و Cloud آموزش داده ام. ایجاد حرفه ای فناوری اطلاعات برای افراد و ارائه خدمات با کیفیت به مشتریان از اهمیت بالاتری در سازمان ما برخوردار است. به عنوان یک استراتژی ورود ، ارائه آموزش با کیفیت در زمینه های ABCD خواهد بود * توسعه برنامه * داده های بزرگ و هوش تجاری * ابر * پایگاه داده ، پایگاه داده
Durga Viswanatha Raju Gadirajuمشاور فناوری و Evangelist 13 سال تجربه در اجرای پروژه های پیچیده با استفاده از مجموعه گسترده ای از فناوری ها از جمله Big Data و Cloud. Iversity، llc - یک شرکت مستقر در ایالات متحده برای ارائه آموزش با کیفیت برای متخصصان فناوری اطلاعات و کارکنان و همچنین راه حل های مشاوره ای برای مشتریان سازمانی ، پیدا کردم. من هزاران نفر از متخصصان فناوری اطلاعات را در زمینه فن آوری های زیادی از جمله Big Data و Cloud آموزش داده ام. ایجاد حرفه ای فناوری اطلاعات برای افراد و ارائه خدمات با کیفیت به مشتریان از اهمیت بالاتری در سازمان ما برخوردار است. به عنوان یک استراتژی ورود ، ارائه آموزش با کیفیت در زمینه های ABCD خواهد بود * توسعه برنامه * داده های بزرگ و هوش تجاری * ابر * پایگاه داده ، پایگاه داده
Asasri ManthenaAsasri Manthena
نمایش نظرات