بهعنوان بخشی از این دوره آموزشی، شما تمام اصول مهندسی داده مربوط به ساخت خطوط لوله داده با استفاده از SQL، Python بهعنوان Hadoop، Hive، یا Spark SQL و همچنین PySpark Data Frame APIs را خواهید آموخت. همچنین چرخه عمر توسعه و استقرار برنامه های پایتون را با استفاده از Docker و همچنین PySpark در خوشه های چند گره درک خواهید کرد. همچنین دانش اولیه ای در مورد بررسی Spark Jobs با استفاده از Spark UI کسب خواهید کرد.
درباره مهندسی داده
مهندسی داده چیزی جز پردازش داده ها بسته به نیازهای پایین دست ما نیست. ما باید خطوط لوله مختلفی مانند خط لوله دسته ای، خط لوله جریان و غیره را به عنوان بخشی از مهندسی داده بسازیم. تمام نقش های مربوط به پردازش داده ها تحت مهندسی داده ادغام شده است. به طور متعارف، آنها به عنوان توسعه ETL، توسعه انبار داده و غیره شناخته می شوند.
در اینجا برخی از چالشهایی وجود دارد که یادگیرندگان برای یادگیری مهارتهای مهندسی دادههای کلیدی مانند Python، SQL، PySpark و غیره با آنها مواجه هستند.
داشتن یک محیط مناسب با همکاری Apache Hadoop، Apache Spark، Apache Hive و غیره.
محتوای با کیفیت خوب با پشتیبانی مناسب.
کارها و تمرینات کافی برای تمرین
این دوره برای رسیدگی به این چالشهای کلیدی برای حرفهایها در همه سطوح طراحی شده است تا مهارتهای مهندسی داده مورد نیاز (پایتون، SQL و Apache Spark) را کسب کنند.
تنظیم محیط برای یادگیری ملزومات مهندسی داده مانند SQL (با استفاده از Postgres)، Python و غیره.
برای تمرین SQL جداول مورد نیاز را در Postgres تنظیم کنید
نوشتن پرس و جوهای اولیه SQL با مثال های عملی با استفاده از WHERE، JOIN، GROUP BY، HAVING، ORDER BY، و غیره
پرسشهای SQL پیشرفته با مثالهای عملی مانند تجمعات تجمعی، رتبهبندی و غیره
سناریوهایی که عیبیابی و اشکالزدایی مربوط به پایگاههای داده را پوشش میدهند.
تنظیم عملکرد جستجوهای SQL
تمرینها و راهحلها برای پرسشهای SQL.
مبانی برنامه نویسی با استفاده از پایتون به عنوان زبان برنامه نویسی
مجموعه های پایتون برای مهندسی داده
پردازش داده یا مهندسی داده با استفاده از پانداها
2 پروژه Real Time Python با توضیحات (تبدیل فرمت فایل و بارگذار پایگاه داده)
سناریوهایی که عیب یابی و اشکال زدایی در برنامه های پایتون را پوشش می دهند
سناریوهای تنظیم عملکرد مربوط به برنامه های مهندسی داده با استفاده از پایتون
شروع به کار با Google Cloud Platform برای راه اندازی Spark Environment با استفاده از Databricks
نوشتن Queries Basic Spark SQL با مثال های عملی با استفاده از WHERE، JOIN، GROUP BY، HAVING، ORDER BY، و غیره
ایجاد جداول دلتا در Spark SQL همراه با عملیات CRUD مانند INSERT، UPDATE، DELETE، MERGE و غیره
پرسشهای پیشرفته Spark SQL با مثالهای عملی مانند رتبهبندی
ادغام Spark SQL و Pyspark
پوشش عمیق Apache Spark Catalyst Optimizer برای تنظیم عملکرد
خواندن توضیح طرحهای Spark SQL Queries یا Pyspark Data Frame API
پوشش عمیق فرمت های فایل ستونی و تنظیم عملکرد با استفاده از پارتیشن بندی
مشاور فناوری و Evangelist 13 سال تجربه در اجرای پروژه های پیچیده با استفاده از مجموعه گسترده ای از فناوری ها از جمله Big Data و Cloud. Iversity، llc - یک شرکت مستقر در ایالات متحده برای ارائه آموزش با کیفیت برای متخصصان فناوری اطلاعات و کارکنان و همچنین راه حل های مشاوره ای برای مشتریان سازمانی ، پیدا کردم. من هزاران نفر از متخصصان فناوری اطلاعات را در زمینه فن آوری های زیادی از جمله Big Data و Cloud آموزش داده ام. ایجاد حرفه ای فناوری اطلاعات برای افراد و ارائه خدمات با کیفیت به مشتریان از اهمیت بالاتری در سازمان ما برخوردار است. به عنوان یک استراتژی ورود ، ارائه آموزش با کیفیت در زمینه های ABCD خواهد بود * توسعه برنامه * داده های بزرگ و هوش تجاری * ابر * پایگاه داده ، پایگاه داده
Asasri Manthena
نمایش نظرات