آموزش تجزیه و تحلیل داده های بزرگ با Hadoop و Apache Spark

Big Data Analytics with Hadoop and Apache Spark

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: Apache Hadoop در دنیای فناوری های کلان داده پیشگام بود و همچنان در ذخیره سازی داده های بزرگ سازمانی پیشرو است. Apache Spark برترین موتور پردازش داده های بزرگ است و مجموعه ای چشمگیر از ویژگی ها و قابلیت ها را فراهم می کند. هنگامی که با هم استفاده می شود ، سیستم پرونده توزیع شده Hadoop (HDFS) و Spark می توانند یک تنظیم تجزیه و تحلیل داده های بزرگ واقعاً مقیاس پذیر را ارائه دهند. در این دوره ، یاد بگیرید چگونه از این دو فناوری برای ساخت خطوط لوله تجزیه و تحلیل مقیاس پذیر و بهینه استفاده کنید. مربی Kumaran Ponnambalam روش هایی را برای بهینه سازی مدل سازی و ذخیره سازی داده ها در HDFS بررسی می کند. در مورد مصرف و استخراج داده های مقیاس پذیر با استفاده از Spark بحث می کند. و نکاتی را برای بهینه سازی پردازش داده ها در Spark ارائه می دهد. به علاوه ، او یک پروژه مورد استفاده را فراهم می کند که به شما امکان می دهد تکنیک های جدید خود را تمرین کنید.
موضوعات شامل:
  • توضیح دهید که Apache Spark داده های خود را در کجا ذخیره می کند.
  • بین انواع داده ها برای کار تفاوت قائل شوید.
  • نحوه استفاده از سطل برای پارتیشن بندی داده ها را توضیح دهید.
  • هنگام خواندن پرونده های HDFS با طرح ، برنامه اجرا را تجزیه و تحلیل کنید.
  • تعیین زمان و چگونگی اعمال بهترین روشها برای پردازش داده ها.
  • از ابزارها و تکنیک های مختلف برای ساختن راه حل با استفاده از Apache Spark و Hadoop استفاده کنید.

سرفصل ها و درس ها

مقدمه Introduction

  • قدرت ترکیبی از سیستم فایلهای توزیع شده Spark و Hadoop (HDFS) The combined power of Spark and Hadoop Distributed File System (HDFS)

1. معرفی و راه اندازی 1. Introduction and Setup

  • نمای کلی Apache Hadoop Apache Hadoop overview

  • بررسی اجمالی Apache Spark Apache Spark overview

  • ادغام Hadoop و Spark Integrating Hadoop and Spark

  • تنظیم محیط Setting up the environment

  • با استفاده از فایل های تمرینی Using exercise files

2. مدل سازی داده های HDFS برای تجزیه و تحلیل 2. HDFS Data Modeling for Analytics

  • قالب های ذخیره سازی Storage formats

  • فشرده سازی Compression

  • پارتیشن بندی Partitioning

  • سطل Bucketing

  • بهترین روش ها برای ذخیره داده ها Best practices for data storage

3. مصرف داده با جرقه 3. Data Ingestion with Spark

  • خواندن پرونده های خارجی در Spark Reading external files into Spark

  • نوشتن به HDFS Writing to HDFS

  • موازی با پارتیشن بندی می نویسد Parallel writes with partitioning

  • موازی با سطل می نویسد Parallel writes with bucketing

  • بهترین روشها برای خوردن Best practices for ingestion

4- استخراج داده با جرقه 4. Data Extraction with Spark

  • جرقه چگونه کار می کند How Spark works

  • خواندن پرونده های HDFS با طرحواره Reading HDFS files with schema

  • خواندن داده های تقسیم شده Reading partitioned data

  • خواندن داده های سطل Reading bucketed data

  • بهترین روشها برای استخراج داده ها Best practices for data extraction

5- بهینه سازی پردازش جرقه 5. Optimizing Spark Processing

  • پایین آوردن پیش بینی Pushing down projections

  • فشار پایین فیلترها Pushing down filters

  • مدیریت پارتیشن ها Managing partitions

  • مدیریت تغییر کاربری Managing shuffling

  • بهبود می پیوندد Improving joins

  • ذخیره نتایج متوسط Storing intermediate results

  • بهترین روشها برای پردازش داده ها Best practices for data processing

6. از Project Case استفاده کنید 6. Use Case Project

  • تعریف مسئله Problem definition

  • بارگیری داده Data loading

  • تجزیه و تحلیل نمره کل Total score analytics

  • تجزیه و تحلیل نمره متوسط Average score analytics

  • تحلیلی برتر دانشجویی Top student analytics

نتیجه Conclusion

  • مراحل بعدی Next steps

نمایش نظرات

آموزش تجزیه و تحلیل داده های بزرگ با Hadoop و Apache Spark
جزییات دوره
1h 1m
34
Linkedin (لینکدین) Linkedin (لینکدین)
(آخرین آپدیت)
2,091
- از 5
ندارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Kumaran Ponnambalam Kumaran Ponnambalam

اختصاص به آموزش علوم داده

V2 Maestros به آموزش علوم داده و داده های بزرگ با هزینه های مقرون به صرفه برای جهان اختصاص دارد. مربیان ما تجربه دنیای واقعی در تمرین علم داده و ارائه نتایج تجاری دارند. علم داده یک حوزه داغ و در حال رخ دادن در صنعت فناوری اطلاعات است. متأسفانه منابع موجود برای یادگیری این مهارت به سختی یافت می شود و گران است. امیدواریم این مشکل را با ارائه آموزش باکیفیت با نرخ های مقرون به صرفه، با ایجاد استعدادهای علم داده در سراسر جهان، کاهش دهیم.