آموزش مقدمه ای بر Spark SQL و DataFrames

Introduction to Spark SQL and DataFrames

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: DataFrames ، ساختار داده ای که به طور گسترده در Apache Spark استفاده می شود را کاوش کنید. DataFrames به توسعه دهندگان Spark این امکان را می دهد تا عملیات داده های رایج مانند فیلتر کردن و تجمیع و همچنین تجزیه و تحلیل داده های پیشرفته روی مجموعه های بزرگ داده های توزیع شده را انجام دهند. با افزودن Spark SQL ، توسعه دهندگان به یک زبان پرسشی حتی محبوب تر و قدرتمندتر از API داخلی DataFrames دسترسی دارند. در این دوره ، مربی Dan Sullivan نحوه انجام عملیات اساسی - بارگیری ، فیلتر کردن و تجمیع داده ها در DataFrames - با API و SQL و همچنین تکنیک های پیشرفته تری را که به راحتی در SQL انجام می شوند ، نشان می دهد. در این بخش از دوره ، Dan نحوه پیوستن به داده ها ، حذف موارد تکراری و مقابله با مقادیر پوچ یا NA را توضیح می دهد. این درس با سه مثال عمیق استفاده از DataFrames برای علم داده به پایان می رسد: تجزیه و تحلیل داده های اکتشافی ، تجزیه و تحلیل سری زمانی و یادگیری ماشین.
موضوعات شامل:
  • نصب Spark و PySpark
  • راه اندازی یک دفترچه یادداشت مشتری
  • بارگذاری داده ها در DataFrames
  • فیلتر کردن ، تجمیع و ذخیره داده ها
  • پرس و جو و اصلاح DataFrames با SQL
  • تجزیه و تحلیل داده های اکتشافی
  • یادگیری ماشین پایه

سرفصل ها و درس ها

مقدمه Introduction

  • Apache Spark SQL و تجزیه و تحلیل داده ها Apache Spark SQL and data analysis

  • آنچه باید بدانید What you should know

1. آشنایی با Spark DataFrames 1. Introduction to Spark DataFrames

  • آشنایی با DataFrames Introduction to DataFrames

  • SQL برای DataFrames SQL for DataFrames

2. نصب جرقه 2. Installing Spark

  • جرقه را نصب کنید Install Spark

  • PySpark را نصب کنید Install PySpark

  • استفاده از نوت بوک های Jupyter با PySpark Using Jupyter notebooks with PySpark

3. شروع به کار با Spark DataFrames 3. Getting Started with Spark DataFrames

  • یک نوت بوک Jupyter تنظیم کنید Set up a Jupyter notebook

  • بارگذاری داده ها به DataFrames: پرونده های CSV Load data into DataFrames: CSV Files

  • بارگذاری داده ها به DataFrames: JSON Files Load data into DataFrames: JSON Files

  • عملیات اولیه DataFrame Basic DataFrame operations

  • داده ها را با API DataFrame فیلتر کنید Filter data with DataFrame API

  • جمع آوری داده ها با DataFrame API Aggregate data with DataFrame API

  • نمونه داده ها از DataFrames Sample data from DataFrames

  • ذخیره داده ها از DataFrames Save data from DataFrames

4. SQL برای DataFrames 4. SQL for DataFrames

  • پرس و جو کردن DataFrames با SQL Querying DataFrames with SQL

  • فیلتر کردن DataFrames با SQL Filtering DataFrames with SQL

  • جمع آوری داده ها با SQL Aggregating Data with SQL

  • پیوستن به DataFrames با SQL Joining DataFrames with SQL

  • از بین بردن نسخه های تکراری در DataFrames Eliminating duplicates in DataFrames

  • کار با مقادیر NA در DataFrames Working with NA values in DataFrames

5. تجزیه و تحلیل داده ها با جرقه 5. Data Analysis with Spark

  • تجزیه و تحلیل داده های اکتشافی با DataFrames Exploratory data analysis with DataFrames

  • تجزیه و تحلیل داده های اکتشافی با Spark SQL Exploratory data analysis with Spark SQL

  • تجزیه و تحلیل سری زمانی با داده های فریم Timeseries analysis with DataFrames

  • یادگیری ماشین پایه با DataFrames ، قسمت 1 Basic machine learning with DataFrames, part 1

  • یادگیری ماشین پایه با DataFrames ، قسمت 2 Basic machine learning with DataFrames, part 2

نتیجه Conclusion

  • مراحل بعدی Next steps

نمایش نظرات

آموزش مقدمه ای بر Spark SQL و DataFrames
جزییات دوره
1h 53m
27
Linkedin (لینکدین) Linkedin (لینکدین)
(آخرین آپدیت)
9,644
- از 5
ندارد
دارد
دارد
Dan Sullivan
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Dan Sullivan Dan Sullivan

معمار سازمانی ، کارشناس بزرگ داده دان سالیوان ، دکترای علوم ، یک معمار سازمانی و متخصص داده های بزرگ است.

دان متخصص در معماری داده ، تجزیه و تحلیل ، داده کاوی ، آمار ، مدل سازی داده ها ، داده های بزرگ و رایانش ابری است. علاوه بر این ، او دارای دکترای ژنتیک ، بیوانفورماتیک و زیست محاسباتی است. Dan به طور منظم با Spark ، Oracle ، NoSQL ، MongoDB ، Redis ، R و Python کار می کند. وی تجربه نوشتن گسترده ای در موضوعاتی از جمله رایانش ابری ، داده های بزرگ ، Hadoop و امنیت دارد.