Apache Spark 3 برای مهندسی داده و تجزیه و تحلیل با پایتون [ویدئو]

Apache Spark 3 for Data Engineering and Analytics with Python [Video]

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: Apache Spark 3 یک موتور توزیع شده منبع باز برای پرس و جو و پردازش داده ها است. این دوره به شما درک دقیقی از PySpark و پشته آن ارائه می دهد. این دوره با دقت توسعه و طراحی شده است تا شما را در فرآیند تجزیه و تحلیل داده ها با استفاده از Python Spark راهنمایی کند. نویسنده از یک رویکرد تعاملی در توضیح مفاهیم کلیدی PySpark مانند معماری Spark، اجرای Spark، تبدیل ها و اقدامات با استفاده از API ساخت یافته و موارد دیگر استفاده می کند. شما قادر خواهید بود از قدرت پایتون، جاوا و SQL استفاده کنید و آن را در اکوسیستم Spark استفاده کنید. شما با درک دقیق معماری Apache Spark و نحوه راه اندازی یک محیط Python برای Spark شروع خواهید کرد. با ایجاد داشبورد در Databricks، تکنیک‌های جمع‌آوری، تمیز کردن و تجسم داده‌ها را دنبال می‌کنید. شما یاد خواهید گرفت که چگونه از SQL برای تعامل با DataFrames استفاده کنید. نویسنده بررسی عمیقی از RDD ها ارائه می دهد و آنها را با DataFrames مقایسه می کند. چالش های متعدد مشکلی در فواصل دوره ارائه می شود تا درک محکمی از مفاهیم تدریس شده در دوره داشته باشید. بسته کد این دوره در اینجا موجود است: https://github.com/PacktPublishing/Apache-Spark-3-for-Data-Engineering-and-Analytics-with-Python- Learn Spark معماری، تبدیل ها و اقدامات با استفاده از API ساختار یافته یاد بگیرید که محیط PySpark محلی خود را راه اندازی کنید یاد بگیرید که DAG (Directed Acyclic Graph) را برای اجرای Spark تفسیر کنید یاد بگیرید که Spark web UI را تفسیر کنید API RDD (Resilient Distributed Datasets) را یاد بگیرید آموزش تجسم (نمودار و داشبورد) داده ها در Databricks این دوره برای توسعه دهندگان پایتون طراحی شده است که مایلند نحوه استفاده از این زبان را برای مهندسی داده و تجزیه و تحلیل با PySpark بیاموزند. هر متخصص مشتاق مهندسی داده و تجزیه و تحلیل. دانشمندان/تحلیلگران داده که مایل به یادگیری یک استراتژی پردازش تحلیلی هستند که می تواند در یک خوشه داده بزرگ مستقر شود. مدیران داده که می خواهند درک عمیق تری از مدیریت داده ها در یک خوشه به دست آورند. از مفاهیم PySpark و SQL برای تجزیه و تحلیل داده ها استفاده کنید * رابط Databricks را درک کنید و از Spark در Databricks استفاده کنید * تغییرات و اقدامات Spark را با استفاده از API RDD (Resilient Distributed Datasets) یاد بگیرید.

سرفصل ها و درس ها

مقدمه ای بر Spark و نصب Introduction to Spark and Installation

  • معرفی Introduction

  • معماری جرقه The Spark Architecture

  • Spark Unified Stack The Spark Unified Stack

  • نصب جاوا Java Installation

  • نصب Hadoop Hadoop Installation

  • نصب پایتون Python Installation

  • نصب PySpark PySpark Installation

  • Microsoft Build Tools را نصب کنید Install Microsoft Build Tools

  • MacOS - نصب جاوا MacOS - Java Installation

  • MacOS - نصب پایتون MacOS - Python Installation

  • MacOS - نصب PySpark MacOS - PySpark Installation

  • MacOS - تست نصب Spark MacOS - Testing the Spark Installation

  • نوت بوک های Jupyter را نصب کنید Install Jupyter Notebooks

  • رابط کاربری Spark Web The Spark Web UI

  • خلاصه بخش Section Summary

مفاهیم اجرای جرقه Spark Execution Concepts

  • بخش مقدمه Section Introduction

  • برنامه و جلسه Spark Spark Application and Session

  • تبدیل جرقه و اقدامات قسمت 1 Spark Transformations and Actions Part 1

  • دگرگونی ها و اقدامات جرقه قسمت 2 Spark Transformations and Actions Part 2

  • تجسم DAG DAG Visualisation

دوره تصادف RDD RDD Crash Course

  • مقدمه ای بر RDD ها Introduction to RDDs

  • آماده سازی داده ها Data Preparation

  • تبدیل متمایز و فیلتر Distinct and Filter Transformations

  • تبدیل نقشه و نقشه مسطح Map and Flat Map Transformations

  • تبدیل SortByKey SortByKey Transformations

  • اقدامات RDD RDD Actions

  • چالش - تبدیل فارنهایت به درجه سانتیگراد Challenge - Convert Fahrenheit to Centigrade

  • چالش - تحقیقات XYZ Challenge - XYZ Research

  • چالش - بخش 1 تحقیق XYZ Challenge - XYZ Research Part 1

  • Challenge XYZ Research Part 2 Challenge XYZ Research Part 2

Structured API - Spark DataFrame Structured API - Spark DataFrame

  • Structured APIs معرفی Structured APIs Introduction

  • آماده سازی پوشه پروژه Preparing the Project Folder

  • PySpark DataFrame، Schema و DataTypes PySpark DataFrame, Schema, and DataTypes

  • DataFrame Reader و Writer DataFrame Reader and Writer

  • چالش قسمت 1 - مختصر Challenge Part 1 – Brief

  • چالش قسمت 1 - آماده سازی داده ها Challenge Part 1 - Data Preparation

  • کار با عملیات ساختاریافته Working with Structured Operations

  • مدیریت خطاهای عملکرد Managing Performance Errors

  • خواندن یک فایل JSON Reading a JSON File

  • ستون ها و عبارات Columns and Expressions

  • شرایط فیلتر و مکان Filter and Where Conditions

  • رها کردن متمایز تکراری ترتیب بر اساس Distinct Drop Duplicates Order By

  • ردیف و اتحاد Rows and Union

  • اضافه کردن، تغییر نام، و حذف ستون ها Adding, Renaming, and Dropping Columns

  • کار با داده های گم شده یا بد Working with Missing or Bad Data

  • کار با توابع تعریف شده توسط کاربر Working with User-Defined Functions

  • چالش قسمت 2 - مختصر Challenge Part 2 – Brief

  • چالش قسمت 2 - حذف ردیف پوچ و رکوردهای بد Challenge Part 2 - Remove Null Row and Bad Records

  • چالش قسمت 2 - شهر و ایالت را بدست آورید Challenge Part 2 - Get the City and State

  • چالش قسمت 2 - طرحواره را دوباره مرتب کنید Challenge Part 2 - Rearrange the Schema

  • چالش قسمت 2 - DataFrame پارتیشن بندی شده را در پارکت بنویسید Challenge Part 2 - Write Partitioned DataFrame to Parquet

  • تجمعات Aggregations

  • تجمعات - تنظیم داده های خلاصه پرواز Aggregations - Setting Up Flight Summary Data

  • تجمعات - تعداد و شمارش متمایز Aggregations - Count and Count Distinct

  • تجمعات - حداقل حداکثر مجموع SumDistinct AVG Aggregations - Min Max Sum SumDistinct AVG

  • تجمیع با گروه بندی Aggregations with Grouping

  • چالش قسمت 3 - مختصر Challenge Part 3 – Brief

  • چالش قسمت 3 - داده های 2019 را آماده کنید Challenge Part 3 - Prepare 2019 Data

  • چالش قسمت 3 - Q1 بهترین ماه فروش را دریافت کنید Challenge Part 3 - Q1 Get the Best Sales Month

  • چالش قسمت 3 - Q2 شهری که بیشترین محصولات را فروخته است را دریافت کنید Challenge Part 3 - Q2 Get the City that Sold the Most Products

  • چالش قسمت 3 - Q3 چه زمانی باید تبلیغ کرد Challenge Part 3 - Q3 When to Advertise

  • چالش قسمت 3 - محصولات Q4 با هم خریداری شده اند Challenge Part 3 - Q4 Products Bought Together

مقدمه ای بر Spark SQL و Databricks Introduction to Spark SQL and Databricks

  • مقدمه ای بر DataBricks Introduction to DataBricks

  • معرفی Spark SQL Spark SQL Introduction

  • ثبت حساب در Databricks Register Account on Databricks

  • یک خوشه Databricks ایجاد کنید Create a Databricks Cluster

  • ایجاد 2 اولین نوت بوک Databricks ما Creating our First 2 Databricks Notebooks

  • خواندن فایل‌های CSV در DataFrame Reading CSV Files into DataFrame

  • ایجاد پایگاه داده و جدول Creating a Database and Table

  • درج رکوردها در جدول Inserting Records into a Table

  • افشای سوابق بد Exposing Bad Records

  • کشف نحوه حذف سوابق بد Figuring out How to Remove Bad Records

  • شهر و ایالت را استخراج کنید Extract the City and State

  • درج رکوردها در جدول فروش نهایی Inserting Records to Final Sales Table

  • بهترین ماه در فروش چه بود؟ What was the Best Month in Sales?

  • شهری که بیشترین محصولات را فروخته است را دریافت کنید Get the City that Sold the Most Products

  • زمان مناسب برای تبلیغات را بدست آورید Get the Right Time to Advertise

  • بیشترین محصولات فروخته شده را با هم دریافت کنید Get the Most Products Sold Together

  • داشبورد ایجاد کنید Create a Dashboard

  • خلاصه Summary

نمایش نظرات

Apache Spark 3 برای مهندسی داده و تجزیه و تحلیل با پایتون [ویدئو]
جزییات دوره
8 h 30 m
80
Packtpub Packtpub
(آخرین آپدیت)
از 5
ندارد
دارد
دارد
David Mngadi
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

David Mngadi David Mngadi

دیوید منگادی یک حرفه ای مدیریت داده است که تحت تأثیر قدرت داده ها در زندگی ما قرار دارد و به چندین شرکت کمک کرده است تا برای به دست آوردن مزیت رقابتی و همچنین برآورده کردن الزامات قانونی، داده محورتر شوند. در 15 سال گذشته، او لذت طراحی و پیاده سازی راه حل های انبار داده در صنایع خرده فروشی، مخابراتی و بانکی و اخیراً در پیاده سازی های بیشتر دریاچه داده های بزرگ را داشته است. او علاقه زیادی به فناوری و آموزش برنامه نویسی آنلاین دارد.