دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

Apache Spark 3 برای مهندسی داده و تجزیه و تحلیل با پایتون [ویدئو]

Apache Spark 3 for Data Engineering and Analytics with Python [Video]

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: Apache Spark 3 یک موتور توزیع شده منبع باز برای پرس و جو و پردازش داده ها است. این دوره به شما درک دقیقی از PySpark و پشته آن ارائه می دهد. این دوره با دقت توسعه و طراحی شده است تا شما را در فرآیند تجزیه و تحلیل داده ها با استفاده از Python Spark راهنمایی کند. نویسنده از یک رویکرد تعاملی در توضیح مفاهیم کلیدی PySpark مانند معماری Spark، اجرای Spark، تبدیل ها و اقدامات با استفاده از API ساخت یافته و موارد دیگر استفاده می کند. شما قادر خواهید بود از قدرت پایتون، جاوا و SQL استفاده کنید و آن را در اکوسیستم Spark استفاده کنید. شما با درک دقیق معماری Apache Spark و نحوه راه اندازی یک محیط Python برای Spark شروع خواهید کرد. با ایجاد داشبورد در Databricks، تکنیک‌های جمع‌آوری، تمیز کردن و تجسم داده‌ها را دنبال می‌کنید. شما یاد خواهید گرفت که چگونه از SQL برای تعامل با DataFrames استفاده کنید. نویسنده بررسی عمیقی از RDD ها ارائه می دهد و آنها را با DataFrames مقایسه می کند. چالش های متعدد مشکلی در فواصل دوره ارائه می شود تا درک محکمی از مفاهیم تدریس شده در دوره داشته باشید. بسته کد این دوره در اینجا موجود است: https://github.com/PacktPublishing/Apache-Spark-3-for-Data-Engineering-and-Analytics-with-Python- Learn Spark معماری، تبدیل ها و اقدامات با استفاده از API ساختار یافته یاد بگیرید که محیط PySpark محلی خود را راه اندازی کنید یاد بگیرید که DAG (Directed Acyclic Graph) را برای اجرای Spark تفسیر کنید یاد بگیرید که Spark web UI را تفسیر کنید API RDD (Resilient Distributed Datasets) را یاد بگیرید آموزش تجسم (نمودار و داشبورد) داده ها در Databricks این دوره برای توسعه دهندگان پایتون طراحی شده است که مایلند نحوه استفاده از این زبان را برای مهندسی داده و تجزیه و تحلیل با PySpark بیاموزند. هر متخصص مشتاق مهندسی داده و تجزیه و تحلیل. دانشمندان/تحلیلگران داده که مایل به یادگیری یک استراتژی پردازش تحلیلی هستند که می تواند در یک خوشه داده بزرگ مستقر شود. مدیران داده که می خواهند درک عمیق تری از مدیریت داده ها در یک خوشه به دست آورند. از مفاهیم PySpark و SQL برای تجزیه و تحلیل داده ها استفاده کنید * رابط Databricks را درک کنید و از Spark در Databricks استفاده کنید * تغییرات و اقدامات Spark را با استفاده از API RDD (Resilient Distributed Datasets) یاد بگیرید.

سرفصل ها و درس ها

مقدمه ای بر Spark و نصب Introduction to Spark and Installation

معرفی Introduction
معماری جرقه The Spark Architecture
Spark Unified Stack The Spark Unified Stack
نصب جاوا Java Installation
نصب Hadoop Hadoop Installation
نصب پایتون Python Installation
نصب PySpark PySpark Installation
Microsoft Build Tools را نصب کنید Install Microsoft Build Tools
MacOS - نصب جاوا MacOS - Java Installation
MacOS - نصب پایتون MacOS - Python Installation
MacOS - نصب PySpark MacOS - PySpark Installation
MacOS - تست نصب Spark MacOS - Testing the Spark Installation
نوت بوک های Jupyter را نصب کنید Install Jupyter Notebooks
رابط کاربری Spark Web The Spark Web UI
خلاصه بخش Section Summary

مفاهیم اجرای جرقه Spark Execution Concepts

بخش مقدمه Section Introduction
برنامه و جلسه Spark Spark Application and Session
تبدیل جرقه و اقدامات قسمت 1 Spark Transformations and Actions Part 1
دگرگونی ها و اقدامات جرقه قسمت 2 Spark Transformations and Actions Part 2
تجسم DAG DAG Visualisation

دوره تصادف RDD RDD Crash Course

مقدمه ای بر RDD ها Introduction to RDDs
آماده سازی داده ها Data Preparation
تبدیل متمایز و فیلتر Distinct and Filter Transformations
تبدیل نقشه و نقشه مسطح Map and Flat Map Transformations
تبدیل SortByKey SortByKey Transformations
اقدامات RDD RDD Actions
چالش - تبدیل فارنهایت به درجه سانتیگراد Challenge - Convert Fahrenheit to Centigrade
چالش - تحقیقات XYZ Challenge - XYZ Research
چالش - بخش 1 تحقیق XYZ Challenge - XYZ Research Part 1
Challenge XYZ Research Part 2 Challenge XYZ Research Part 2

Structured API - Spark DataFrame Structured API - Spark DataFrame

Structured APIs معرفی Structured APIs Introduction
آماده سازی پوشه پروژه Preparing the Project Folder
PySpark DataFrame، Schema و DataTypes PySpark DataFrame, Schema, and DataTypes
DataFrame Reader و Writer DataFrame Reader and Writer
چالش قسمت 1 - مختصر Challenge Part 1 – Brief
چالش قسمت 1 - آماده سازی داده ها Challenge Part 1 - Data Preparation
کار با عملیات ساختاریافته Working with Structured Operations
مدیریت خطاهای عملکرد Managing Performance Errors
خواندن یک فایل JSON Reading a JSON File
ستون ها و عبارات Columns and Expressions
شرایط فیلتر و مکان Filter and Where Conditions
رها کردن متمایز تکراری ترتیب بر اساس Distinct Drop Duplicates Order By
ردیف و اتحاد Rows and Union
اضافه کردن، تغییر نام، و حذف ستون ها Adding, Renaming, and Dropping Columns
کار با داده های گم شده یا بد Working with Missing or Bad Data
کار با توابع تعریف شده توسط کاربر Working with User-Defined Functions
چالش قسمت 2 - مختصر Challenge Part 2 – Brief
چالش قسمت 2 - حذف ردیف پوچ و رکوردهای بد Challenge Part 2 - Remove Null Row and Bad Records
چالش قسمت 2 - شهر و ایالت را بدست آورید Challenge Part 2 - Get the City and State
چالش قسمت 2 - طرحواره را دوباره مرتب کنید Challenge Part 2 - Rearrange the Schema
چالش قسمت 2 - DataFrame پارتیشن بندی شده را در پارکت بنویسید Challenge Part 2 - Write Partitioned DataFrame to Parquet
تجمعات Aggregations
تجمعات - تنظیم داده های خلاصه پرواز Aggregations - Setting Up Flight Summary Data
تجمعات - تعداد و شمارش متمایز Aggregations - Count and Count Distinct
تجمعات - حداقل حداکثر مجموع SumDistinct AVG Aggregations - Min Max Sum SumDistinct AVG
تجمیع با گروه بندی Aggregations with Grouping
چالش قسمت 3 - مختصر Challenge Part 3 – Brief
چالش قسمت 3 - داده های 2019 را آماده کنید Challenge Part 3 - Prepare 2019 Data
چالش قسمت 3 - Q1 بهترین ماه فروش را دریافت کنید Challenge Part 3 - Q1 Get the Best Sales Month
چالش قسمت 3 - Q2 شهری که بیشترین محصولات را فروخته است را دریافت کنید Challenge Part 3 - Q2 Get the City that Sold the Most Products
چالش قسمت 3 - Q3 چه زمانی باید تبلیغ کرد Challenge Part 3 - Q3 When to Advertise
چالش قسمت 3 - محصولات Q4 با هم خریداری شده اند Challenge Part 3 - Q4 Products Bought Together

مقدمه ای بر Spark SQL و Databricks Introduction to Spark SQL and Databricks

مقدمه ای بر DataBricks Introduction to DataBricks
معرفی Spark SQL Spark SQL Introduction
ثبت حساب در Databricks Register Account on Databricks
یک خوشه Databricks ایجاد کنید Create a Databricks Cluster
ایجاد 2 اولین نوت بوک Databricks ما Creating our First 2 Databricks Notebooks
خواندن فایل‌های CSV در DataFrame Reading CSV Files into DataFrame
ایجاد پایگاه داده و جدول Creating a Database and Table
درج رکوردها در جدول Inserting Records into a Table
افشای سوابق بد Exposing Bad Records
کشف نحوه حذف سوابق بد Figuring out How to Remove Bad Records
شهر و ایالت را استخراج کنید Extract the City and State
درج رکوردها در جدول فروش نهایی Inserting Records to Final Sales Table
بهترین ماه در فروش چه بود؟ What was the Best Month in Sales?
شهری که بیشترین محصولات را فروخته است را دریافت کنید Get the City that Sold the Most Products
زمان مناسب برای تبلیغات را بدست آورید Get the Right Time to Advertise
بیشترین محصولات فروخته شده را با هم دریافت کنید Get the Most Products Sold Together
داشبورد ایجاد کنید Create a Dashboard
خلاصه Summary

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

Apache Spark 3 برای مهندسی داده و تجزیه و تحلیل با پایتون [ویدئو]

جزییات دوره

زمان دوره: 8 h 30 m

تعداد ویدیو ها: 80

شرکت: Packtpub

تاریخ انتشار مرجع: (آخرین آپدیت)

بازدید مرجع :

امتیاز مرجع: از 5

فایل تمرین: ندارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: David Mngadi

لینک کوتاه این دوره

https://donyad.com/d/892076

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

David Mngadi

دیوید منگادی یک حرفه ای مدیریت داده است که تحت تأثیر قدرت داده ها در زندگی ما قرار دارد و به چندین شرکت کمک کرده است تا برای به دست آوردن مزیت رقابتی و همچنین برآورده کردن الزامات قانونی، داده محورتر شوند. در 15 سال گذشته، او لذت طراحی و پیاده سازی راه حل های انبار داده در صنایع خرده فروشی، مخابراتی و بانکی و اخیراً در پیاده سازی های بیشتر دریاچه داده های بزرگ را داشته است. او علاقه زیادی به فناوری و آموزش برنامه نویسی آنلاین دارد.

Python Apache Spark Sitecore پایتون آپاچی اسپارک سایت‌کور Data Data Analysis داده ها تجزیه و تحلیل داده ها

Apache Spark 3 برای مهندسی داده و تجزیه و تحلیل با پایتون [ویدئو]

Apache Spark 3 for Data Engineering and Analytics with Python [Video]

مقدمه ای بر Spark و نصب Introduction to Spark and Installation

معرفی Introduction

معماری جرقه The Spark Architecture

Spark Unified Stack The Spark Unified Stack

نصب جاوا Java Installation

نصب Hadoop Hadoop Installation

نصب پایتون Python Installation

نصب PySpark PySpark Installation

Microsoft Build Tools را نصب کنید Install Microsoft Build Tools

MacOS - نصب جاوا MacOS - Java Installation

MacOS - نصب پایتون MacOS - Python Installation

MacOS - نصب PySpark MacOS - PySpark Installation

MacOS - تست نصب Spark MacOS - Testing the Spark Installation

نوت بوک های Jupyter را نصب کنید Install Jupyter Notebooks

رابط کاربری Spark Web The Spark Web UI

خلاصه بخش Section Summary

مفاهیم اجرای جرقه Spark Execution Concepts

بخش مقدمه Section Introduction

برنامه و جلسه Spark Spark Application and Session

تبدیل جرقه و اقدامات قسمت 1 Spark Transformations and Actions Part 1

دگرگونی ها و اقدامات جرقه قسمت 2 Spark Transformations and Actions Part 2

تجسم DAG DAG Visualisation

دوره تصادف RDD RDD Crash Course

مقدمه ای بر RDD ها Introduction to RDDs

آماده سازی داده ها Data Preparation

تبدیل متمایز و فیلتر Distinct and Filter Transformations

تبدیل نقشه و نقشه مسطح Map and Flat Map Transformations

تبدیل SortByKey SortByKey Transformations

اقدامات RDD RDD Actions

چالش - تبدیل فارنهایت به درجه سانتیگراد Challenge - Convert Fahrenheit to Centigrade

چالش - تحقیقات XYZ Challenge - XYZ Research

چالش - بخش 1 تحقیق XYZ Challenge - XYZ Research Part 1

Challenge XYZ Research Part 2 Challenge XYZ Research Part 2

Structured API - Spark DataFrame Structured API - Spark DataFrame

Structured APIs معرفی Structured APIs Introduction

آماده سازی پوشه پروژه Preparing the Project Folder

PySpark DataFrame، Schema و DataTypes PySpark DataFrame, Schema, and DataTypes

DataFrame Reader و Writer DataFrame Reader and Writer

چالش قسمت 1 - مختصر Challenge Part 1 – Brief

چالش قسمت 1 - آماده سازی داده ها Challenge Part 1 - Data Preparation

کار با عملیات ساختاریافته Working with Structured Operations

مدیریت خطاهای عملکرد Managing Performance Errors

خواندن یک فایل JSON Reading a JSON File

ستون ها و عبارات Columns and Expressions

شرایط فیلتر و مکان Filter and Where Conditions

رها کردن متمایز تکراری ترتیب بر اساس Distinct Drop Duplicates Order By

ردیف و اتحاد Rows and Union

اضافه کردن، تغییر نام، و حذف ستون ها Adding, Renaming, and Dropping Columns

کار با داده های گم شده یا بد Working with Missing or Bad Data

کار با توابع تعریف شده توسط کاربر Working with User-Defined Functions

چالش قسمت 2 - مختصر Challenge Part 2 – Brief

چالش قسمت 2 - حذف ردیف پوچ و رکوردهای بد Challenge Part 2 - Remove Null Row and Bad Records

چالش قسمت 2 - شهر و ایالت را بدست آورید Challenge Part 2 - Get the City and State

چالش قسمت 2 - طرحواره را دوباره مرتب کنید Challenge Part 2 - Rearrange the Schema

چالش قسمت 2 - DataFrame پارتیشن بندی شده را در پارکت بنویسید Challenge Part 2 - Write Partitioned DataFrame to Parquet

تجمعات Aggregations

تجمعات - تنظیم داده های خلاصه پرواز Aggregations - Setting Up Flight Summary Data

تجمعات - تعداد و شمارش متمایز Aggregations - Count and Count Distinct

تجمعات - حداقل حداکثر مجموع SumDistinct AVG Aggregations - Min Max Sum SumDistinct AVG

تجمیع با گروه بندی Aggregations with Grouping

چالش قسمت 3 - مختصر Challenge Part 3 – Brief

چالش قسمت 3 - داده های 2019 را آماده کنید Challenge Part 3 - Prepare 2019 Data

چالش قسمت 3 - Q1 بهترین ماه فروش را دریافت کنید Challenge Part 3 - Q1 Get the Best Sales Month

چالش قسمت 3 - Q2 شهری که بیشترین محصولات را فروخته است را دریافت کنید Challenge Part 3 - Q2 Get the City that Sold the Most Products

چالش قسمت 3 - Q3 چه زمانی باید تبلیغ کرد Challenge Part 3 - Q3 When to Advertise

چالش قسمت 3 - محصولات Q4 با هم خریداری شده اند Challenge Part 3 - Q4 Products Bought Together

مقدمه ای بر Spark SQL و Databricks Introduction to Spark SQL and Databricks

مقدمه ای بر DataBricks Introduction to DataBricks

معرفی Spark SQL Spark SQL Introduction

ثبت حساب در Databricks Register Account on Databricks

یک خوشه Databricks ایجاد کنید Create a Databricks Cluster

ایجاد 2 اولین نوت بوک Databricks ما Creating our First 2 Databricks Notebooks

خواندن فایل‌های CSV در DataFrame Reading CSV Files into DataFrame

ایجاد پایگاه داده و جدول Creating a Database and Table

درج رکوردها در جدول Inserting Records into a Table

افشای سوابق بد Exposing Bad Records

کشف نحوه حذف سوابق بد Figuring out How to Remove Bad Records

شهر و ایالت را استخراج کنید Extract the City and State