آموزش پروژه پای‌اسپارک: پیاده‌سازی بلادرنگ صفر تا صد - آخرین آپدیت

دانلود PySpark Project- End to End Real Time Project Implementation

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:

آیا مشتاق هستید که پروژه پای‌اسپارک (PySpark) بلادرنگ (Real-Time) را عملاً پیاده‌سازی کنید؟ با این دوره، فریم‌ورک کدنویسی اسپارک (Spark) را به طور کامل بیاموزید و خود را به یک توسعه‌دهنده ماهر پای‌اسپارک (Experienced PySpark Developer) تبدیل کنید.

درباره این پروژه پای‌اسپارک بلادرنگ

این دوره بر پیاده‌سازی کامل و جامع (End-to-End) یک پروژه پای‌اسپارک (PySpark) بلادرنگ (Real-Time) تمرکز دارد.

در این پروژه‌ها از جدیدترین فناوری‌ها و ابزارهای مهندسی داده استفاده شده است، از جمله: اسپارک (Spark)، پایتون (Python)، پای‌چرم (PyCharm)، HDFS، YARN، گوگل کلود (Google Cloud)، AWS، Azure، Hive و PostgreSQL.

یک فریم‌ورک کدنویسی پای‌اسپارک (PySpark) را فرا بگیرید و نحوه ساختاربندی کد را بر اساس بهترین روش‌های استاندارد صنعتی و عملی بیاموزید.

نصب یک کلاستر تک‌گره (Single Node Cluster) در گوگل کلود (Google Cloud) و یکپارچه‌سازی آن با اسپارک (Spark).

نصب اسپارک (Spark) به صورت مستقل (Standalone) در سیستم‌عامل ویندوز.

یکپارچه‌سازی اسپارک (Spark) با محیط توسعه PyCharm.

شامل یک دوره جامع HDFS.

شامل یک دوره فشرده پایتون (Python Crash Course).

درک مدل کسب‌وکار و جریان یک پروژه واقعی بهداشت و درمان (Healthcare Project) در ایالات متحده.

ایجاد یک خط لوله داده (Data Pipeline) کامل: از جذب داده (Data Ingestion)، پیش‌پردازش داده (Data Preprocessing)، تبدیل داده (Data Transformation)، ذخیره‌سازی داده (Data Storage)، پایداری داده (Data Persistence) تا انتقال داده (Data Transfer).

یادگیری نحوه افزودن پیکربندی لاگ‌گیری (Logging) قوی و کارآمد در پروژه پای‌اسپارک (PySpark).

یادگیری نحوه افزودن مکانیزم مدیریت خطا (Error Handling) پیشرفته در پروژه پای‌اسپارک (PySpark).

یادگیری نحوه انتقال و مدیریت فایل‌ها در AWS S3 و Azure Blobs.

یادگیری نحوه پایداری داده‌ها (Data Persistence) در Hive و PostgreSQL برای استفاده‌های آتی و ممیزی (به زودی اضافه خواهد شد).

پیش‌نیازها:

دانش مقدماتی پای‌اسپارک (PySpark): توصیه می‌شود برای به‌روزرسانی دانش خود، دوره "دوره کامل توسعه‌دهنده PySpark" ما را مرور کنید.

دانش مقدماتی HDFS: (یک دوره جامع HDFS به طور کامل در این آموزش گنجانده شده است)

دانش مقدماتی پایتون (Python): (یک دوره فشرده پایتون (Python Crash Course) در این آموزش گنجانده شده است)

  • پیاده‌سازی جامع و کامل پروژه پای‌اسپارک (PySpark) بلادرنگ (End-to-End Real-Time Project Implementation).

  • استفاده از جدیدترین فناوری‌ها شامل اسپارک (Spark)، پایتون (Python)، پای‌چرم (PyCharm)، HDFS، YARN، گوگل کلود (Google Cloud)، AWS، Azure، Hive و PostgreSQL در پروژه‌ها.

  • یادگیری فریم‌ورک کدنویسی پای‌اسپارک (PySpark) و نحوه ساختاربندی کد بر اساس بهترین روش‌های استاندارد صنعتی.

  • نصب کلاستر تک‌گره (Single Node Cluster) در گوگل کلود (Google Cloud) و یکپارچه‌سازی آن با اسپارک (Spark).

  • نصب اسپارک (Spark) به صورت مستقل (Standalone) در ویندوز.

  • یکپارچه‌سازی اسپارک (Spark) با محیط توسعه PyCharm.

  • شامل دوره جامع HDFS.

  • شامل دوره فشرده پایتون (Python Crash Course).

  • درک مدل کسب‌وکار و جریان پروژه در یک پروژه بهداشت و درمان (Healthcare) واقعی در ایالات متحده.

  • ایجاد یک خط لوله داده (Data Pipeline) کامل: از جذب داده (Data Ingestion)، پیش‌پردازش داده (Data Preprocessing)، تبدیل داده (Data Transformation)، ذخیره‌سازی داده (Data Storage)، پایداری داده (Data Persistence) تا انتقال داده (Data Transfer).

  • یادگیری نحوه افزودن پیکربندی لاگ‌گیری (Logging) قدرتمند در پروژه پای‌اسپارک (PySpark).

  • یادگیری نحوه افزودن مکانیزم مدیریت خطا (Error Handling) در پروژه پای‌اسپارک (PySpark).

  • یادگیری نحوه انتقال فایل‌ها به AWS S3.

  • یادگیری نحوه انتقال فایل‌ها به Azure Blobs.

  • این پروژه به گونه‌ای توسعه یافته که قابلیت اجرای خودکار را دارد.

  • یادگیری نحوه افزودن مکانیزم مدیریت خطا (Error Handling) در پروژه پای‌اسپارک (PySpark).

  • یادگیری نحوه پایداری داده‌ها (Data Persistence) در Apache Hive برای استفاده‌های آتی و ممیزی.

  • یادگیری نحوه پایداری داده‌ها (Data Persistence) در PostgreSQL برای استفاده‌های آتی و ممیزی.

  • تست یکپارچه‌سازی کامل (Full Integration Test).

  • تست واحد (Unit Test).



سرفصل ها و درس ها

پیش‌نمایش دوره Preview the Course

  • پیش‌نمایش Preview

توضیحات پروژه Project Description

  • اسلایدهای پروژه Project Slides

  • جریان پروژه Project Flow

  • مشخصات عملکردی سطح بالا High Level Functional Specification

  • جریان پروژه (در سطح کد) Project Flow (Code Level)

  • بخش‌های پروژه Project Parts

  • رویکرد Approach

دانلود فایل‌های ورودی Download Input Files

  • دانلود فایل‌های ورودی Vendor – شهر و پزشک نسخه پیچ Download Input Vendor Files - City and Prescriber

نصب کلاستر تک‌گره (Spark 2.x/3.x, Hive, HDFS, PostgreSQL, Docker) Single Node Cluster Installation (Spark 2.x/3.x, Hive, HDFS, PostgreSQL, Docker)

  • مقدمه و فلوچارت نصب Introduction and Installation Flow Chart

  • منابع Resources

  • ثبت‌نام رایگان در Google Cloud (GCP) و راه‌اندازی یک ماشین مجازی مبتنی بر اوبونتو Register Free at Google Cloud (GCP) and Launch an Ubuntu based Virtual Machine

  • تنظیم پایتون و جاوا Set Up Python and Java

  • تنظیم اتصال امن به Localhost Set up Secure Connect to Localhost

  • تنظیم Hadoop tar، HDFS، YARN و مدیریت سرویس‌های کلاستر Set up Hadoop tar, HDFS, YARN and manage Cluster Services

  • تنظیم Docker، PostgreSQL، Hive بخش ۱ Set Up Docker, PostgreSQL, Hive Part 1

  • تنظیم Docker، PostgreSQL، Hive، Metastore بخش ۲ Set up Docker, PostgrSQL, Hive, Metastore Part 2

  • تنظیم Spark 2.x و Spark 3.x بخش ۱ Set up Spark 2.x and Spark 3.x Part 1

  • تنظیم Spark 2.x و Spark 3.x بخش ۲ Set up Spark 2.x and Spark 3.x Part 2

  • تنظیم Web UI و پورت‌ها برای کلاستر و تاریخچه برنامه‌ها Set up Web UI and ports for Cluster and Application History

  • مدیریت کلاستر – راه‌اندازی و توقف کلاستر Manage the Cluster - Start & Stop the Cluster

نصب Spark - تنظیم Standalone (ویندوز) Spark Installation - Set Up Standalone (Windows)

  • منابع Resources

  • حداقل نسخه‌های پشتیبانی‌شده/پیش‌نیازها Minimum Supported Versions/Prerequisites

  • نصب جاوا Java Installation

  • نصب پایتون Python Installation

  • نصب Spark Spark Installation

  • تنظیم WinUtils WinUtils Set up

  • نصب PyCharm PyCharm Installation

  • مبانی PyCharm PyCharm Basics

  • آرگومان‌های زمان اجرای PyCharm PyCharm Run Time Arguments

  • ادغام پایتون و PySpark در PyCharm PyCharm Integrate Python and PySpark

  • چگونه برنامه‌های پایتون را با استفاده از PyCharm اشکال‌زدایی کنیم How to debug Python Applications using PyCharm

دوره HDFS HDFS Course

  • HDFS چیست و چرا از HDFS استفاده کنیم What is HDFS and Why to use HDFS

  • منابع Resources

  • اجزای HDFS و Metadata HDFS Components and Metadata

  • بلوک‌های داده و Replication Data Blocks and Replication

  • Rack Awareness Rack Awareness

  • معماری مکانیسم خواندن HDFS HDFS Read Mechanism Architecture

  • تمرین - دستورات راهنمای HDFS CLI Exercise - HDFS CLI Help Commands

  • تمرین - انتقال داده از GitHub به Local به HDFS Exercise - Bring Data from GitHub to Local to HDFS

  • تمرین - فهرست کردن و مرتب‌سازی فایل‌ها و دایرکتوری‌ها در HDFS Exercise - Listing and Sorting Files and Directories in HDFS

  • تمرین - ایجاد یا حذف دایرکتوری‌ها در HDFS Exercise - Create or Remove Directories in HDFS

  • تمرین - کپی داده از HDFS به Local Exercise - Copy Data from HDFS to Local

  • تمرین - کپی داده از Local به HDFS Exercise - Copy data from Local to HDFS

  • تمرین - پیش‌نمایش داده در HDFS Exercise - Preview Data in HDFS

  • تمرین - آگاهی از آمار در HDFS Exercise - Knowing Statistics in HDFS

  • تمرین - آگاهی از فضای ذخیره‌سازی در HDFS File System Exercise - Knowing Storage in HDFS File System

  • تمرین - Metadata در HDFS Exercise - Metadata in HDFS

  • تمرین - مدیریت مجوزهای فایل در HDFS Exercise - Managing File Permissions in HDFS

  • تمرین - به‌روزرسانی ویژگی‌ها در HDFS Exercise - Update Properties in HDFS

  • نکته Note

دوره فشرده پایتون Python Crash Course

  • مقدمه و نصب Introduction and Installation

  • ویژگی‌های اصلی پایتون Main Features of Python

  • مبانی پایتون Python Basics

  • متغیرهای پایتون Python Variables

  • print(), dir(), help() print(), dir(), help()

  • عملگرهای پایتون Python Operators

  • ماژول‌ها Modules

  • انواع داده پایتون - انواع عددی Python Datatypes - Numeric Types

  • رشته String

  • انواع داده پایتون - لیست بخش ۱ Python Datatypes - List Part 1

  • انواع داده پایتون - لیست بخش ۲ Python Datatypes - List Part 2

  • تاپل Tuple

  • مجموعه Set

  • دیکشنری Dictionary

  • تاریخ و زمان Date and Time

  • عبارات شرطی (if ... else) Conditional Statements (if ... else)

  • حلقه For For Loop

  • حلقه While While Loop

  • توابع تعریف‌شده توسط کاربر User Defined Functions

  • توابع لامبدا Lambda Functions

  • تابع Map Map Function

  • تابع Filter Filter Function

  • تابع Reduce Reduce Function

  • مدیریت فایل File Handling

  • مبانی OOP بخش ۱ OOPs Basics Part 1

  • مبانی OOP بخش ۲ OOPs Basics Part 2

  • مبانی OOP - تمرین OOPs Basics - Exercise

  • مبانی OOP - ویژگی‌های کلاس OOPS Basics - Class Attributes

  • متغیر ویژه پایتون : __name__ Python Special Variable : __name__

  • کار با متغیرهای محیطی Work with Environment Variables

  • مدیریت خطا (استثنا) در پایتون Exception Handling in Python

  • چگونه خطاهای (استثناها) پایتون را ردیابی کنیم How to Traceback Exceptions in Python

  • لاگ‌گیری در پایتون - دانلود اسلایدها Logging in Python - Download Slides

  • لاگ‌گیری در پایتون - مقدمه Logging in Python - Introduction

  • لاگ‌گیری در پایتون - ادغام با ردیابی خطاهای (استثنائات) Logging in Python - Integrate with Exception Stack traces

  • لاگ‌گیری در پایتون - لاگر سفارشی Logging in Python - Custom Logger

  • لاگ‌گیری در پایتون - استفاده از فایل پیکربندی Logging in Python - Using Configuration File

راه‌اندازی پروژه Project Set up

  • تنظیم پوشه‌های پروژه در PyCharm Project Folders Set up at PyCharm

  • ادغام پروژه با PySpark Project Integration with PySpark

  • درک ساختار فایل‌های ورودی و خروجی Understand input and output File Layouts

  • انتقال فایل‌های ورودی به پوشه موقت پروژه Move Input Files to Project Staging Folder

مقدمه بخش ۱ Part 1 Introduction

  • مقدمه بخش ۱ Part 1 Introduction

اعلان متغیرها Declare Variables

  • نوشتن اسکریپت برای اعلان همه متغیرها Write Script to declare All Variables

ایجاد اشیاء Create Objects

  • ایجاد اشیاء - شیء Spark Create Objects - Spark Object

  • ایجاد اشیاء - اعتبارسنجی شیء Spark Create Objects - Validate Spark Object

  • ایجاد اشیاء - ادغام مدیریت خطا Create Objects - Integrate Exception Handling

  • ایجاد اشیاء - پیاده‌سازی لاگ‌گیری Create Objects - Implement Logging

  • ایجاد اشیاء - ادغام لاگ‌گیری با خطا Create Objects - Integrate Logging with Exception

  • ایجاد اشیاء - افزودن لاگر سفارشی Create Objects - Add Custom Logger

دریافت داده Data Ingestion

  • دریافت داده - بارگذاری فایل ابعاد شهر بخش ۱ Data Ingestion - Load City Dimension File Part 1

  • دریافت داده - بارگذاری فایل ابعاد شهر بخش ۲ Data Ingestion - Load City Dimension File Part 2

  • دریافت داده - بارگذاری فایل واقعیت پزشک Data Ingestion - Load Prescriber Fact File

پیش‌پردازش داده Data Preprocessing

  • پیش‌پردازش داده - ابعاد شهر Data Preprocessing - City Dimension

  • پیش‌پردازش داده - DataFrame پزشک بخش ۱ Data Preprocessing - Prescriber DataFrame Part 1

  • پیش‌پردازش داده - DataFrame پزشک بخش ۲ Data Preprocessing - Prescriber DataFrame Part 2

  • اعتبارسنجی - چاپ Schema برای هر DataFrame Validation - Print Schema for any DataFrame

  • پیش‌پردازش داده - ابعاد پزشک بخش ۳ Data Preprocessing - Prescriber Dimension Part 3

  • پیش‌پردازش داده - DataFrame پزشک بخش ۴ Data Preprocessing - Prescriber DataFrame Part 4

  • پیش‌پردازش داده - DataFrame پزشک بخش ۵ Data Preprocessing - Prescriber DataFrame Part 5

  • پیش‌پردازش داده - DataFrame پزشک بخش ۶ Data Preprocessing - Prescriber DataFrame Part 6

تبدیل داده Data Transform

  • تبدیل داده - گزارش شهر Data Transform - City Report

  • تبدیل داده - گزارش پزشک Data Transform - Prescriber Report

  • نکته سریع برای کپی کد Quick Note to Copy Code

  • نکته سریع در مورد اتصال PyCharm به GCP Quick Note on connect PyCharm to GCP

  • کپی کدهای توسعه‌یافته از ویندوز به GCP Copy developed codes from Windows to GCP

  • نکته برای نصب آخرین نسخه Pandas Note to Install Pandas Latest Version

  • ایجاد پوشه‌های HDFS برای نگهداری فایل‌های ورودی شهر و Fact Create HDFS Folders to keep input city and Fact Files

  • نوشتن و اجرای اسکریپت شل یونیکس برای کپی داده در HDFS Write and Execute Unix Shell Script to Copy data into HDFS

  • تغییرات کد در اسکریپت‌ها برای سازگاری با مسیرهای HDFS Code Changes in the scripts to accommodate HDFS Paths

  • اجرای آزمایشی با استفاده از spark-submit در Cluster Perform a Test run using spark-submit at Cluster

استخراج داده Data Extraction

  • استخراج فایل - گزارش شهر و پزشک File Extraction - City and Prescriber Report

  • اعتبارسنجی‌ها - گزارش‌های شهر و پزشک Validations - City and Prescriber Reports

جمع‌بندی بخش ۱ Wrap up Part 1

  • بخش ۱ - ترکیب تمام اسکریپت‌ها در یک اسکریپت Part 1 - Combine all scripts into one

مقدمه بخش ۲ Part 2 Introduction

  • بخش ۲ - مقدمه Part 2 - Introduction

کپی فایل‌ها از HDFS به Local Copy Files HDFS to Local

  • کپی فایل‌های نهایی City و Presc از HDFS به سرور محلی Copy final City and Presc files HDFS to Local Server

کپی فایل‌ها به AWS S3 Copy Files to AWS S3

  • آماده‌سازی برای انتقال S3 Prepare for S3 Transfer

  • راه‌اندازی حساب AWS Free Tier و ایجاد یک S3 Bucket Set up Free Tier AWS Account and Create a S3 Bucket

  • راه‌اندازی AWS CLI Client، ایجاد Profile و دسترسی به S3 Bucket Set up AWS CLI Client, Create Profile and Access S3 Bucket

  • ارسال فایل‌ها به S3 Push Files to S3

کپی فایل‌ها به Azure Blob Copy Files to Azure Blob

  • راه‌اندازی حساب رایگان Microsoft Azure و ایجاد Containerها Set up Free Microsoft Azure Account and Create Containers

  • نصب azcopy در سرور محلی ما Install azcopy at our Local Server

  • ارسال فایل‌ها به Azure Blobs Push Files to Azure Blobs

جمع‌بندی بخش ۲ Wrap Up Part 2

  • جمع‌بندی بخش ۲ و اضافه کردن اسکریپت‌های بخش ۲ به اسکریپت اصلی Wrap up Part 2 and add the part2 scripts in the main script

مقدمه بخش ۳ Part 3 Introduction

  • مقدمه بخش ۳ Part 3 Introduction

ذخیره‌سازی داده در Hive Data Persist at Hive

  • ذخیره‌سازی داده در Hive بخش ۱ Persist Data into Hive Part 1

  • ذخیره‌سازی داده در Hive بخش ۲ Persist Data into Hive Part 2

  • ذخیره‌سازی داده در Hive بخش ۳ Persist Data into Hive Part 3

  • ذخیره‌سازی داده در Hive بخش ۴ Persist data into Hive Part 4

ذخیره‌سازی داده در PostgreSQL Data Persist at PostgreSQL

  • ذخیره‌سازی داده در PostgreSQL مقدمه Persist data at PostgreSQL Introduction

  • ذخیره‌سازی داده در PostgreSQL بخش ۱ Persist Data at PostgreSQL Part 1

  • ذخیره‌سازی داده در PostgreSQL بخش ۲ Persist Data at PostgreSQL Part 2

  • ذخیره‌سازی داده در PostgreSQL بخش ۳ Persist Data at PostgreSQL Part 3

  • ذخیره‌سازی داده در PostgreSQL بخش ۴ Persist Data at PostgreSQL Part 4

جمع‌بندی بخش ۳ Wrap up Part 3

  • جمع‌بندی بخش ۳ Wrap up Part 3

تست یکپارچه‌سازی کامل Full Integration Test

  • مقدمه تست یکپارچه‌سازی کامل Full Integration Test Introduction

  • نکته سریع - افزودن خطوط جدید به عبارات Logger برای خواناتر کردن فایل‌های لاگ Quick Note - Add New Lines to the Logger Statements to make log files readable

  • ایجاد اسکریپت Master برای یکپارچه‌سازی نهایی Create Master script for final Integration

  • تست یکپارچه‌سازی کامل Full Integration Test

تست واحد Unit Test

  • مقدمه‌ای بر تست واحد Introduction to Unit Testing

  • چرا به تست واحد نیاز داریم؟ Why we need Unit Test ?

  • ساختار اصلی تست واحد در پایتون Basic Structure of Unit Test in Python

  • نمونه تست‌های واحد Sample Unit Tests

  • چگونه از توابع تست واحد کمک بگیریم How to get Help for Unit Test Functions

  • تست واحد برای پروژه ما Unit Test for our Project

نمایش نظرات

آموزش پروژه پای‌اسپارک: پیاده‌سازی بلادرنگ صفر تا صد
جزییات دوره
15 hours
154
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
3,762
4 از 5
دارد
دارد
دارد
Sibaram Kumar
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Sibaram Kumar Sibaram Kumar

مهندس داده با ۱۳ سال سابقه