🔔 با توجه به بهبود نسبی اینترنت، آمادهسازی دورهها آغاز شده است. به دلیل تداوم برخی اختلالات، بارگذاری دورهها ممکن است با کمی تأخیر انجام شود. مدت اشتراکهای تهیهشده محفوظ است.
لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش پروژه پایاسپارک: پیادهسازی بلادرنگ صفر تا صد
- آخرین آپدیت
دانلود PySpark Project- End to End Real Time Project Implementation
نکته:
ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:
آیا مشتاق هستید که پروژه پایاسپارک (PySpark) بلادرنگ (Real-Time) را عملاً پیادهسازی کنید؟ با این دوره، فریمورک کدنویسی اسپارک (Spark) را به طور کامل بیاموزید و خود را به یک توسعهدهنده ماهر پایاسپارک (Experienced PySpark Developer) تبدیل کنید.
درباره این پروژه پایاسپارک بلادرنگ
این دوره بر پیادهسازی کامل و جامع (End-to-End) یک پروژه پایاسپارک (PySpark) بلادرنگ (Real-Time) تمرکز دارد.
در این پروژهها از جدیدترین فناوریها و ابزارهای مهندسی داده استفاده شده است، از جمله: اسپارک (Spark)، پایتون (Python)، پایچرم (PyCharm)، HDFS، YARN، گوگل کلود (Google Cloud)، AWS، Azure، Hive و PostgreSQL.
یک فریمورک کدنویسی پایاسپارک (PySpark) را فرا بگیرید و نحوه ساختاربندی کد را بر اساس بهترین روشهای استاندارد صنعتی و عملی بیاموزید.
نصب یک کلاستر تکگره (Single Node Cluster) در گوگل کلود (Google Cloud) و یکپارچهسازی آن با اسپارک (Spark).
نصب اسپارک (Spark) به صورت مستقل (Standalone) در سیستمعامل ویندوز.
یکپارچهسازی اسپارک (Spark) با محیط توسعه PyCharm.
شامل یک دوره جامع HDFS.
شامل یک دوره فشرده پایتون (Python Crash Course).
درک مدل کسبوکار و جریان یک پروژه واقعی بهداشت و درمان (Healthcare Project) در ایالات متحده.
ایجاد یک خط لوله داده (Data Pipeline) کامل: از جذب داده (Data Ingestion)، پیشپردازش داده (Data Preprocessing)، تبدیل داده (Data Transformation)، ذخیرهسازی داده (Data Storage)، پایداری داده (Data Persistence) تا انتقال داده (Data Transfer).
یادگیری نحوه افزودن پیکربندی لاگگیری (Logging) قوی و کارآمد در پروژه پایاسپارک (PySpark).
یادگیری نحوه انتقال و مدیریت فایلها در AWS S3 و Azure Blobs.
یادگیری نحوه پایداری دادهها (Data Persistence) در Hive و PostgreSQL برای استفادههای آتی و ممیزی (به زودی اضافه خواهد شد).
پیشنیازها:
دانش مقدماتی پایاسپارک (PySpark): توصیه میشود برای بهروزرسانی دانش خود، دوره "دوره کامل توسعهدهنده PySpark" ما را مرور کنید.
دانش مقدماتی HDFS: (یک دوره جامع HDFS به طور کامل در این آموزش گنجانده شده است)
دانش مقدماتی پایتون (Python): (یک دوره فشرده پایتون (Python Crash Course) در این آموزش گنجانده شده است)
پیادهسازی جامع و کامل پروژه پایاسپارک (PySpark) بلادرنگ (End-to-End Real-Time Project Implementation).
استفاده از جدیدترین فناوریها شامل اسپارک (Spark)، پایتون (Python)، پایچرم (PyCharm)، HDFS، YARN، گوگل کلود (Google Cloud)، AWS، Azure، Hive و PostgreSQL در پروژهها.
یادگیری فریمورک کدنویسی پایاسپارک (PySpark) و نحوه ساختاربندی کد بر اساس بهترین روشهای استاندارد صنعتی.
نصب کلاستر تکگره (Single Node Cluster) در گوگل کلود (Google Cloud) و یکپارچهسازی آن با اسپارک (Spark).
نصب اسپارک (Spark) به صورت مستقل (Standalone) در ویندوز.
یکپارچهسازی اسپارک (Spark) با محیط توسعه PyCharm.
شامل دوره جامع HDFS.
شامل دوره فشرده پایتون (Python Crash Course).
درک مدل کسبوکار و جریان پروژه در یک پروژه بهداشت و درمان (Healthcare) واقعی در ایالات متحده.
ایجاد یک خط لوله داده (Data Pipeline) کامل: از جذب داده (Data Ingestion)، پیشپردازش داده (Data Preprocessing)، تبدیل داده (Data Transformation)، ذخیرهسازی داده (Data Storage)، پایداری داده (Data Persistence) تا انتقال داده (Data Transfer).
مقدمه و فلوچارت نصب
Introduction and Installation Flow Chart
منابع
Resources
ثبتنام رایگان در Google Cloud (GCP) و راهاندازی یک ماشین مجازی مبتنی بر اوبونتو
Register Free at Google Cloud (GCP) and Launch an Ubuntu based Virtual Machine
تنظیم پایتون و جاوا
Set Up Python and Java
تنظیم اتصال امن به Localhost
Set up Secure Connect to Localhost
تنظیم Hadoop tar، HDFS، YARN و مدیریت سرویسهای کلاستر
Set up Hadoop tar, HDFS, YARN and manage Cluster Services
تنظیم Docker، PostgreSQL، Hive بخش ۱
Set Up Docker, PostgreSQL, Hive Part 1
تنظیم Docker، PostgreSQL، Hive، Metastore بخش ۲
Set up Docker, PostgrSQL, Hive, Metastore Part 2
تنظیم Spark 2.x و Spark 3.x بخش ۱
Set up Spark 2.x and Spark 3.x Part 1
تنظیم Spark 2.x و Spark 3.x بخش ۲
Set up Spark 2.x and Spark 3.x Part 2
تنظیم Web UI و پورتها برای کلاستر و تاریخچه برنامهها
Set up Web UI and ports for Cluster and Application History
مدیریت کلاستر – راهاندازی و توقف کلاستر
Manage the Cluster - Start & Stop the Cluster
نصب Spark - تنظیم Standalone (ویندوز)
Spark Installation - Set Up Standalone (Windows)
دریافت داده - بارگذاری فایل ابعاد شهر بخش ۱
Data Ingestion - Load City Dimension File Part 1
دریافت داده - بارگذاری فایل ابعاد شهر بخش ۲
Data Ingestion - Load City Dimension File Part 2
دریافت داده - بارگذاری فایل واقعیت پزشک
Data Ingestion - Load Prescriber Fact File
پیشپردازش داده
Data Preprocessing
پیشپردازش داده - ابعاد شهر
Data Preprocessing - City Dimension
پیشپردازش داده - DataFrame پزشک بخش ۱
Data Preprocessing - Prescriber DataFrame Part 1
پیشپردازش داده - DataFrame پزشک بخش ۲
Data Preprocessing - Prescriber DataFrame Part 2
اعتبارسنجی - چاپ Schema برای هر DataFrame
Validation - Print Schema for any DataFrame
پیشپردازش داده - ابعاد پزشک بخش ۳
Data Preprocessing - Prescriber Dimension Part 3
پیشپردازش داده - DataFrame پزشک بخش ۴
Data Preprocessing - Prescriber DataFrame Part 4
پیشپردازش داده - DataFrame پزشک بخش ۵
Data Preprocessing - Prescriber DataFrame Part 5
پیشپردازش داده - DataFrame پزشک بخش ۶
Data Preprocessing - Prescriber DataFrame Part 6
تبدیل داده
Data Transform
تبدیل داده - گزارش شهر
Data Transform - City Report
تبدیل داده - گزارش پزشک
Data Transform - Prescriber Report
نکته سریع برای کپی کد
Quick Note to Copy Code
نکته سریع در مورد اتصال PyCharm به GCP
Quick Note on connect PyCharm to GCP
کپی کدهای توسعهیافته از ویندوز به GCP
Copy developed codes from Windows to GCP
نکته برای نصب آخرین نسخه Pandas
Note to Install Pandas Latest Version
ایجاد پوشههای HDFS برای نگهداری فایلهای ورودی شهر و Fact
Create HDFS Folders to keep input city and Fact Files
نوشتن و اجرای اسکریپت شل یونیکس برای کپی داده در HDFS
Write and Execute Unix Shell Script to Copy data into HDFS
تغییرات کد در اسکریپتها برای سازگاری با مسیرهای HDFS
Code Changes in the scripts to accommodate HDFS Paths
اجرای آزمایشی با استفاده از spark-submit در Cluster
Perform a Test run using spark-submit at Cluster
استخراج داده
Data Extraction
استخراج فایل - گزارش شهر و پزشک
File Extraction - City and Prescriber Report
اعتبارسنجیها - گزارشهای شهر و پزشک
Validations - City and Prescriber Reports
جمعبندی بخش ۱
Wrap up Part 1
بخش ۱ - ترکیب تمام اسکریپتها در یک اسکریپت
Part 1 - Combine all scripts into one
مقدمه بخش ۲
Part 2 Introduction
بخش ۲ - مقدمه
Part 2 - Introduction
کپی فایلها از HDFS به Local
Copy Files HDFS to Local
کپی فایلهای نهایی City و Presc از HDFS به سرور محلی
Copy final City and Presc files HDFS to Local Server
کپی فایلها به AWS S3
Copy Files to AWS S3
آمادهسازی برای انتقال S3
Prepare for S3 Transfer
راهاندازی حساب AWS Free Tier و ایجاد یک S3 Bucket
Set up Free Tier AWS Account and Create a S3 Bucket
راهاندازی AWS CLI Client، ایجاد Profile و دسترسی به S3 Bucket
Set up AWS CLI Client, Create Profile and Access S3 Bucket
ارسال فایلها به S3
Push Files to S3
کپی فایلها به Azure Blob
Copy Files to Azure Blob
راهاندازی حساب رایگان Microsoft Azure و ایجاد Containerها
Set up Free Microsoft Azure Account and Create Containers
نصب azcopy در سرور محلی ما
Install azcopy at our Local Server
ارسال فایلها به Azure Blobs
Push Files to Azure Blobs
جمعبندی بخش ۲
Wrap Up Part 2
جمعبندی بخش ۲ و اضافه کردن اسکریپتهای بخش ۲ به اسکریپت اصلی
Wrap up Part 2 and add the part2 scripts in the main script
مقدمه بخش ۳
Part 3 Introduction
مقدمه بخش ۳
Part 3 Introduction
ذخیرهسازی داده در Hive
Data Persist at Hive
ذخیرهسازی داده در Hive بخش ۱
Persist Data into Hive Part 1
ذخیرهسازی داده در Hive بخش ۲
Persist Data into Hive Part 2
ذخیرهسازی داده در Hive بخش ۳
Persist Data into Hive Part 3
ذخیرهسازی داده در Hive بخش ۴
Persist data into Hive Part 4
ذخیرهسازی داده در PostgreSQL
Data Persist at PostgreSQL
ذخیرهسازی داده در PostgreSQL مقدمه
Persist data at PostgreSQL Introduction
ذخیرهسازی داده در PostgreSQL بخش ۱
Persist Data at PostgreSQL Part 1
ذخیرهسازی داده در PostgreSQL بخش ۲
Persist Data at PostgreSQL Part 2
ذخیرهسازی داده در PostgreSQL بخش ۳
Persist Data at PostgreSQL Part 3
ذخیرهسازی داده در PostgreSQL بخش ۴
Persist Data at PostgreSQL Part 4
جمعبندی بخش ۳
Wrap up Part 3
جمعبندی بخش ۳
Wrap up Part 3
تست یکپارچهسازی کامل
Full Integration Test
مقدمه تست یکپارچهسازی کامل
Full Integration Test Introduction
نکته سریع - افزودن خطوط جدید به عبارات Logger برای خواناتر کردن فایلهای لاگ
Quick Note - Add New Lines to the Logger Statements to make log files readable
ایجاد اسکریپت Master برای یکپارچهسازی نهایی
Create Master script for final Integration
تست یکپارچهسازی کامل
Full Integration Test
تست واحد
Unit Test
مقدمهای بر تست واحد
Introduction to Unit Testing
چرا به تست واحد نیاز داریم؟
Why we need Unit Test ?
ساختار اصلی تست واحد در پایتون
Basic Structure of Unit Test in Python
نمونه تستهای واحد
Sample Unit Tests
چگونه از توابع تست واحد کمک بگیریم
How to get Help for Unit Test Functions
نمایش نظرات