مرورگر شما از این ویدیو پشتیبانی نمی کند.
نکته:
ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
(صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)
بارگزاری مجدد
توضیحات دوره:
مهندسی داده: SQL، پایتون، یونیکس، اسپارک، کلاود، AWS، ETL، کیفیت داده، حاکمیت داده و معماری داده
کار عملی با Python، SQL، Unix، Hadoop، Spark، CICD و ETL با استفاده از IDE برای بازسازی جریان کاری واقعی مهندسی داده
طراحی، ساخت و مدیریت خط لولههای داده (Data Pipelines) مقیاسپذیر با استفاده از ابزارهای Spark و فریمورکهای ارکستراسیون برای تضمین جریان کارآمد از ورود دادهها تا مصرف
مدلسازی انبار داده/دریاچه داده (Data Warehouse/Lake) با استفاده از شمای رمز ستاره (Star) و دانه برفی (Snowflake) و بهینهسازی ذخیرهسازی برای تحلیلها
اعمال حاکمیت داده با بررسیهای کیفی، مدیریت متادیتا و چارچوبهای انطباق
تسلط بر SQL پیشرفته برای پرسوجوهای پیچیده، تبدیلهای ETL و بهینهسازی پایگاه داده
عیبیابی خط لولههای داده با استفاده از ابزارهای لاگگیری، مانیتورینگ و استراتژیهای مدیریت خطا
بهرهگیری از ابزارهای ابری (AWS EC2, S3, Lambda) برای جریانهای کاری داده با هزینه بهینه و مقیاسپذیری خودکار
شناسایی صورتمسئلههای دنیای واقعی، طراحی و پیادهسازی خط لولههای داده
پیشنیازها: دانش پایه برنامهنویسی
بدون نیاز به تجربه قبلی در مهندسی داده
دسترسی به کامپیوتر و اینترنت
کنجکاوی در مورد جریانهای کاری داده، پایگاههای داده یا ابزارهای ابری
تسلط بر مهندسی داده: از مفاهیم تا محیط عملیاتی است یک دوره جامع طراحی شده برای تبدیل مبتدیان به مهندسان داده خبره. با شروع از مفاهیم بنیادی (چرخه حیات داده، نقشها و ابزارها)، این دوره به سمت مهارتهای عملی در SQL، فرآیندهای ETL، اسکریپتنویسی UNIX و برنامهنویسی پایتون برای اتوماسیون و دستکاری دادهها پیش میرود. در اکوسیستمهای دادههای بزرگ (Big Data) با Hadoop و Spark عمیق شوید و پردازش توزیع شده و تحلیلهای بلادرنگ را بیاموزید. تسلط بر مدلسازی داده (شمای رمز ستاره و دانه برفی) و طراحی معماری برای سیستمهای مقیاسپذیر.
تکنولوژیهای ابری (AWS) را برای استقرار ذخیرهسازی، پردازش و راهکارهای بدون سرور (Serverless) بررسی کنید. خط لولههای داده (Data Pipelines) قدرتمند بسازید و جریانهای کاری را مدیریت کنید، در حالی که رویکردهای CI/CD را برای تست و استقرار خودکار ادغام میکنید. با متدهای کیفیت داده (اعتبارسنجی، پاکسازی) و اصول حاکمیت داده (انطباق، مدیریت متادیتا) برای تضمین قابلیت اطمینان آشنا شوید.
هر فصل با ترکیب تئوری و پروژههای دنیای واقعی همراه است: طراحی جریانهای کاری ETL، بهینهسازی جابهای اسپارک و استقرار خط لولههای ابری. در پایان، شما با اعتماد به نفس کامل، راهکارهای جامع داده را از ورود دادههای خام تا سیستمهای آماده تولید مدیریت خواهید کرد. ایدهآل برای مهندسان داده آینده، تحلیلگران یا متخصصان IT که به دنبال ارتقای مهارتهای خود هستند.
پیشنیازها : دانش پایه برنامهنویسی.
ابزارهای مورد بررسی : Spark, Hadoop, AWS, SQL, Python, UNIX, Git, IntelliJ IDE.
نتیجه دوره : ساخت یک پورتفولیو از پروژههایی که توانایی شما را در حل چالشهای پیچیده دادهها نشان میدهد.
سرفصل ها و درس ها
سرفصلهای دوره
Course Outline
درباره دوره و مدرس
About the Course and the Instructor
مهندسان داده چه کسانی هستند؟
Who are Data Engineers!
داستان سرآشپز آنا
Story of Chef Anna!
مهندس داده مانند یک سرآشپز است
Data Engineer is a Master Chef
چرا باید این دوره را بگذرانید؟
Here’s why you should take this course!
مرور کلی دوره
Course Overview
اجزای کلیدی مهندسی داده
Key Components of Data Engineering
نقش مهندسان داده
Role of Data Engineers
انواع دادهها
Types of Data
مهندسی داده آینده است
Data Engineering is the Future
اسکیوال (SQL) و ETL
SQL and ETL
مقدمهای بر SQL
Introduction To SQL
راهاندازی محیط توسعه MySQL
Setting up MySQL development Environment
ایجاد جدول (Create Table)
Create Table
وارد کردن دادهها (Insert Data)
Insert Data
دستورات Select و Where
Select and Where
گروهبندی (Group By)
Group By
مرتبسازی (Order By)
Order By
شرط Having
Having
اتصال داخلی (Inner Join)
Inner Join
اتصال چپ و راست (Left and Right Join)
Left and Right Join
اتحاد (Union and Union All)
Union and Union All
عبارات جدولی مشترک (CTE)
Common Table Expression
پرسوجوهای تو در تو (Subquery)
Subquery
عملیات DDL
DDL Operations
توابع تاریخ و رشته
Date and String Functions
توابع پنجرهای (Window Functions) بخش اول
Window Functions Part 1
توابع پنجرهای بخش دوم
Window Functions Part 2
توابع پنجرهای بخش سوم
Window Functions Part 3
طراحی پایگاه داده و نرمالسازی
Database Design and Normalization
فرم نرمال اول (1NF)
First Normal Form
فرم نرمال دوم (2NF)
Second Normal Form
فرم نرمال سوم (3NF)
Third Normal Form
دینرمالسازی (Denormalization)
Denormalization
طراحی شمای بهینه
Designing Efficient Schemas
ویژگیهای ACID
ACID Property
بهینهسازی عملکرد (Performance Tuning)
Performance Tuning
کنترل تراکنشها
Transaction Control
استخراج، تبدیل و بارگذاری (ETL)
Extract Transform and Load ETL
خط لولههای داده (Data Pipelines)
Data Pipelines
پاکسازی دادهها
Data Cleansing
انبار داده (Data Warehouse)
Data Warehouse
جداول ابعادی و فکت (Dimension and Fact Tables)
Factual Snapshot and Dimension Tables
شمای ستاره و دانه برفی
Star and Snowflake Schema
جداول ابعاد با تغییرات کند (SCD)
Slowly Changing Dimension Tables SCD
طراحی انبار داده
Designing Datawarehouse
پروژه نهایی فصل
Capstone Project
یونیکس (UNIX)
UNIX
مقدمهای بر UNIX
Introduction to UNIX
سیستم عامل چیست؟
What is OS?
یونیکس چیست؟
What is UNIX?
تاریخچه یونیکس
History of UNIX
مقایسه یونیکس و لینوکس
Unix Vs Linux
اهمیت یونیکس در مهندسی داده
Significance of UNIX in Data Engineering
معماری یونیکس
UNIX Architecture
دستورات پایه یونیکس: مدیریت فایل و دایرکتوری بخش اول
Basic Unix Commands - File and Directory Management Part 1
دستورات پایه یونیکس: مدیریت فایل و دایرکتوری بخش دوم
Basic Unix Commands - File and Directory Management Part 2
دستورات پایه یونیکس: مدیریت فایل و دایرکتوری بخش سوم
Basic Unix Commands - File and Directory Management Part 3
دستورات پایه یونیکس: مدیریت فایل و دایرکتوری بخش چهارم
Basic Unix Commands - File and Directory Management Part 4
دسترسیهای فایل بخش اول
File Permissions - Part 1
دسترسیهای فایل بخش دوم
File Permissions - Part 2
دسترسیهای فایل بخش سوم
File Permissions - Part 3
دسترسیهای فایل بخش چهارم
File Permissions - Part 4
ابزارهای پردازش متن بخش اول
Text Processing Tools - Part 1
ابزارهای پردازش متن بخش دوم
Text Processing Tools - Part 2
ابزارهای پردازش متن بخش سوم
Text Processing Tools - Part 3
مدیریت پردازشها بخش اول
Process Management - Part 1
مدیریت پردازشها بخش دوم
Process Management - Part 2
فشردهسازی و آرشیو دادهها
Data Compression and Archiving
انتقال فایل و شبکه
File Transfer and Networking
عبارات منظم (Regular Expression)
Regular Expression
مقدمهای بر شل اسکریپتینگ (Shell Scripting)
Introduction to Shell Scripting
نوشتن شل اسکریپتها
Shell Scripts
ساختارهای کنترلی
Control Structures
توابع و اسکریپتنویسی ماژولار
Functions and Modular Scripting
تغییر مسیر خروجی و خطا
Redirect Output and Error
کار با فایلها
Working with Files
مدیریت خطاها
Error Handling
کاربردهای عملی و بهینهسازی
Practical Applications and Optimization
زمانبندی جابها (Job Scheduling)
Job Scheduling
بهترین روشها و نکات کلیدی
Best Practices and Tips
پایتون (Python)
Python
مقدمهای بر پایتون
Introduction to Python
ویژگیهای کلیدی
Key Features
معماری پایتون
Architecture
اهمیت پایتون برای مهندسان داده
Importance of Python for Data Engineers
دانلود و نصب
Download and Install
راهاندازی IDE
Setup IDE
درک مفهوم main
Understanding main
راهاندازی ساختار پروژه
Setup project structure
مقدمهای بر عملیات پایه
Introduction to Basic Operations
متغیرها
Variables
متدها
Methods
خواندن فایل
Read File
مقدمهای بر جریان کنترلی (Control Flow)
Introduction to Control Flow
لیستها (List)
List
برش لیستها (Slicing)
List Slicing
حلقه For
For loop
شرطهای If و Elif
If Elif condition
سازماندهی کدها
Code Organization
حلقه While
While loop
تاپلها (Tuples)
Tuples
مجموعهها (Sets)
Sets
دیکشنریها (Dictionary)
Dictionary
مقدمهای بر ویژگیهای پیشرفته
Introduction to Advance Features
نوشتن در فایل
Write File
مستندسازی کد (DocString)
DocString
مدیریت استثناها (Exceptions)
Exceptions
توابع لمدای (Lambda)
Lambda
پروژه نهایی فصل
Capstone Project
دادههای بزرگ، هدوپ و اسپارک
Bigdata, Hadoop and Spark
مقدمهای بر Big Data، هدوپ و اسپارک
Introduction to Bigdata, Hadoop and Spark
دادههای بزرگ (Big Data) چیست؟
What is Big Data
درک موارد استفاده (Use Case)
Understanding Use Case
چالشها
Challenges
مقدمهای بر تکنولوژیهای دادههای بزرگ
Introduction to Big Data Technologies
اکوسیستم Big Data
Big Data Ecosystem
کار با HDFS
Working with HDFS
مقایسه پردازش سنتی و Big Data
Traditional vs Big Data Processing
عملیات فایل در HDFS
HDFS File Operations
بررسی Checksum در HDFS
HDFS Checksum
مقدمهای بر هدوپ (Hadoop)
Introduction to Hadoop
آپاچی هدوپ (Apache Hadoop)
Apache Hadoop
اجزای هدوپ
Components of Hadoop
معماری HDFS
HDFS Architecture
مدل MapReduce
MapReduce
مدیریت منابع YARN
YARN
انواع مدلهای استقرار
Types of Setup
نصب جاوا
Install Java
نصب هدوپ
Install Hadoop
مقدمهای بر Hive
Introduction to Hive
مقایسه Hive و DBMS
Hive vs DBMS
موارد استفاده از Hive
Use Cases of Hive
معماری Hive
Hive Architecture
زبان HQL
HQL
نصب Hive
Install Hive
جداول Hive
Hive Tables
ایجاد جدول، پارتیشن و باکت
Create Table, Partition, Bucket
فرمتهای فایل پشتیبانی شده در Hive
Hive Supported File Formats
ایجاد جدول
Create Table
بارگذاری دادهها
Load Data
فیلتر، مرتبسازی، گروهبندی و اتصال
Filter, Sort, Group, Join
توابع کاربر تعریف شده (UDF) در Hive
Hive UDF
مقدمهای بر اسپارک (Spark)
Introduction to Spark
اسپارک چیست؟
What is Spark
اکوسیستم اسپارک
Spark Ecosystem
معماری اسپارک
Spark Architecture
مقایسه هدوپ و اسپارک
Hadoop vs Spark
نصب اسپارک
Install Spark
درک نحوه اجرای جاب در اسپارک
Understanding a Spark Job
جلسه اسپارک (SparkSession)
SparkSession
مفاهیم Dataframe، Dataset و RDD
Dataframe, Dataset and RDD
رابط کاربری Spark UI
Spark UI
اسپارک با زبان Scala
Spark Scala
پایاسپارک (PySpark)
PySpark
محیط توسعه (IDE) برای اسپارک
Spark IDE
یکپارچهسازی و استقرار مداوم (CI/CD)
Continuous Integration and Continuous Development
مقدمه
Introduction
مزایای خط لوله CI/CD
Benefits of CICD Pipeline
مراحل CI/CD
Stages of CICD
مقدمهای بر Git
Introduction to Git
ایجاد مخزن Git
Create Git Repository
کپی کردن مخزن (Git Clone)
Git Clone
عملیات Push، Pull و Merge
Git Push, Pull and Merge
مثالهای عملی
Examples
مزایا در برابر چالشها
Benefits Vs Challenges
کیفیت و حاکمیت داده
Data Quality and Governance
کیفیت داده چیست؟
What is Data Quality
جنبههای کلیدی کیفیت داده
Key Aspects of Data Quality
معیارهای کیفیت داده (DQ Metrics)
DQ Metrics
پروفایلینگ دادهها (Data Profiling)
Data Profiling
پاکسازی دادهها (Data Cleansing)
Data Cleansing
ابزارهای پاکسازی داده
Data Cleansing Tools
حاکمیت داده چیست؟
What is Data Governance
اصول حاکمیت داده
Principles of Data Governance
مدلهای حاکمیت داده
Data Governance Models
امانتداری داده (Data Stewardship)
Data Stewardship
مدیریت متادیتا
Metadata Management
ردیابی происхождение داده (Data Lineage)
Data Lineage
انطباق و قوانین (Compliance)
Compliance
نقش مهندسان داده در حاکمیت
Role of Data Engineers
رایانش ابری
Cloud Computing
مقدمهای بر رایانش ابری (Cloud Computing)
Introduction to Cloud Computing
رایانش ابری چیست؟
What is Cloud
پلتفرمهای ابری
Cloud Platforms
سرویسهای ابری
Cloud Offerings
مقدمهای بر AWS
Introduction to AWS
کنسول AWS و مدیریت صورتحساب
AWS Console and Billing
سرویسهای EC2 و Lambda
EC2 and Lambda
تمرین عملی EC2
EC2 Hands On
تمرین عملی Lambda
Lambda Hands On
سرویسهای AWS S3 و EBS
AWS S3 and EBS
تمرین عملی AWS S3
AWS S3 Hands On
تمرین عملی EBS
EBS Hands On
سرویسهای RDS و DynamoDB
RDS and DynamoDB
تمرین عملی RDS
RDS Hands On
شبکه VPC و Route53
VPC and Route53
مدیریت دسترسی IAM و Secrets Manager
IAM and Secrets Manager
تمرین عملی IAM
IAM Hands On
تمرین عملی Secrets Manager
Secrets Manager Hands On
زیرساخت به عنوان کد (Cloud Formation)
Cloud Formation
مدلسازی و معماری داده
Data Modeling and Architecture
مقدمهای بر مدلسازی و معماری داده
Introduction to Data Modeling and Architecture
انواع مدلسازی داده
Data Modeling and Types
متدولوژیهای مدلسازی داده
Data Modeling Methodologies
مقدمهای بر معماری داده
Introduction to Data Architecture
اجزای کلیدی معماری داده
Key Components of Data Architecture
نمودار ERD (رابطه موجودیتها)
Entity Relationship Diagram
نرمالسازی و دینرمالسازی
Normalization and Denormalization
فرم نرمال اول
First Normal Form
فرم نرمال دوم
Second Normal Form
فرم نرمال سوم
Third Normal Form
فرم نرمال Boyce-کاد (BCNF)
Boyce Codd Normal Form
دینرمالسازی
Denormalization
مدلسازی ابعادی (Dimensional Modelling)
Dimensional Modelling
دیتا مارت (DataMart)
DataMart
پارتیشنبندی، ایندکسگذاری و شاردینگ (Sharding)
Partitioning, Indexing and Sharding
معماری سیستمهای هدوپ
Architecting Hadoop Systems
معماری پلتفرمهای ابری
Architecting Cloud Platforms
مسائل و راهکارهای واقعی داده
Real Life Data Problem and Solution
صورتمسئله و OKR
Problem Statement and OKR
چرخه حیات کارت اعتباری
Credit Card Lifecycle
طراحی معماری پروژه
Architecture Design
راهاندازی محیط
Environment Setup
طراحی مسیر S3 و درک دادههای ورودی JSON
Design S3 Path and Understanding RAW input JSON data
راهاندازی AWS S3
AWS S3 Setup
آپلود دادههای خام به EC2 و S3
Upload raw data to AWS EC2 and S3
راهاندازی Git و IDE
Git and IDE Setup
راهاندازی PySpark
PySpark Setup
راهاندازی پروژه
Project Setup
اجرای خط لوله و دستورات CLI
Pipeline Execution and CLI command
کلاس اصلی (Main Class)
Main Class
ایجاد Spark Session (الگوی Singleton)
Create Spark Session(Singleton Pattern)
راهاندازی فایل تنظیمات و اعتبارنامهها
Configuration and Credentials File Setup
بخش خواندن دادهها (Data Reader)
Data Reader
پاکسازی و کیفیت دادهها بخش اول
1.15 Data Cleansing and Quality- Part 1
پاکسازی و کیفیت دادهها بخش دوم
1.15 Data Cleansing and Quality- Part 2
مدیریت دادههای حساس
Handling Sensitive Data
پروفایلینگ دادهها
Data Profiling
بارگذاری دادهها
Data Loading
خط لوله جامع داده (The Data Pipeline)
The Data Pipeline
قبل از شروع جریان دادهها
Before We Turn On The Tap
اجرای نهایی خط لوله داده
Data Pipeline Execution
تایید خروجی نهایی
Verifying Output
نمایش نظرات