آموزش تسلط بر مهندسی داده: از مفاهیم تا محیط عملیاتی - آخرین آپدیت

دانلود Master Data Engineering: Concepts to Production

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: مهندسی داده: SQL، پایتون، یونیکس، اسپارک، کلاود، AWS، ETL، کیفیت داده، حاکمیت داده و معماری داده کار عملی با Python، SQL، Unix، Hadoop، Spark، CICD و ETL با استفاده از IDE برای بازسازی جریان کاری واقعی مهندسی داده طراحی، ساخت و مدیریت خط لوله‌های داده (Data Pipelines) مقیاس‌پذیر با استفاده از ابزارهای Spark و فریم‌ورک‌های ارکستراسیون برای تضمین جریان کارآمد از ورود داده‌ها تا مصرف مدل‌سازی انبار داده/دریاچه داده (Data Warehouse/Lake) با استفاده از شمای رمز ستاره (Star) و دانه برفی (Snowflake) و بهینه‌سازی ذخیره‌سازی برای تحلیل‌ها اعمال حاکمیت داده با بررسی‌های کیفی، مدیریت متادیتا و چارچوب‌های انطباق تسلط بر SQL پیشرفته برای پرس‌وجوهای پیچیده، تبدیل‌های ETL و بهینه‌سازی پایگاه داده عیب‌یابی خط لوله‌های داده با استفاده از ابزارهای لاگ‌گیری، مانیتورینگ و استراتژی‌های مدیریت خطا بهره‌گیری از ابزارهای ابری (AWS EC2, S3, Lambda) برای جریان‌های کاری داده با هزینه بهینه و مقیاس‌پذیری خودکار شناسایی صورت‌مسئله‌های دنیای واقعی، طراحی و پیاده‌سازی خط لوله‌های داده پیشنیازها: دانش پایه برنامه‌نویسی بدون نیاز به تجربه قبلی در مهندسی داده دسترسی به کامپیوتر و اینترنت کنجکاوی در مورد جریان‌های کاری داده، پایگاه‌های داده یا ابزارهای ابری

تسلط بر مهندسی داده: از مفاهیم تا محیط عملیاتیاست یک دوره جامع طراحی شده برای تبدیل مبتدیان به مهندسان داده خبره. با شروع از مفاهیم بنیادی (چرخه حیات داده، نقش‌ها و ابزارها)، این دوره به سمت مهارت‌های عملی در SQL، فرآیندهای ETL، اسکریپت‌نویسی UNIXو برنامه‌نویسی پایتونبرای اتوماسیون و دستکاری داده‌ها پیش می‌رود. در اکوسیستم‌های داده‌های بزرگ (Big Data)با Hadoop و Spark عمیق شوید و پردازش توزیع شده و تحلیل‌های بلادرنگ را بیاموزید. تسلط بر مدل‌سازی داده(شمای رمز ستاره و دانه برفی) و طراحی معماریبرای سیستم‌های مقیاس‌پذیر.

تکنولوژی‌های ابری (AWS)را برای استقرار ذخیره‌سازی، پردازش و راهکارهای بدون سرور (Serverless) بررسی کنید. خط لوله‌های داده (Data Pipelines)قدرتمند بسازید و جریان‌های کاری را مدیریت کنید، در حالی که رویکردهای CI/CDرا برای تست و استقرار خودکار ادغام می‌کنید. با متدهای کیفیت داده(اعتبارسنجی، پاکسازی) و اصول حاکمیت داده(انطباق، مدیریت متادیتا) برای تضمین قابلیت اطمینان آشنا شوید.

هر فصل با ترکیب تئوری و پروژه‌های دنیای واقعیهمراه است: طراحی جریان‌های کاری ETL، بهینه‌سازی جاب‌های اسپارک و استقرار خط لوله‌های ابری. در پایان، شما با اعتماد به نفس کامل، راهکارهای جامع داده را از ورود داده‌های خام تا سیستم‌های آماده تولید مدیریت خواهید کرد. ایده‌آل برای مهندسان داده آینده، تحلیلگران یا متخصصان IT که به دنبال ارتقای مهارت‌های خود هستند.

پیش‌نیازها: دانش پایه برنامه‌نویسی.

ابزارهای مورد بررسی: Spark, Hadoop, AWS, SQL, Python, UNIX, Git, IntelliJ IDE.

نتیجه دوره: ساخت یک پورتفولیو از پروژه‌هایی که توانایی شما را در حل چالش‌های پیچیده داده‌ها نشان می‌دهد.


سرفصل ها و درس ها

سرفصل‌های دوره Course Outline

  • درباره دوره و مدرس About the Course and the Instructor

  • مهندسان داده چه کسانی هستند؟ Who are Data Engineers!

  • داستان سرآشپز آنا Story of Chef Anna!

  • مهندس داده مانند یک سرآشپز است Data Engineer is a Master Chef

  • چرا باید این دوره را بگذرانید؟ Here’s why you should take this course!

  • مرور کلی دوره Course Overview

  • اجزای کلیدی مهندسی داده Key Components of Data Engineering

  • نقش مهندسان داده Role of Data Engineers

  • انواع داده‌ها Types of Data

  • مهندسی داده آینده است Data Engineering is the Future

اس‌کیوال (SQL) و ETL SQL and ETL

  • مقدمه‌ای بر SQL Introduction To SQL

  • راه‌اندازی محیط توسعه MySQL Setting up MySQL development Environment

  • ایجاد جدول (Create Table) Create Table

  • وارد کردن داده‌ها (Insert Data) Insert Data

  • دستورات Select و Where Select and Where

  • گروه‌بندی (Group By) Group By

  • مرتب‌سازی (Order By) Order By

  • شرط Having Having

  • اتصال داخلی (Inner Join) Inner Join

  • اتصال چپ و راست (Left and Right Join) Left and Right Join

  • اتحاد (Union and Union All) Union and Union All

  • عبارات جدولی مشترک (CTE) Common Table Expression

  • پرس‌وجوهای تو در تو (Subquery) Subquery

  • عملیات DDL DDL Operations

  • توابع تاریخ و رشته Date and String Functions

  • توابع پنجره‌ای (Window Functions) بخش اول Window Functions Part 1

  • توابع پنجره‌ای بخش دوم Window Functions Part 2

  • توابع پنجره‌ای بخش سوم Window Functions Part 3

  • طراحی پایگاه داده و نرمال‌سازی Database Design and Normalization

  • فرم نرمال اول (1NF) First Normal Form

  • فرم نرمال دوم (2NF) Second Normal Form

  • فرم نرمال سوم (3NF) Third Normal Form

  • دینرمال‌سازی (Denormalization) Denormalization

  • طراحی شمای بهینه Designing Efficient Schemas

  • ویژگی‌های ACID ACID Property

  • بهینه‌سازی عملکرد (Performance Tuning) Performance Tuning

  • کنترل تراکنش‌ها Transaction Control

  • استخراج، تبدیل و بارگذاری (ETL) Extract Transform and Load ETL

  • خط لوله‌های داده (Data Pipelines) Data Pipelines

  • پاکسازی داده‌ها Data Cleansing

  • انبار داده (Data Warehouse) Data Warehouse

  • جداول ابعادی و فکت (Dimension and Fact Tables) Factual Snapshot and Dimension Tables

  • شمای ستاره و دانه برفی Star and Snowflake Schema

  • جداول ابعاد با تغییرات کند (SCD) Slowly Changing Dimension Tables SCD

  • طراحی انبار داده Designing Datawarehouse

  • پروژه نهایی فصل Capstone Project

یونیکس (UNIX) UNIX

  • مقدمه‌ای بر UNIX Introduction to UNIX

  • سیستم عامل چیست؟ What is OS?

  • یونیکس چیست؟ What is UNIX?

  • تاریخچه یونیکس History of UNIX

  • مقایسه یونیکس و لینوکس Unix Vs Linux

  • اهمیت یونیکس در مهندسی داده Significance of UNIX in Data Engineering

  • معماری یونیکس UNIX Architecture

  • دستورات پایه یونیکس: مدیریت فایل و دایرکتوری بخش اول Basic Unix Commands - File and Directory Management Part 1

  • دستورات پایه یونیکس: مدیریت فایل و دایرکتوری بخش دوم Basic Unix Commands - File and Directory Management Part 2

  • دستورات پایه یونیکس: مدیریت فایل و دایرکتوری بخش سوم Basic Unix Commands - File and Directory Management Part 3

  • دستورات پایه یونیکس: مدیریت فایل و دایرکتوری بخش چهارم Basic Unix Commands - File and Directory Management Part 4

  • دسترسی‌های فایل بخش اول File Permissions - Part 1

  • دسترسی‌های فایل بخش دوم File Permissions - Part 2

  • دسترسی‌های فایل بخش سوم File Permissions - Part 3

  • دسترسی‌های فایل بخش چهارم File Permissions - Part 4

  • ابزارهای پردازش متن بخش اول Text Processing Tools - Part 1

  • ابزارهای پردازش متن بخش دوم Text Processing Tools - Part 2

  • ابزارهای پردازش متن بخش سوم Text Processing Tools - Part 3

  • مدیریت پردازش‌ها بخش اول Process Management - Part 1

  • مدیریت پردازش‌ها بخش دوم Process Management - Part 2

  • فشرده‌سازی و آرشیو داده‌ها Data Compression and Archiving

  • انتقال فایل و شبکه File Transfer and Networking

  • عبارات منظم (Regular Expression) Regular Expression

  • مقدمه‌ای بر شل اسکریپتینگ (Shell Scripting) Introduction to Shell Scripting

  • نوشتن شل اسکریپت‌ها Shell Scripts

  • ساختارهای کنترلی Control Structures

  • توابع و اسکریپت‌نویسی ماژولار Functions and Modular Scripting

  • تغییر مسیر خروجی و خطا Redirect Output and Error

  • کار با فایل‌ها Working with Files

  • مدیریت خطاها Error Handling

  • کاربردهای عملی و بهینه‌سازی Practical Applications and Optimization

  • زمان‌بندی جاب‌ها (Job Scheduling) Job Scheduling

  • بهترین روش‌ها و نکات کلیدی Best Practices and Tips

پایتون (Python) Python

  • مقدمه‌ای بر پایتون Introduction to Python

  • ویژگی‌های کلیدی Key Features

  • معماری پایتون Architecture

  • اهمیت پایتون برای مهندسان داده Importance of Python for Data Engineers

  • دانلود و نصب Download and Install

  • راه‌اندازی IDE Setup IDE

  • درک مفهوم main Understanding main

  • راه‌اندازی ساختار پروژه Setup project structure

  • مقدمه‌ای بر عملیات پایه Introduction to Basic Operations

  • متغیرها Variables

  • متدها Methods

  • خواندن فایل Read File

  • مقدمه‌ای بر جریان کنترلی (Control Flow) Introduction to Control Flow

  • لیست‌ها (List) List

  • برش لیست‌ها (Slicing) List Slicing

  • حلقه For For loop

  • شرط‌های If و Elif If Elif condition

  • سازماندهی کدها Code Organization

  • حلقه While While loop

  • تاپل‌ها (Tuples) Tuples

  • مجموعه‌ها (Sets) Sets

  • دیکشنری‌ها (Dictionary) Dictionary

  • مقدمه‌ای بر ویژگی‌های پیشرفته Introduction to Advance Features

  • نوشتن در فایل Write File

  • مستندسازی کد (DocString) DocString

  • مدیریت استثناها (Exceptions) Exceptions

  • توابع لمدای (Lambda) Lambda

  • پروژه نهایی فصل Capstone Project

داده‌های بزرگ، هدوپ و اسپارک Bigdata, Hadoop and Spark

  • مقدمه‌ای بر Big Data، هدوپ و اسپارک Introduction to Bigdata, Hadoop and Spark

  • داده‌های بزرگ (Big Data) چیست؟ What is Big Data

  • درک موارد استفاده (Use Case) Understanding Use Case

  • چالش‌ها Challenges

  • مقدمه‌ای بر تکنولوژی‌های داده‌های بزرگ Introduction to Big Data Technologies

  • اکوسیستم Big Data Big Data Ecosystem

  • کار با HDFS Working with HDFS

  • مقایسه پردازش سنتی و Big Data Traditional vs Big Data Processing

  • عملیات فایل در HDFS HDFS File Operations

  • بررسی Checksum در HDFS HDFS Checksum

  • مقدمه‌ای بر هدوپ (Hadoop) Introduction to Hadoop

  • آپاچی هدوپ (Apache Hadoop) Apache Hadoop

  • اجزای هدوپ Components of Hadoop

  • معماری HDFS HDFS Architecture

  • مدل MapReduce MapReduce

  • مدیریت منابع YARN YARN

  • انواع مدل‌های استقرار Types of Setup

  • نصب جاوا Install Java

  • نصب هدوپ Install Hadoop

  • مقدمه‌ای بر Hive Introduction to Hive

  • مقایسه Hive و DBMS Hive vs DBMS

  • موارد استفاده از Hive Use Cases of Hive

  • معماری Hive Hive Architecture

  • زبان HQL HQL

  • نصب Hive Install Hive

  • جداول Hive Hive Tables

  • ایجاد جدول، پارتیشن و باکت Create Table, Partition, Bucket

  • فرمت‌های فایل پشتیبانی شده در Hive Hive Supported File Formats

  • ایجاد جدول Create Table

  • بارگذاری داده‌ها Load Data

  • فیلتر، مرتب‌سازی، گروه‌بندی و اتصال Filter, Sort, Group, Join

  • توابع کاربر تعریف شده (UDF) در Hive Hive UDF

  • مقدمه‌ای بر اسپارک (Spark) Introduction to Spark

  • اسپارک چیست؟ What is Spark

  • اکوسیستم اسپارک Spark Ecosystem

  • معماری اسپارک Spark Architecture

  • مقایسه هدوپ و اسپارک Hadoop vs Spark

  • نصب اسپارک Install Spark

  • درک نحوه اجرای جاب در اسپارک Understanding a Spark Job

  • جلسه اسپارک (SparkSession) SparkSession

  • مفاهیم Dataframe، Dataset و RDD Dataframe, Dataset and RDD

  • رابط کاربری Spark UI Spark UI

  • اسپارک با زبان Scala Spark Scala

  • پای‌اسپارک (PySpark) PySpark

  • محیط توسعه (IDE) برای اسپارک Spark IDE

یکپارچه‌سازی و استقرار مداوم (CI/CD) Continuous Integration and Continuous Development

  • مقدمه Introduction

  • مزایای خط لوله CI/CD Benefits of CICD Pipeline

  • مراحل CI/CD Stages of CICD

  • مقدمه‌ای بر Git Introduction to Git

  • ایجاد مخزن Git Create Git Repository

  • کپی کردن مخزن (Git Clone) Git Clone

  • عملیات Push، Pull و Merge Git Push, Pull and Merge

  • مثال‌های عملی Examples

  • مزایا در برابر چالش‌ها Benefits Vs Challenges

کیفیت و حاکمیت داده Data Quality and Governance

  • کیفیت داده چیست؟ What is Data Quality

  • جنبه‌های کلیدی کیفیت داده Key Aspects of Data Quality

  • معیارهای کیفیت داده (DQ Metrics) DQ Metrics

  • پروفایلینگ داده‌ها (Data Profiling) Data Profiling

  • پاکسازی داده‌ها (Data Cleansing) Data Cleansing

  • ابزارهای پاکسازی داده Data Cleansing Tools

  • حاکمیت داده چیست؟ What is Data Governance

  • اصول حاکمیت داده Principles of Data Governance

  • مدل‌های حاکمیت داده Data Governance Models

  • امانت‌داری داده (Data Stewardship) Data Stewardship

  • مدیریت متادیتا Metadata Management

  • ردیابی происхождение داده (Data Lineage) Data Lineage

  • انطباق و قوانین (Compliance) Compliance

  • نقش مهندسان داده در حاکمیت Role of Data Engineers

رایانش ابری Cloud Computing

  • مقدمه‌ای بر رایانش ابری (Cloud Computing) Introduction to Cloud Computing

  • رایانش ابری چیست؟ What is Cloud

  • پلتفرم‌های ابری Cloud Platforms

  • سرویس‌های ابری Cloud Offerings

  • مقدمه‌ای بر AWS Introduction to AWS

  • کنسول AWS و مدیریت صورت‌حساب AWS Console and Billing

  • سرویس‌های EC2 و Lambda EC2 and Lambda

  • تمرین عملی EC2 EC2 Hands On

  • تمرین عملی Lambda Lambda Hands On

  • سرویس‌های AWS S3 و EBS AWS S3 and EBS

  • تمرین عملی AWS S3 AWS S3 Hands On

  • تمرین عملی EBS EBS Hands On

  • سرویس‌های RDS و DynamoDB RDS and DynamoDB

  • تمرین عملی RDS RDS Hands On

  • شبکه VPC و Route53 VPC and Route53

  • مدیریت دسترسی IAM و Secrets Manager IAM and Secrets Manager

  • تمرین عملی IAM IAM Hands On

  • تمرین عملی Secrets Manager Secrets Manager Hands On

  • زیرساخت به عنوان کد (Cloud Formation) Cloud Formation

مدل‌سازی و معماری داده Data Modeling and Architecture

  • مقدمه‌ای بر مدل‌سازی و معماری داده Introduction to Data Modeling and Architecture

  • انواع مدل‌سازی داده Data Modeling and Types

  • متدولوژی‌های مدل‌سازی داده Data Modeling Methodologies

  • مقدمه‌ای بر معماری داده Introduction to Data Architecture

  • اجزای کلیدی معماری داده Key Components of Data Architecture

  • نمودار ERD (رابطه موجودیت‌ها) Entity Relationship Diagram

  • نرمال‌سازی و دینرمال‌سازی Normalization and Denormalization

  • فرم نرمال اول First Normal Form

  • فرم نرمال دوم Second Normal Form

  • فرم نرمال سوم Third Normal Form

  • فرم نرمال Boyce-کاد (BCNF) Boyce Codd Normal Form

  • دینرمال‌سازی Denormalization

  • مدل‌سازی ابعادی (Dimensional Modelling) Dimensional Modelling

  • دیتا مارت (DataMart) DataMart

  • پارتیشن‌بندی، ایندکس‌گذاری و شاردینگ (Sharding) Partitioning, Indexing and Sharding

  • معماری سیستم‌های هدوپ Architecting Hadoop Systems

  • معماری پلتفرم‌های ابری Architecting Cloud Platforms

مسائل و راهکارهای واقعی داده Real Life Data Problem and Solution

  • صورت‌مسئله و OKR Problem Statement and OKR

  • چرخه حیات کارت اعتباری Credit Card Lifecycle

  • طراحی معماری پروژه Architecture Design

  • راه‌اندازی محیط Environment Setup

  • طراحی مسیر S3 و درک داده‌های ورودی JSON Design S3 Path and Understanding RAW input JSON data

  • راه‌اندازی AWS S3 AWS S3 Setup

  • آپلود داده‌های خام به EC2 و S3 Upload raw data to AWS EC2 and S3

  • راه‌اندازی Git و IDE Git and IDE Setup

  • راه‌اندازی PySpark PySpark Setup

  • راه‌اندازی پروژه Project Setup

  • اجرای خط لوله و دستورات CLI Pipeline Execution and CLI command

  • کلاس اصلی (Main Class) Main Class

  • ایجاد Spark Session (الگوی Singleton) Create Spark Session(Singleton Pattern)

  • راه‌اندازی فایل تنظیمات و اعتبارنامه‌ها Configuration and Credentials File Setup

  • بخش خواندن داده‌ها (Data Reader) Data Reader

  • پاکسازی و کیفیت داده‌ها بخش اول 1.15 Data Cleansing and Quality- Part 1

  • پاکسازی و کیفیت داده‌ها بخش دوم 1.15 Data Cleansing and Quality- Part 2

  • مدیریت داده‌های حساس Handling Sensitive Data

  • پروفایلینگ داده‌ها Data Profiling

  • بارگذاری داده‌ها Data Loading

  • خط لوله جامع داده (The Data Pipeline) The Data Pipeline

  • قبل از شروع جریان داده‌ها Before We Turn On The Tap

  • اجرای نهایی خط لوله داده Data Pipeline Execution

  • تایید خروجی نهایی Verifying Output

نمایش نظرات

آموزش تسلط بر مهندسی داده: از مفاهیم تا محیط عملیاتی
جزییات دوره
10.5 hours
235
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
1,585
4.4 از 5
دارد
دارد
دارد
Parijat Bose
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Parijat Bose Parijat Bose

معمار داده برای شرکت‌های Fortune 50