تسلط بر هسته مهندسی داده مدرن –ساخت خط لولههای واقعی با Airflow، AWS، Spark و Python.
اولین قدم خود را در مسیر مهندسی دادهبردارید و آینده شغلی خود را با این بوتکمپ عملی و پروژهمحورکه بر اساس تکنولوژیهای مدرن داده (Modern Data Stack)طراحی شده است، تضمین کنید.
این دوره توسط یک معمار ارشد داده با بیش از ۱۲ سال تجربه عملیتدریس شده و ترکیبی از تئوری و عمل است تا به شما کمک کند سیستمهای داده مقیاسپذیرمشابه شرکتهای برتر تکنولوژی را طراحی، ساخته و مدیریت کنید.
چه یک مهندس داده آینده، توسعهدهنده نرمافزار یا تحلیلگرباشید، این دوره شما را در ساخت خط لولههای داده در سطح سازمانیاز صفر، از طریق یک پروژه واقعی اپلیکیشن تاکسی آنلاینکه چالشهای واقعی داده را شبیهسازی میکند، راهنمایی میکند.
آنچه خواهید آموخت
شما تخصص عملیدر حیاتیترین اجزای مهندسی داده را کسب خواهید کرد:
بخش ۱: آمادهسازی محیط و مفاهیم
درک Modern Data Stackو معماریهای داده در دنیای واقعی
یادگیری نحوه جریان داده بین سیستمهادر شرکتهای دادهمحور
راهاندازی زیربنای پروژه با سناریوی یک اپلیکیشن تاکسی آنلاین
بخش ۲: ضروریات دریاچه داده (Data Lake)
ساخت دریاچههای داده مقیاسپذیر روی AWS S3با رعایت بهترین متدها
تسلط بر معماری S3، پارتیشنبندی و تکامل شمای دادهها
پیادهسازی IAM، رمزنگاری و مدیریت چرخه عمر دادهها
کار عملی با APIهای Boto3 S3برای اتوماسیون
بخش ۳: مدلسازی دادهها
طراحی مدلهای ابعادی (Star Schema)برای تحلیل دادهها
پیادهسازی ابعاد با تغییرات کند (SCD Type 1 & 2)
ساخت جامع خط لولههای ETL و دیتا مارتها (Data Marts)
بخش ۴: چارچوبهای کیفیت داده
یادگیری نحوه تضمین دقت، کامل بودن و سازگاری دادهها
پیادهسازی اعتبارسنجی دادهها و قراردادهای داده
استفاده از استانداردهای صنعت برای حفظ اعتماد به دادهها
بخش ۵: AWS Athena
پرسوجو در مجموعهدادههای عظیم با AWS Athena(موتور SQL بدون سرور)
یادگیری DDL، Glue Catalog، گروههای کاری و اتوماسیون با Boto3
مقایسه Athena، Presto و Trino
بهکارگیری استراتژیهای بهینهسازی برای افزایش عملکرد
بخش ۶: Apache Spark روی AWS EMR
ساخت خط لولههای PySparkمقیاسپذیر با الگوی Write-Audit-Publish (WAP)
درک معماری Spark و APIهای آن
اجرای جابهای Spark در سطح عملیاتیروی AWS EMR
بهکارگیری UDFها و بررسیهای کیفیت دادهدر تبدیلات
بخش ۷: ارکستراسیون با Apache Airflow
تسلط بر مدیریت جریانهای کاری (Orchestration)با استفاده از Apache Airflow
طراحی DAGها، مدیریت وابستگیها و زمانبندی جابها
اتوماسیون جابهای Spark با استفاده از یک پلاگین سفارشی AWS EMR
ساخت راهکارهای ارکستراسیون قابل اعتماد و بازقابلاستفاده
آنچه خواهید ساخت
در پایان دوره، شما پلتفرم دادهای در سطح عملیاتیبرای یک شرکت تاکسی آنلاین خواهید ساخت که شامل موارد زیر است:
یک دریاچه داده (Data Lake)روی AWS S3
مدل داده ابعادیبا منطق SCD
خط لولههای ETL بر پایه PySpark
ارکستراسیون خودکاربا Airflow
لایه پرسوجو (Query layer)قدرت گرفته از Athena
چارچوب کیفیت دادهبرای اعتبارسنجی و مانیتورینگ
این دوره برای چه کسانی است
علاقمندان به مهندسی دادهو توسعهدهندگان ETL
تحلیلگران یا مهندسان نرمافزارکه قصد ورود به نقشهای دادهای را دارند
هر کسی که مشتاق ساخت سیستمهای داده مقیاسپذیرروی ابری است
چرا از من یاد بگیرید
من andalib ansariهستم، معمار دادهبا بیش از ۱۲ سال تجربه در طراحی و پیادهسازی پلتفرمهای داده و راهکارهای تحلیلیدر صنایع مختلف. هدف من این است که شما را در مهارتهای عملی مهندسی داده، و نه فقط تئوری، به درجهای از اعتماد به نفس برسانم.
همین حالا ثبتنام کنید
از کد تخفیف DEBS12025 برای قیمت ویژه استفاده کنید. اولین قدم را در مسیر مهندسی دادهبردارید و از همین امروز ساخت خط لولههای داده واقعیخود را شروع کنید!
Andalib Ansari
مشاور کلان داده
عندلیب انصاری یک مشاور کلان داده مستقر در بمبئی است. او به شرکت ها و مردم کمک می کند تا مشکلات تجاری را با استفاده از فناوری های Big Data حل کنند. همچنین یکی از علایق او، راهنمایی و آموزش افراد در مورد ابزارها و فناوری های مختلف Big Data است.
او در معرض دید بسیار مناسبی از ابزارها و فناوریهای Big Data است و با مشتریان مختلف، اپراتورهای شبکه تلفن همراه (MNO)، از آمریکای لاتین و ایالات متحده برای حل مشکلات تجاری مختلف برای موارد مختلف کار کرده است. و خطوط لوله داده بهینهسازی شده را با استفاده از فناوریهای Big Data در فضای ابری طراحی کرد.
نمایش نظرات