انباره داده و ETL در ابر AWS: راهنمای جامع
یادگیری جامع انباره داده، ETL، اتوماسیون و تحلیل داده در AWS با Redshift، Glue، Athena و QuickSight.
راه اندازی انباره داده در ابر آمازون با Redshift از ابتدا
این بخش به شما نحوه راهاندازی یک انباره داده قدرتمند در سرویس Redshift آمازون را از پایه آموزش میدهد.
آشنایی با AWS Athena و کاربردهای آن
با سرویس AWS Athena آشنا شوید و بیاموزید که چه زمانی از آن برای پرسوجوهای تعاملی بر روی دادههایتان استفاده کنید.
ذخیرهسازی دادهها در دریاچههای داده S3 با فرمت پارکت
نحوه ذخیره دادهها در دریاچههای داده S3 با استفاده از فرمتهای ستونی فایل Parquet را بیاموزید و فرآیند اسکن دادهها با Athena را بهینه کنید.
اتوماسیون فرآیندهای ETL با استفاده از کامپوننتهای بدون سرور AWS
یاد بگیرید چگونه فرآیندهای ETL را با استفاده از کامپوننتهای بدون سرور مختلف مانند AWS Glue، Data Pipeline و Lambda Functions خودکار کنید.
متمرکزسازی دادهها با Redshift Spectrum
با Redshift Spectrum، دادههای خود را در یک مکان مرکزی مدیریت و تحلیل کنید.
فعالسازی و خودکارسازی مشاغل Glue با Lambda Functions
نحوه فعالسازی و خودکارسازی مشاغل AWS Glue را با استفاده از Lambda Functions بیاموزید.
استخراج دادهها در QuickSight برای تحلیل و مصورسازی
نحوه انتقال دادهها به QuickSight، ابزار تحلیل و مصورسازی داده (BI) از AWS را یاد بگیرید.
چرا این دوره را انتخاب کنید؟
AWS Cloud به دلیل اکوسیستم گستردهاش میتواند برای بسیاری از افراد ترسناک و گیجکننده به نظر برسد، اما این دوره یادگیری عملی راهاندازی انباره داده در Redshift یا زیرساخت BI را از ابتدا برای همه آسان میکند.
دانشمندان داده، تحلیلگران داده و تحلیلگران کسبوکار بهزودی (اگر در حال حاضر نیستند) باید در همه زمینهها توانا باشند و جنبه فنی ورود دادهها، مهندسی داده و انباره داده را مدیریت کنند.
هر کسی که درک اساسی از نحوه کارکرد ابر داشته باشد، میتواند از این دوره بهرهمند شود زیرا:
- این دوره با در نظر گرفتن چرخه عمر کامل یک پروژه معمول مهندسی داده طراحی شده است.
- راهکارهای عملی برای موارد استفاده واقعی ارائه میدهد.
محتوای دوره
- راهاندازی انباره داده در AWS Redshift از ابتدا
- مفاهیم اساسی انباره داده
- نوشتن مشاغل AWS Glue بدون سرور (pyspark و python shell) برای ETL و پردازش دستهای
- AWS Athena برای تحلیلهای موردی (چه زمانی از Athena استفاده کنیم)
- AWS Data Pipeline برای همگامسازی دادههای افزایشی
- Lambda functions برای فعالسازی و خودکارسازی فرآیندهای ETL/همگامسازی داده
- راهاندازی QuickSight، تحلیلها و داشبوردها
پیشنیازهای دوره
- Python / Sql (کاملاً ضروری)
- PySpark (باید بدانید چگونه چند اسکریپت پایه PySpark بنویسید)
- میل به کاوش، یادگیری و تلاش بیشتر برای موفقیت
- یک حساب فعال AWS
نکات مهم
نکته مهم: این دوره از سطوح رایگان Redshift و RDS استفاده میکند، بنابراین تا زمانی که از سطح رایگان فراتر نروید، هزینهای برای شما منظور نخواهد شد که این میزان برای تمرین کافی است.
همچنین، این دوره از رابط کاربری AWS در مرورگر برای ایجاد کلاسترها و راهاندازی مشاغل استفاده میکند و هیچ اسکریپت نویسی در خط فرمان (bash) وجود ندارد. شما میتوانید از هر سیستم عاملی برای انجام جلسات عملی در این دوره استفاده کنید.
این دوره از نظر کدنویسی سنگین نیست؛ تنها ۳۵٪ آن مربوط به کدنویسی است و بقیه مربوط به اجرا، درک و اتصال اجزای مختلف به یکدیگر است. هدف اصلی این دوره، آگاهی و راحتی همه با تمام ابزارها/ویژگیهای استفاده شده در دوره است.
نکات اضافی
- سعی کنید ویدیوها را با سرعت 1.2X تماشا کنید.
- هر بار که روی یک جزء یا ویژگی جدید کار میکنید، در مورد ابزارهای دیگر با همان هدف تحقیق کنید و تفاوتها و جنبههای آنها را بررسی کنید. به عنوان مثال، Redshift/Athena در مقابل Snowflake یا Bigquery، یا QuickSight در مقابل PowerBI یا Microstrategy.
No Latency
نمایش نظرات