یک دوره آموزشی کامل برای کمک به هر کسی که مهارت های اولیه SQL را دارد، dbt پیشرفته را یاد بگیرد، ابزاری کلیدی برای مهندسی Analytics!
به دوره 2023 Mastering dbt (ابزار ساخت داده) خوش آمدید! این دوره همه چیز را از تئوری پشت dbt گرفته تا ساخت یک پروژه پیشرفته dbt (از ابتدا) و استقرار آن در dbt Cloud را در بر می گیرد.
من بیش از 7 سال تجربه در زمینه Analytics/Analytics Engineering/Data Science دارم، از جمله 4 سال استفاده از dbt به صورت روزانه. من همچنین در زمان حضورم در Monzo Bank درگیر عرضه dbt بودم!
در این دوره من همه چیزهایی را که در طول 4 سال گذشته آموخته ام و آنچه را که به صورت روزانه استفاده می کنم، مطالعه کرده ام و آن را فشرده کرده ام تا هر کسی که SQL را می داند در سریع ترین زمان ممکن به سطح پیشرفته dbt برسد.
به روز رسانی های دوره:
آوریل 2023: محتوای بیشتری برای راه اندازی با استفاده از PowerShell (Windows) اضافه شد
مه 2023: محتوای جدید - dbt نسخه 1.5 (منتشر شده آوریل 2023)
ژوئن 2023: برای تقویت آموخته هایمان، سخنرانی های خلاصه مرور کلی به همه بخش ها اضافه شد
رویکرد من به این دوره:
ما همه چیزهایی را که باید در مورد dbt بدانید را پوشش خواهیم داد: از مدلسازی دادههای اولیه تا همه ویژگیهای پیشرفته مانند ایجاد تستهای سفارشی و ماکروها. ما این کار را گام به گام انجام می دهیم و از اصول اولیه به بالا می سازیم.
بر نتایج عملی متمرکز است - ما سن و سالی را صرف تئوری پایگاه داده نمیکنیم، یا وارد جزئیات زیادی در مجموعه دادههای تجارت الکترونیکی که استفاده خواهیم کرد، نخواهیم بود، در عوض قصد داریم شما را به سطوح پیشرفته dbt برسانیم. در اسرع وقت.
برای هر ویدیویی که در آن کد می نویسیم، پیوست های درس را با خروجی های نهایی ایجاد کرده ام. این به این معنی است که میتوانید در حین حرکت کدنویسی کنید، یا ویدیوها را تماشا کنید و پس از آن به جزوهها نگاه کنید! من همچنین برخی از نظریهها را با این جزوهها گنجاندهام تا به بررسی نکات مطرح شده در ویدیوها کمک کنم.
همچنین یک مخزن عمومی GitHub (که برای این دوره از آن استفاده خواهید کرد) وجود دارد که شامل یک مدل پروژه نهایی است که می توانید در سراسر آن به آن مراجعه کنید.
این دوره ثابت نیست! مایلم نظرات شما را بشنوم و این دوره را به طور مداوم به روز می کنم.
ساختار دوره:
این دوره ابتدا بر درک درستی از مشکلاتی که dbt حل میکند، سپس ساخت یک پروژه اولیه dbt، قبل از لایهبندی مفاهیم پیشرفتهتر و در نهایت پیادهسازی پروژه ما با dbt Cloud تمرکز دارد.
مقدمه
برخی از نظریه ها (<1 ساعت) در مورد dbt، چه مشکلاتی در پشته داده قبل از ظهور وجود داشت و چگونه آنها را حل می کند.
راه اندازی ابزار
راه اندازی با Python، GitHub، Google BigQuery، VSCode، و البته dbt! اگر قبلاً با هر یک از این ابزارها آشنایی دارید، می توانید از درس های مناسب صرف نظر کنید.
ما همچنین مجموعه داده های تجارت الکترونیک خیالی را که در طول دوره استفاده خواهیم کرد، بررسی خواهیم کرد.
ساختن پروژه اصلی dbt ما
این بخش بر ایجاد پروژه ما از ابتدا تمرکز دارد، از جمله اینکه چگونه پروژه خود را ساختار خواهیم داد.
ما مرحله بندی (stg)، متوسط (int) را ایجاد خواهیم کرد. و مدلهای دادههای مارت، از جمله آزمایش مستندات با آزمایشهای dbt خارج از جعبه.
تست پیشرفته dbt
ما شروع به ساختن بر روی پروژه اصلی dbt خود با تنظیم آستانه های شدت تست، استفاده از بسته های خارجی dbt-utils و dbt-expectations برای انتخاب عالی آنها از تست ها می کنیم، و کلی تکینگی سفارشی خود را ایجاد می کنیم. آزمایشات، و آزمایش تازگی داده های منبع ما.
مدلسازی پیشرفته داده با dbt
در مرحله بعد، نحوه ایجاد اسناد قابل استفاده مجدد، فایلهای اولیه (فایلهای .csv کنترلشده نسخه)، عکسهای فوری (گرفتن تغییرات در جداول داده) و روشهای تحقق را بررسی خواهیم کرد.
بیشتر این بخش بر روی قسمت آخر متمرکز خواهد شد - روش های مادی سازی: زودگذر، نمایش، جدول و افزایشی. در این مرحله ما با مدلهای جدول مشاهده مواجه خواهیم شد و هم یک مدل افزایشی و هم یک مدل زودگذر خواهیم ساخت - و شما متوجه خواهید شد که چه چیزی و چه زمانی باید استفاده کنید.
[**جدید**] - این بخش همچنین محتوای جدید از dbt نسخه 1.5 را پوشش می دهد: قراردادهای داده، نسخه های مدل و دسترسی به مدل.
دستورات پیشرفته dbt
این بخش کمتر بر روی تغییر پروژه dbt ما تمرکز می کند، اما در عوض تمام دستورات اصلی dbt و نحوه (و زمان) استفاده از آنها را بررسی می کند.
ماکروهای پیشرفته Jinja
تغییرات نهایی در پروژه ما شامل استفاده از Jinja - یکی از ویژگیهای اصلی dbt و احتمالاً پیچیدهترین اما قدرتمندترین ویژگی است - و استفاده از آن برای ایجاد ماکروهای خودمان است.
این بخش نحوه استفاده از ماکروهای Jinja برای قلاب ها، عملیات و به عنوان توابع قابل استفاده مجدد در مدل های SQL خود را نشان می دهد. همچنین برخی از تئوریهای مربوط به Jinja، اشتباهات رایج، و آنچه که من (شخصا) بیشتر برای آن مفید است را بررسی میکند!
dbt Cloud
در نهایت، نحوه اجرای پروژه خود و استقرار آن در dbt Cloud - از جمله نحوه برنامه ریزی برای اجرای منظم آن را بررسی خواهیم کرد. ما همچنین به خود dbt Cloud و مزایای اصلی آن نگاه خواهیم کرد.
مدیر تجزیه و تحلیل با بیش از 7 سال تجربه در داده
نمایش نظرات