راهنمای کامل دریاچه‌های داده و خانه‌های دریاچه

Complete Guide to Data Lakes and Lakehouses

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: در این دوره، مهندس داده و نویسنده فنی Thalia Barrera یک مرور کلی مقدماتی و در عین حال جامع از دریاچه های داده ارائه می دهد. در مورد مفاهیم کلیدی مانند معماری دریاچه داده، عملیات، و ادغام با سیستم های داده موجود بیاموزید. بررسی کنید که دریاچه های داده چگونه در جریان کار هوش مصنوعی و یادگیری ماشینی یکپارچه هستند. تفاوت‌های بین دریاچه‌های داده، انبارهای داده و پایگاه‌های داده را بررسی کنید. فرمت های مختلف داده و کاربرد آنها را در محیط دریاچه داده کاوش کنید. از تمرین‌های عملی برای تمرین راه‌اندازی یک دریاچه داده اولیه و انجام عملیات داده ساده استفاده کنید. پس از اتمام این دوره، برای تصمیم گیری آگاهانه در مورد پیاده سازی و مدیریت دریاچه های داده در سازمان خود مجهز خواهید شد.

سرفصل ها و درس ها

مقدمه Introduction

  • آنچه شما باید بدانید What you should know

  • پیش نمایش پروژه Capstone Capstone project preview

  • دریاچه های داده، خانه های دریاچه و موارد دیگر Data lakes, lakehouses, and more

1. مقدمه ای بر دریاچه های داده 1. Introduction to Data Lakes

  • دریاچه داده چیست؟ What is a data lake?

  • اجزای اصلی معماری Architecture core components

  • دریاچه داده در مقابل مش داده Data lake vs. data mesh

  • خاستگاه و تکامل Origins and evolution

  • دریاچه داده در مقابل انبار داده Data lake vs. data warehouse

2. ذخیره سازی در دریاچه های داده 2. Storage In Data Lakes

  • انواع ذخیره سازی Storage types

  • میزبانی ذخیره سازی Storage hosting

  • ساختار پوشه ها Folder structures

  • فرمت های فایل File formats

  • فشرده سازی داده ها Data compression

  • راه حل های ذخیره سازی: S3، GCS و Azure Blob Storage و HDFS Storage solutions: S3, GCS and Azure Blob Storage and HDFS

  • پارتیشن بندی داده ها Data partitioning

3. بلع داده ها در دریاچه های داده 3. Data Ingestion in Data Lakes

  • ETL در مقابل ELT ETL vs. ELT

  • مدیریت خطا، ثبت و نظارت Error handling, logging, and monitoring

  • پلتفرم های جذب داده Data ingestion platforms

  • روش های بلع داده ها Data ingestion methods

  • ارکستراسیون Orchestration

  • کیفیت داده ها Data quality

  • تبدیل داده ها Data transformation

4. مدیریت داده ها و حاکمیت در دریاچه های داده 4. Data Management and Governance in Data Lakes

  • اصل و نسب داده Data lineage

  • امنیت داده ها، حریم خصوصی و انطباق Data security, privacy, and compliance

  • ابزارها و پلتفرم های مدیریت داده Data management tools and platforms

  • فهرست نویسی داده ها Data cataloging

  • مقدمه ای بر مدیریت و حاکمیت داده ها Introduction to data management and governance

  • مدیریت فراداده Metadata management

5. مقدمه ای بر Data Lakehouses 5. Introduction to Data Lakehouses

  • فرمت های جدول: دریاچه دلتا، کوه یخ آپاچی، آپاچی هودی Table formats: Delta Lake, Apache Iceberg, Apache Hudi

  • خانه دریاچه داده چیست؟ What is a data lakehouse?

  • مدیریت طرحواره Schema management

  • معاملات اسید ACID transactions

6. مصرف داده و موتورهای پرس و جو در دریاچه ها و خانه های دریاچه 6. Data Consumption and Query Engines in Lakes and Lakehouses

  • موتورهای پرس و جو تعاملی: Presto و Trino Interactive query engines: Presto and Trino

  • ملاحظات امنیتی مصرف داده Data consumption security considerations

  • مقدمه ای بر مصرف داده Introduction to data consumption

  • تجزیه و تحلیل داده های یکپارچه: Spark Unified data analysis: Spark

  • نمایه سازی داده ها Data indexing

  • SQL در Hadoop: Hive and Impala SQL on Hadoop: Hive and Impala

  • بهینه سازی عملکرد پرس و جو Optimizing query performance

7. بسترهای داده پیشرفته برای دریاچه ها و خانه های دریاچه 7. Advanced Data Platforms for Lakes and Lakehouses

  • پلتفرم های تحلیلی یکپارچه: Databricks و Snowflake Unified analytics platforms: Databricks and Snowflake

  • ابزارهای BI: Tableau، Power BI، Superset، Metabase BI tools: Tableau, Power BI, Superset, Metabase

  • انبارهای داده ابری: BigQuery، Azure Synapse و Redshift Cloud data warehouses: BigQuery, Azure Synapse, and Redshift

  • پلتفرم های داده سلف سرویس: Dremio و Starburst Self-service data platforms: Dremio and Starburst

  • API ها و خدمات برای مصرف داده APIs and services for data consumption

  • نوت بوک های تعاملی: Jupyter، Zeppelin، Databricks Interactive notebooks: Jupyter, Zeppelin, Databricks

8. Capstone: Building a Data Lakehouse 8. Capstone: Building a Data Lakehouse

  • بررسی اجمالی مدل های تبدیل Transformation models overview

  • نمای کلی مدل داده Data model overview

  • راه اندازی زیرساخت Infrastructure setup

  • هماهنگ سازی داده ها Data orchestration

  • نمای کلی پروژه Capstone Capstone project overview

  • مصرف داده های خام Raw data ingestion

  • نصب و راه اندازی پروژه و ارائه کد Project installation and code walkthrough

  • اجرای تبدیل داده ها Executing data transformations

  • راه حل: یک مدل داده با SQL بسازید Solution: Build a data model with SQL

9. Capstone: BI، Advanced Analytics و ML در Lakehouse 9. Capstone: BI, Advanced Analytics, and ML in the Lakehouse

  • اجرای پرس و جو و ایجاد مجموعه داده های مجازی Executing queries and creating virtual datasets

  • راه حل: تجزیه و تحلیل سلامت خودرو در Jupyter Solution: Vehicle health analytics in Jupyter

  • اتصال Dremio به نوت بوک Jupyter Connecting Dremio to Jupyter Notebook

  • تجزیه و تحلیل بررسی های محصول پیشرفته Advanced product reviews analytics

  • ایجاد داشبورد بازاریابی Creating a marketing dashboard

  • بررسی Dremio Dremio walkthrough

  • ایجاد مجموعه داده های مجازی پیچیده با استفاده از SQL Creating complex virtual datasets using SQL

  • اتصال Dremio به Apache Superset Connecting Dremio to Apache Superset

10. Capstone: هوش مصنوعی مولد در Lakehouse 10. Capstone: Generative AI in the Lakehouse

  • مقدمه ای بر LLM ها و جاسازی های برداری: لاما Introduction to LLMs and vector embeddings: Llama

  • Langchain چیست؟ What is Langchain?

  • مقدمه ای بر RAG (نسل تقویت شده بازیابی) Introduction to RAG (retrieval-augmented generation)

  • نمای کلی پروژه هوش مصنوعی مولد: خلبان فروش Generative AI project overview: Sales copilot

  • نصب و راه اندازی کد Installation and code walkthrough

  • مقدمه ای بر پایگاه های داده برداری: کروما Introduction to vector databases: Chroma

  • اجرای پروژه: با استفاده از Copilot Project execution: Using the copilot

نتیجه گیری Conclusion

  • مراحل بعدی در سفر داده شما Next steps on your data journey

  • خلاصه و نکات کلیدی Recap and key takeaways

نمایش نظرات

راهنمای کامل دریاچه‌های داده و خانه‌های دریاچه
جزییات دوره
5h 39m
71
Linkedin (لینکدین) Linkedin (لینکدین)
(آخرین آپدیت)
926
- از 5
ندارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Thalia Barrera Thalia Barrera

مهندس داده و نویسنده فنی

تالیا باررا یک مهندس داده و نویسنده فنی است.

Thalia یک نویسنده فنی متبحر در زمینه فناوری با بیش از یک دهه تجربه به عنوان مهندس در صنعت IT است. او از ساخت مواد فنی و آموزشی برای مخاطبان داخلی و خارجی، از جمله مهندسان دیگر لذت می برد. تخصص او در علوم کامپیوتر و ماهیت مشتری مداری او به او کمک می کند تا موضوعات پیچیده را به محتوایی قابل فهم تبدیل کند. Thalia به عنوان یک مهندس داده، بیش از پنج سال تجربه در توسعه برنامه‌های کاربردی فشرده داده، رسیدگی به مشکلات چالش برانگیز معماری و مقیاس‌پذیری در بخش‌ها و شرکت‌های مختلف صنعت، استارت‌آپ‌های اولیه تا شرکت‌های بزرگ دارد. او مدرک کارشناسی ارشد خود را در علوم کامپیوتر از Tecnológico de Monterrey گرفت.