آموزش آپاچی آیس‌برگ (Apache Iceberg): راهنمای جامع برای مبتدیان - آخرین آپدیت

دانلود Apache Iceberg: The Beginner's Guide

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: طراحی مهندسی داده‌های سریع، دیتا لیک‌ها و دیتا لیک‌هاوس با استفاده از Spark، Databricks، Snowflake، DuckDB و Polars - آموزش عملی درک عمیق معماری Apache Iceberg، نقش آن در اکوسیستم مدرن دیتا لیک‌هاوس و دلیل برتری آن نسبت به فرمت‌های سنتی جدول را بیاموزید. یاد بگیرید چگونه با استفاده از پایتون (PyIceberg)، رابط‌های SQL و کاتالوگ‌های متادیتا، جداول Iceberg را ایجاد، مدیریت و کوئری کنید — همراه با مثال‌های عملی از دنیای واقعی. پایپ‌لاین‌های داده‌ای Batch و Streaming با کارایی بالا را از طریق یکپارچه‌سازی Iceberg با موتورهای پیشرو مانند Apache Spark، Polars، Trino و DuckDB بسازید. کار با ذخیره‌سازهای Cloud-Native مانند AWS S3 را بررسی کرده و جداول مقیاس‌پذیر Iceberg را برای تحلیل‌های توزیع‌شده در ابعاد بزرگ طراحی کنید. تکنیک‌های بهینه‌سازی عملکرد مانند File Compaction، Partition Pruning و Metadata Caching را برای افزایش سرعت کوئری‌ها و کاهش هزینه‌های پردازشی به کار بگیرید. با ابزارهای تحلیلی مدرن پایتون مانند Polars و DuckDB برای پردازش سریع در حافظه (In-Memory) کار کنید تا جریان‌های کاری اکتشاف، تست و اعتبارسنجی داده‌ها را تسریع بخشید. پیش نیازها: دانش پایه پایتون، SQL و مفاهیم داده‌ها مفید است، اما هیچ تجربه قبلی در مورد Apache Iceberg یا ابزارهای ابری مورد نیاز نیست.

به دوره مهندسی دیتا لیک‌هاوس با Apache Iceberg: از مبانی تا بهترین تجربیات خوش آمدید — راهنمای کامل شما برای تسلط بر نسل بعدی فرمت‌های جدول باز (Open Table Formats) برای تحلیل داده‌ها در مقیاس بزرگ.


در حالی که دنیای داده‌ها از دیتا لیک‌های سنتی و انبار داده‌های گران‌قیمت فاصله می‌گیرد، Apache Iceberg به سرعت در حال تبدیل شدن به سنگ بنای معماری مدرن داده‌ها است. آیس‌برگ که برای مجموعه‌داده‌های در مقیاس پتابایت طراحی شده، قابلیت‌هایی نظیر تراکنش‌های ACID، تکامل شمای داده (Schema Evolution)، سفر در زمان (Time Travel)، حذف پارتیشن‌های غیرضروری و سازگاری با موتورهای مختلف را در یک فرمت باز و مستقل از فروشنده ارائه می‌دهد.


در این دوره عملی، شما بسیار فراتر از مبانی خواهید رفت. شما پایپ‌لاین‌های واقعی دیتا لیک‌هاوس را با استفاده از ابزارهای قدرتمندی مانند موارد زیر خواهید ساخت:

PyIceberg – دسترسی برنامه‌نویسی به جداول Iceberg در پایتون
Polars – کتابخانه DataFrame فوق سریع برای تغییرات در حافظه
DuckDB – موتور SQL محلی قدرتمند برای توسعه تعاملی
Apache Spark – برای پردازش‌های دسته‌ای و استریم در مقیاس بزرگ
AWS S3 – ذخیره‌ساز اشیاء ابری برای جداول Iceberg
و بسیاری دیگر: SQL، Parquet، Glue، Athena و ابزارهای مدرن متن‌باز


چه چیزی این دوره را خاص می‌کند؟


  • عملی و غنی از ابزار: فقط Spark نیست! یاد بگیرید چگونه از Iceberg با موتورهای مدرن مانند Polars، DuckDB، Databricks و Snowflake استفاده کنید.

  • معماری آماده برای ابر: یاد بگیرید چگونه جداول Iceberg خود را روی AWS S3 ذخیره و مدیریت کنید تا استقرار مقیاس‌پذیر و مقرون‌به‌صرفه‌ای داشته باشید.

  • مفاهیم + پروژه‌های کاربردی: مفاهیمی مانند فرمت‌های جدول، مدیریت کاتالوگ و تکامل شما را درک کرده و سپس آن‌ها را روی مجموعه‌داده‌های واقعی پیاده‌سازی کنید.

  • تمرکز بر متن‌باز: بدون وابستگی به یک فروشنده خاص. شما پایپ‌لاین‌های interoperable را با استفاده از ابزارهای باز و جامعه‌محور خواهید ساخت.


آنچه خواهید آموخت:


  • چرایی و چگونگی استفاده از Apache Iceberg و نقش آن در اکوسیستم دیتا لیک‌هاوس

  • طراحی جداول Iceberg با تکامل شما، پارتیشن‌بندی و مدیریت متادیتا

  • نحوه کوئری و مدیریت جداول Iceberg با استفاده از Python (PyIceberg)، SQL و Spark

  • یکپارچه‌سازی واقعی با DuckDB و Polars

  • استفاده از S3 Object Storage برای جداول Iceberg ابری

  • پیاده‌سازی سفر در زمان (Time Travel)، خواندن‌های افزایشی و رول‌بک بر اساس Snapshot

  • بهینه‌سازی عملکرد با File Compaction، آمار (Statistics) و خوشه‌بندی (Clustering)

  • ساخت پایپ‌لاین‌های داده‌ای تکرارپذیر، مقیاس‌پذیر و قابل نگهداری


این دوره برای چه کسانی است؟


  • مهندسان داده و معمارانی که سیستم‌های مدرن لیک‌هاوس را می‌سازند

  • توسعه‌دهندگان پایتون که با مجموعه‌داده‌های بزرگ و تحلیل‌ها سروکار دارند

  • متخصصان ابری که از AWS S3 برای دیتا لیک‌ها استفاده می‌کنند

  • تحلیلگران یا مهندسانی که از Hive، Delta Lake یا انبارهای داده سنتی مهاجرت می‌کنند

  • هر کسی که به مهندسی داده، تحلیل و نوآوری‌های متن‌باز علاقه دارد


ابزارها و فناوری‌هایی که استفاده خواهید کرد:


  • Apache Iceberg, PyIceberg, Spark

  • DuckDB, Polars, Pandas, SQL, AWS S3, Parquet

  • یکپارچه‌سازی با Metastore/Catalogs (REST, Glue)

  • کار عملی با Jupyter Notebooks و CLI


در پایان این دوره، شما قادر خواهید بود راهکارهای دیتا لیک‌هاوس را طراحی، مستقر و مقیاس‌بندی کنید و از Apache Iceberg و اکوسیستم غنی ابزارهای متن‌باز با اعتماد به نفس و کارایی بالا استفاده نمایید.





سرفصل ها و درس ها

مقدمه‌ای بر Apache Iceberg Introduction to Apache Iceberg

  • مقایسه انبار داده، دیتا لیک و دیتا لیک‌هاوس Data Warehouse Vs. Data Lake Vs. Data Lakehouse

  • مسیر تبدیل انبار داده به دیتا لیک‌هاوس Data Warehouse to Data Lakehouse

  • تکامل صنعت و نقش Iceberg Iceberg & Industry Evolution

  • Apache Iceberg چیست؟ What is Apache Iceberg?

  • محدودیت‌های فرمت‌های سنتی جدول (Hive, Parquet و غیره) Limitations of traditional table formats (Hive, Parquet-only, etc.)

  • ویژگی‌های کلیدی Iceberg (تکامل شما، ACID، پارتیشن‌بندی و غیره) Key Features of Iceberg (schema evolution, ACID, partitioning, etc.)

  • پرسش و پاسخ Questions

معماری و طراحی Iceberg Iceberg Architecture and Design

  • پیش‌زمینه و تاریخچه Iceberg Iceberg Background

  • پرسش و پاسخ Questions

شروع کار با Iceberg Getting Start with Iceberg

  • نصب پایتون ۳.۱۰ در لینوکس Python 3.10 Linux Installation

  • نصب پایتون ۳.۱۰ در MacOS Python 3.10 MacOS Installation

  • نصب با استفاده از ترمینال Installation using Terminal

  • نصب Jupyter Notebook Jupyter Notebook Installation

  • نصب کتابخانه‌ها (PyIceberg, Polars, DuckDB) Libraries Installation (PyIceberg, Polars, DuckDB)

  • منابع آموزشی دوره Course Materials

  • درک مفهوم کاتالوگ‌ها Understanding of Catalogs

  • ایجاد و انتخاب رکوردها در PyIceberg PyIceberg Creating and Selecting Records

  • راه‌اندازی اولین کاتالوگ محلی در PyIceberg PyIceberg First Local Catalog Setup

  • فیلتر کردن رکوردها در کاتالوگ محلی PyIceberg PyIceberg Filtering Records on Local Catalog

استفاده از PyIceberg با Polars PyIceberg with Polars

  • مقدمه‌ای بر Polars Polars Introduction

  • مقایسه Pandas و Polars Pandas Vs. Polars

  • معماری Polars و Iceberg Polars and Iceberg Architecture

  • کار با Polars و کاتالوگ محلی Polars and Local Catalog

  • فیلتر کردن داده‌ها در Polars و کاتالوگ محلی Polars Filtering and Local Catalog

  • پرسش و پاسخ Questions

استفاده از PyIceberg با Spark PyIceberg with Spark

  • نصب جاوا ۱۷ در لینوکس Install: Java 17 on Linux

  • نصب جاوا ۱۷ در MacOS Install: Java 17 on MacOS

  • معماری Spark و Iceberg Spark and Iceberg Architecture

  • نصب PySpark به صورت محلی Install PySpark on Local

  • ایجاد کاتالوگ محلی در Spark Spark create Local Catalog

  • ایجاد جدول در کاتالوگ محلی Spark Spark Create Table in Local Catalog

  • ایجاد کاتالوگ محلی PyIceberg توسط PySpark PySpark Create Local Catalog on PyIceberg

  • ایجاد جدول در PySpark با استفاده از کوئری PySpark Create Table using Query

  • ایجاد جدول در PySpark با استفاده از کد PySpark Create Table using Code

  • انتخاب رکوردها از کاتالوگ محلی در PySpark PySpark Select Records from Local Catalog

  • توابع Aggregate در PySpark PySpark Aggregate Functions

  • فیلترهای PySpark روی کاتالوگ PySpark Filters on Catalog

  • پرسش و پاسخ Questions

  • پرسش و پاسخ Questions

استفاده از PyIceberg با DuckDB PyIceberg with DuckDB

  • مقدمه‌ای بر DuckDB Introduction of DuckDB

  • ویژگی‌های کلیدی DuckDB Key Features of DuckDB

  • خواندن جدول در DuckDB با استفاده از کاتالوگ DuckDB read Table using Catalog

  • اعمال فیلترها روی جداول کاتالوگ در DuckDB DuckDB applying Filters on Catalog Tables

  • پرسش و پاسخ Questions

استفاده از PyIceberg با PostgreSQL یا JDBC PyIceberg with PostgreSQL or JDBC

  • کاتالوگ PyIceberg با PostgreSQL PyIceberg Catalog with PostgreSQL

  • جداول متادیتای کاتالوگ Postgres Postgres Catalog Metadata Tables

استفاده از PyIceberg با ابر AWS (S3, Glue) PyIceberg with AWS Cloud (S3, Glue)

  • ساخت کاربر در AWS AWS User Creation

  • استفاده از PyIceberg با کاتالوگ S3 PyIceberg with S3 Catalog

  • استفاده از PyIceberg با Spark و کاتالوگ S3 PyIceberg with Spark & S3 Catalog

  • استفاده از PyIceberg با Spark و کاتالوگ Glue PyIceberg with Spark & Glue Catalog

  • استفاده از PyIceberg با DuckDB و کاتالوگ S3 PyIceberg with DuckDB & S3 Catalog

ویژگی‌های جداول Iceberg و ACID ACID – Iceberg Table Features

  • عملیات Insert و Update در Iceberg Insert & Update Operations on Iceberg

  • حذف رکوردها در Iceberg Deletion of Records on Iceberg

  • سفر در زمان (Time Travel) در PyIceberg با PySpark PyIceberg Time Traveling with PySpark

  • شما و تکامل (Evolution) در Iceberg Schema & Evolution in Iceberg

  • ویژگی‌های فشرده‌سازی جداول در Iceberg Compression Table Properties in Iceberg

  • پارتیشن‌بندی بدون ستون‌های پارتیشن Partitioning without partition columns

  • پارتیشن مخفی (Hidden Partition) در Iceberg Hidden Partition using Iceberg

کاتالوگ Nessie Nessie

  • مقدمه‌ای بر کاتالوگ Nessie Introduction of Nessie Catalog

  • نصب Nessie Nessie Installation

  • اولین مثال از کاتالوگ Nessie Nessie First Catalog Example

  • دستورات Nessie Nessie Commands

  • کار با شاخه‌ها (Branches) در Nessie Nessie Playing with Branches

  • ایجاد و حذف شاخه‌ها در Nessie Nessie Creating & Delete Branches

فرمت‌های باز جدول (Open Table Formats) Open Table Formats

  • مقایسه Iceberg، Delta Lake و Apache Hudi Iceberg Vs. Delta Lake Vs. Apache Hudi

  • انتخاب Iceberg: Databricks، Snowflake یا Trino Choosing Iceberg: Databricks, Snowflake or Trino

استفاده از Iceberg در Databricks Iceberg with Databricks

  • ثبت‌نام در نسخه Community Databricks Databricks Community Edition - Self Registration

  • بررسی رابط کاربری وب Databricks Databricks Web Interface Walkthrough

  • ساخت Notebook و اجرای SQL در Databricks Create Notebook & SQL in Databricks

  • عملیات روی جداول Iceberg Iceberg Table Operations

  • تکامل شما در Iceberg Schema Evolution in Iceberg

  • پارتیشن‌بندی جدول Partition Table

استفاده از Iceberg در Snowflake Iceberg with Snowflake

  • ثبت‌نام در Snowflake Snowflake - Registration

  • ایجاد نقش (Role) در AWS Create Role in AWS

  • اتصال Snowflake به External Volume در AWS Snowflake - AWS External Volume

  • ایجاد جدول Iceberg در Snowflake Create iceberg table in snowflake

  • عملیات Insert Insert Operation

  • عملیات Update Update Operation

  • عملیات Delete Delete operation

پروژه ۱: ساخت Duck lake متن‌باز روی Iceberg Project 1: Open Source Duck-lake on Iceberg

  • آپدیت DuckDB به نسخه ۱.۳ DuckDB Upgrade Version: 1.3

  • اتصال Ducklake به AWS S3 Ducklake AWS S3 Connection

  • متادیتای Ducklake Duck-lake Metadata

  • ردیابی تغییرات اسنپ‌شات متادیتا در Ducklake Duck-lake Track Metadata Snapshot Changes

  • خواندن فایل Parquet از S3 در Ducklake Duck-lake Read Parquet File from S 3

  • ویژگی سفر در زمان در Ducklake Duck-lake Time Travel Feature

  • ردیابی سفر در زمان بر اساس زمان در Ducklake Duck-lake track Time Travel using Time

  • تراکنش‌های ACID چندجدولی در Ducklake Duck-lake Multiple Table ACID Transactions

تمرین: طراحی یک دیتا لیک‌هاوس متن‌باز Practice: Design an Open Source Data Lakehouse

  • پرسش و پاسخ Question

  • بررسی معماری‌های احتمالی Potential Architecture

نمایش نظرات

آموزش آپاچی آیس‌برگ (Apache Iceberg): راهنمای جامع برای مبتدیان
جزییات دوره
8.5 hours
83
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
471
4.1 از 5
دارد
دارد
دارد
Neetu Bhushan
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Neetu Bhushan Neetu Bhushan

مهندس حرفه‌ای داده