دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش آپاچی آیس‌برگ (Apache Iceberg): راهنمای جامع برای مبتدیان - آخرین آپدیت

دانلود Apache Iceberg: The Beginner's Guide

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: طراحی مهندسی داده‌های سریع، دیتا لیک‌ها و دیتا لیک‌هاوس با استفاده از Spark، Databricks، Snowflake، DuckDB و Polars - آموزش عملی درک عمیق معماری Apache Iceberg، نقش آن در اکوسیستم مدرن دیتا لیک‌هاوس و دلیل برتری آن نسبت به فرمت‌های سنتی جدول را بیاموزید. یاد بگیرید چگونه با استفاده از پایتون (PyIceberg)، رابط‌های SQL و کاتالوگ‌های متادیتا، جداول Iceberg را ایجاد، مدیریت و کوئری کنید — همراه با مثال‌های عملی از دنیای واقعی. پایپ‌لاین‌های داده‌ای Batch و Streaming با کارایی بالا را از طریق یکپارچه‌سازی Iceberg با موتورهای پیشرو مانند Apache Spark، Polars، Trino و DuckDB بسازید. کار با ذخیره‌سازهای Cloud-Native مانند AWS S3 را بررسی کرده و جداول مقیاس‌پذیر Iceberg را برای تحلیل‌های توزیع‌شده در ابعاد بزرگ طراحی کنید. تکنیک‌های بهینه‌سازی عملکرد مانند File Compaction، Partition Pruning و Metadata Caching را برای افزایش سرعت کوئری‌ها و کاهش هزینه‌های پردازشی به کار بگیرید. با ابزارهای تحلیلی مدرن پایتون مانند Polars و DuckDB برای پردازش سریع در حافظه (In-Memory) کار کنید تا جریان‌های کاری اکتشاف، تست و اعتبارسنجی داده‌ها را تسریع بخشید. پیش نیازها: دانش پایه پایتون، SQL و مفاهیم داده‌ها مفید است، اما هیچ تجربه قبلی در مورد Apache Iceberg یا ابزارهای ابری مورد نیاز نیست.

به دوره مهندسی دیتا لیک‌هاوس با Apache Iceberg: از مبانی تا بهترین تجربیات خوش آمدید — راهنمای کامل شما برای تسلط بر نسل بعدی فرمت‌های جدول باز (Open Table Formats) برای تحلیل داده‌ها در مقیاس بزرگ.

در حالی که دنیای داده‌ها از دیتا لیک‌های سنتی و انبار داده‌های گران‌قیمت فاصله می‌گیرد، Apache Iceberg به سرعت در حال تبدیل شدن به سنگ بنای معماری مدرن داده‌ها است. آیس‌برگ که برای مجموعه‌داده‌های در مقیاس پتابایت طراحی شده، قابلیت‌هایی نظیر تراکنش‌های ACID، تکامل شمای داده (Schema Evolution)، سفر در زمان (Time Travel)، حذف پارتیشن‌های غیرضروری و سازگاری با موتورهای مختلف را در یک فرمت باز و مستقل از فروشنده ارائه می‌دهد.

در این دوره عملی، شما بسیار فراتر از مبانی خواهید رفت. شما پایپ‌لاین‌های واقعی دیتا لیک‌هاوس را با استفاده از ابزارهای قدرتمندی مانند موارد زیر خواهید ساخت:

PyIceberg – دسترسی برنامه‌نویسی به جداول Iceberg در پایتون
Polars – کتابخانه DataFrame فوق سریع برای تغییرات در حافظه
DuckDB – موتور SQL محلی قدرتمند برای توسعه تعاملی
Apache Spark – برای پردازش‌های دسته‌ای و استریم در مقیاس بزرگ
AWS S3 – ذخیره‌ساز اشیاء ابری برای جداول Iceberg
و بسیاری دیگر: SQL، Parquet، Glue، Athena و ابزارهای مدرن متن‌باز

چه چیزی این دوره را خاص می‌کند؟

عملی و غنی از ابزار: فقط Spark نیست! یاد بگیرید چگونه از Iceberg با موتورهای مدرن مانند Polars، DuckDB، Databricks و Snowflake استفاده کنید.
معماری آماده برای ابر: یاد بگیرید چگونه جداول Iceberg خود را روی AWS S3 ذخیره و مدیریت کنید تا استقرار مقیاس‌پذیر و مقرون‌به‌صرفه‌ای داشته باشید.
مفاهیم + پروژه‌های کاربردی: مفاهیمی مانند فرمت‌های جدول، مدیریت کاتالوگ و تکامل شما را درک کرده و سپس آن‌ها را روی مجموعه‌داده‌های واقعی پیاده‌سازی کنید.
تمرکز بر متن‌باز: بدون وابستگی به یک فروشنده خاص. شما پایپ‌لاین‌های interoperable را با استفاده از ابزارهای باز و جامعه‌محور خواهید ساخت.

آنچه خواهید آموخت:

چرایی و چگونگی استفاده از Apache Iceberg و نقش آن در اکوسیستم دیتا لیک‌هاوس
طراحی جداول Iceberg با تکامل شما، پارتیشن‌بندی و مدیریت متادیتا
نحوه کوئری و مدیریت جداول Iceberg با استفاده از Python (PyIceberg)، SQL و Spark
یکپارچه‌سازی واقعی با DuckDB و Polars
استفاده از S3 Object Storage برای جداول Iceberg ابری
پیاده‌سازی سفر در زمان (Time Travel)، خواندن‌های افزایشی و رول‌بک بر اساس Snapshot
بهینه‌سازی عملکرد با File Compaction، آمار (Statistics) و خوشه‌بندی (Clustering)
ساخت پایپ‌لاین‌های داده‌ای تکرارپذیر، مقیاس‌پذیر و قابل نگهداری

این دوره برای چه کسانی است؟

مهندسان داده و معمارانی که سیستم‌های مدرن لیک‌هاوس را می‌سازند
توسعه‌دهندگان پایتون که با مجموعه‌داده‌های بزرگ و تحلیل‌ها سروکار دارند
متخصصان ابری که از AWS S3 برای دیتا لیک‌ها استفاده می‌کنند
تحلیلگران یا مهندسانی که از Hive، Delta Lake یا انبارهای داده سنتی مهاجرت می‌کنند
هر کسی که به مهندسی داده، تحلیل و نوآوری‌های متن‌باز علاقه دارد

ابزارها و فناوری‌هایی که استفاده خواهید کرد:

Apache Iceberg, PyIceberg, Spark
DuckDB, Polars, Pandas, SQL, AWS S3, Parquet
یکپارچه‌سازی با Metastore/Catalogs (REST, Glue)
کار عملی با Jupyter Notebooks و CLI

در پایان این دوره، شما قادر خواهید بود راهکارهای دیتا لیک‌هاوس را طراحی، مستقر و مقیاس‌بندی کنید و از Apache Iceberg و اکوسیستم غنی ابزارهای متن‌باز با اعتماد به نفس و کارایی بالا استفاده نمایید.

سرفصل ها و درس ها

مقدمه‌ای بر Apache Iceberg Introduction to Apache Iceberg

مقایسه انبار داده، دیتا لیک و دیتا لیک‌هاوس Data Warehouse Vs. Data Lake Vs. Data Lakehouse
مسیر تبدیل انبار داده به دیتا لیک‌هاوس Data Warehouse to Data Lakehouse
تکامل صنعت و نقش Iceberg Iceberg & Industry Evolution
Apache Iceberg چیست؟ What is Apache Iceberg?
محدودیت‌های فرمت‌های سنتی جدول (Hive, Parquet و غیره) Limitations of traditional table formats (Hive, Parquet-only, etc.)
ویژگی‌های کلیدی Iceberg (تکامل شما، ACID، پارتیشن‌بندی و غیره) Key Features of Iceberg (schema evolution, ACID, partitioning, etc.)
پرسش و پاسخ Questions

معماری و طراحی Iceberg Iceberg Architecture and Design

پیش‌زمینه و تاریخچه Iceberg Iceberg Background
پرسش و پاسخ Questions

شروع کار با Iceberg Getting Start with Iceberg

نصب پایتون ۳.۱۰ در لینوکس Python 3.10 Linux Installation
نصب پایتون ۳.۱۰ در MacOS Python 3.10 MacOS Installation
نصب با استفاده از ترمینال Installation using Terminal
نصب Jupyter Notebook Jupyter Notebook Installation
نصب کتابخانه‌ها (PyIceberg, Polars, DuckDB) Libraries Installation (PyIceberg, Polars, DuckDB)
منابع آموزشی دوره Course Materials
درک مفهوم کاتالوگ‌ها Understanding of Catalogs
ایجاد و انتخاب رکوردها در PyIceberg PyIceberg Creating and Selecting Records
راه‌اندازی اولین کاتالوگ محلی در PyIceberg PyIceberg First Local Catalog Setup
فیلتر کردن رکوردها در کاتالوگ محلی PyIceberg PyIceberg Filtering Records on Local Catalog

استفاده از PyIceberg با Polars PyIceberg with Polars

مقدمه‌ای بر Polars Polars Introduction
مقایسه Pandas و Polars Pandas Vs. Polars
معماری Polars و Iceberg Polars and Iceberg Architecture
کار با Polars و کاتالوگ محلی Polars and Local Catalog
فیلتر کردن داده‌ها در Polars و کاتالوگ محلی Polars Filtering and Local Catalog
پرسش و پاسخ Questions

استفاده از PyIceberg با Spark PyIceberg with Spark

نصب جاوا ۱۷ در لینوکس Install: Java 17 on Linux
نصب جاوا ۱۷ در MacOS Install: Java 17 on MacOS
معماری Spark و Iceberg Spark and Iceberg Architecture
نصب PySpark به صورت محلی Install PySpark on Local
ایجاد کاتالوگ محلی در Spark Spark create Local Catalog
ایجاد جدول در کاتالوگ محلی Spark Spark Create Table in Local Catalog
ایجاد کاتالوگ محلی PyIceberg توسط PySpark PySpark Create Local Catalog on PyIceberg
ایجاد جدول در PySpark با استفاده از کوئری PySpark Create Table using Query
ایجاد جدول در PySpark با استفاده از کد PySpark Create Table using Code
انتخاب رکوردها از کاتالوگ محلی در PySpark PySpark Select Records from Local Catalog
توابع Aggregate در PySpark PySpark Aggregate Functions
فیلترهای PySpark روی کاتالوگ PySpark Filters on Catalog
پرسش و پاسخ Questions
پرسش و پاسخ Questions

استفاده از PyIceberg با DuckDB PyIceberg with DuckDB

مقدمه‌ای بر DuckDB Introduction of DuckDB
ویژگی‌های کلیدی DuckDB Key Features of DuckDB
خواندن جدول در DuckDB با استفاده از کاتالوگ DuckDB read Table using Catalog
اعمال فیلترها روی جداول کاتالوگ در DuckDB DuckDB applying Filters on Catalog Tables
پرسش و پاسخ Questions

استفاده از PyIceberg با PostgreSQL یا JDBC PyIceberg with PostgreSQL or JDBC

کاتالوگ PyIceberg با PostgreSQL PyIceberg Catalog with PostgreSQL
جداول متادیتای کاتالوگ Postgres Postgres Catalog Metadata Tables

استفاده از PyIceberg با ابر AWS (S3, Glue) PyIceberg with AWS Cloud (S3, Glue)

ساخت کاربر در AWS AWS User Creation
استفاده از PyIceberg با کاتالوگ S3 PyIceberg with S3 Catalog
استفاده از PyIceberg با Spark و کاتالوگ S3 PyIceberg with Spark & S3 Catalog
استفاده از PyIceberg با Spark و کاتالوگ Glue PyIceberg with Spark & Glue Catalog
استفاده از PyIceberg با DuckDB و کاتالوگ S3 PyIceberg with DuckDB & S3 Catalog

ویژگی‌های جداول Iceberg و ACID ACID – Iceberg Table Features

عملیات Insert و Update در Iceberg Insert & Update Operations on Iceberg
حذف رکوردها در Iceberg Deletion of Records on Iceberg
سفر در زمان (Time Travel) در PyIceberg با PySpark PyIceberg Time Traveling with PySpark
شما و تکامل (Evolution) در Iceberg Schema & Evolution in Iceberg
ویژگی‌های فشرده‌سازی جداول در Iceberg Compression Table Properties in Iceberg
پارتیشن‌بندی بدون ستون‌های پارتیشن Partitioning without partition columns
پارتیشن مخفی (Hidden Partition) در Iceberg Hidden Partition using Iceberg

کاتالوگ Nessie Nessie

مقدمه‌ای بر کاتالوگ Nessie Introduction of Nessie Catalog
نصب Nessie Nessie Installation
اولین مثال از کاتالوگ Nessie Nessie First Catalog Example
دستورات Nessie Nessie Commands
کار با شاخه‌ها (Branches) در Nessie Nessie Playing with Branches
ایجاد و حذف شاخه‌ها در Nessie Nessie Creating & Delete Branches

فرمت‌های باز جدول (Open Table Formats) Open Table Formats

مقایسه Iceberg، Delta Lake و Apache Hudi Iceberg Vs. Delta Lake Vs. Apache Hudi
انتخاب Iceberg: Databricks، Snowflake یا Trino Choosing Iceberg: Databricks, Snowflake or Trino

استفاده از Iceberg در Databricks Iceberg with Databricks

ثبت‌نام در نسخه Community Databricks Databricks Community Edition - Self Registration
بررسی رابط کاربری وب Databricks Databricks Web Interface Walkthrough
ساخت Notebook و اجرای SQL در Databricks Create Notebook & SQL in Databricks
عملیات روی جداول Iceberg Iceberg Table Operations
تکامل شما در Iceberg Schema Evolution in Iceberg
پارتیشن‌بندی جدول Partition Table

استفاده از Iceberg در Snowflake Iceberg with Snowflake

ثبت‌نام در Snowflake Snowflake - Registration
ایجاد نقش (Role) در AWS Create Role in AWS
اتصال Snowflake به External Volume در AWS Snowflake - AWS External Volume
ایجاد جدول Iceberg در Snowflake Create iceberg table in snowflake
عملیات Insert Insert Operation
عملیات Update Update Operation
عملیات Delete Delete operation

پروژه ۱: ساخت Duck lake متن‌باز روی Iceberg Project 1: Open Source Duck-lake on Iceberg

آپدیت DuckDB به نسخه ۱.۳ DuckDB Upgrade Version: 1.3
اتصال Ducklake به AWS S3 Ducklake AWS S3 Connection
متادیتای Ducklake Duck-lake Metadata
ردیابی تغییرات اسنپ‌شات متادیتا در Ducklake Duck-lake Track Metadata Snapshot Changes
خواندن فایل Parquet از S3 در Ducklake Duck-lake Read Parquet File from S 3
ویژگی سفر در زمان در Ducklake Duck-lake Time Travel Feature
ردیابی سفر در زمان بر اساس زمان در Ducklake Duck-lake track Time Travel using Time
تراکنش‌های ACID چندجدولی در Ducklake Duck-lake Multiple Table ACID Transactions

تمرین: طراحی یک دیتا لیک‌هاوس متن‌باز Practice: Design an Open Source Data Lakehouse

پرسش و پاسخ Question
بررسی معماری‌های احتمالی Potential Architecture

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش آپاچی آیس‌برگ (Apache Iceberg): راهنمای جامع برای مبتدیان

جزییات دوره

زمان دوره: 8.5 hours

تعداد ویدیو ها: 83

شرکت: Udemy (یودمی)

تاریخ انتشار مرجع: (آخرین آپدیت)

ثبت نام مرجع : 471

امتیاز مرجع: 4.1 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Neetu Bhushan

لینک کوتاه این دوره

https://donyad.com/d/17d49e

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

ابزارهای توسعه

توسعه

آموزش آپاچی آیس‌برگ (Apache Iceberg): راهنمای جامع برای مبتدیان - آخرین آپدیت

دانلود Apache Iceberg: The Beginner's Guide

مقدمه‌ای بر Apache Iceberg Introduction to Apache Iceberg

مقایسه انبار داده، دیتا لیک و دیتا لیک‌هاوس Data Warehouse Vs. Data Lake Vs. Data Lakehouse

مسیر تبدیل انبار داده به دیتا لیک‌هاوس Data Warehouse to Data Lakehouse

تکامل صنعت و نقش Iceberg Iceberg & Industry Evolution

Apache Iceberg چیست؟ What is Apache Iceberg?

محدودیت‌های فرمت‌های سنتی جدول (Hive, Parquet و غیره) Limitations of traditional table formats (Hive, Parquet-only, etc.)

ویژگی‌های کلیدی Iceberg (تکامل شما، ACID، پارتیشن‌بندی و غیره) Key Features of Iceberg (schema evolution, ACID, partitioning, etc.)

پرسش و پاسخ Questions

معماری و طراحی Iceberg Iceberg Architecture and Design

پیش‌زمینه و تاریخچه Iceberg Iceberg Background

پرسش و پاسخ Questions

شروع کار با Iceberg Getting Start with Iceberg

نصب پایتون ۳.۱۰ در لینوکس Python 3.10 Linux Installation

نصب پایتون ۳.۱۰ در MacOS Python 3.10 MacOS Installation

نصب با استفاده از ترمینال Installation using Terminal

نصب Jupyter Notebook Jupyter Notebook Installation

نصب کتابخانه‌ها (PyIceberg, Polars, DuckDB) Libraries Installation (PyIceberg, Polars, DuckDB)

منابع آموزشی دوره Course Materials

درک مفهوم کاتالوگ‌ها Understanding of Catalogs

ایجاد و انتخاب رکوردها در PyIceberg PyIceberg Creating and Selecting Records

راه‌اندازی اولین کاتالوگ محلی در PyIceberg PyIceberg First Local Catalog Setup

فیلتر کردن رکوردها در کاتالوگ محلی PyIceberg PyIceberg Filtering Records on Local Catalog

استفاده از PyIceberg با Polars PyIceberg with Polars

مقدمه‌ای بر Polars Polars Introduction

مقایسه Pandas و Polars Pandas Vs. Polars

معماری Polars و Iceberg Polars and Iceberg Architecture

کار با Polars و کاتالوگ محلی Polars and Local Catalog

فیلتر کردن داده‌ها در Polars و کاتالوگ محلی Polars Filtering and Local Catalog

پرسش و پاسخ Questions

استفاده از PyIceberg با Spark PyIceberg with Spark

نصب جاوا ۱۷ در لینوکس Install: Java 17 on Linux

نصب جاوا ۱۷ در MacOS Install: Java 17 on MacOS

معماری Spark و Iceberg Spark and Iceberg Architecture

نصب PySpark به صورت محلی Install PySpark on Local

ایجاد کاتالوگ محلی در Spark Spark create Local Catalog

ایجاد جدول در کاتالوگ محلی Spark Spark Create Table in Local Catalog

ایجاد کاتالوگ محلی PyIceberg توسط PySpark PySpark Create Local Catalog on PyIceberg

ایجاد جدول در PySpark با استفاده از کوئری PySpark Create Table using Query

ایجاد جدول در PySpark با استفاده از کد PySpark Create Table using Code

انتخاب رکوردها از کاتالوگ محلی در PySpark PySpark Select Records from Local Catalog

توابع Aggregate در PySpark PySpark Aggregate Functions

فیلترهای PySpark روی کاتالوگ PySpark Filters on Catalog

پرسش و پاسخ Questions

پرسش و پاسخ Questions

استفاده از PyIceberg با DuckDB PyIceberg with DuckDB

مقدمه‌ای بر DuckDB Introduction of DuckDB

ویژگی‌های کلیدی DuckDB Key Features of DuckDB

خواندن جدول در DuckDB با استفاده از کاتالوگ DuckDB read Table using Catalog

اعمال فیلترها روی جداول کاتالوگ در DuckDB DuckDB applying Filters on Catalog Tables

پرسش و پاسخ Questions

استفاده از PyIceberg با PostgreSQL یا JDBC PyIceberg with PostgreSQL or JDBC

کاتالوگ PyIceberg با PostgreSQL PyIceberg Catalog with PostgreSQL

جداول متادیتای کاتالوگ Postgres Postgres Catalog Metadata Tables

استفاده از PyIceberg با ابر AWS (S3, Glue) PyIceberg with AWS Cloud (S3, Glue)

ساخت کاربر در AWS AWS User Creation

استفاده از PyIceberg با کاتالوگ S3 PyIceberg with S3 Catalog

استفاده از PyIceberg با Spark و کاتالوگ S3 PyIceberg with Spark & S3 Catalog

استفاده از PyIceberg با Spark و کاتالوگ Glue PyIceberg with Spark & Glue Catalog

استفاده از PyIceberg با DuckDB و کاتالوگ S3 PyIceberg with DuckDB & S3 Catalog

ویژگی‌های جداول Iceberg و ACID ACID – Iceberg Table Features

عملیات Insert و Update در Iceberg Insert & Update Operations on Iceberg

حذف رکوردها در Iceberg Deletion of Records on Iceberg

سفر در زمان (Time Travel) در PyIceberg با PySpark PyIceberg Time Traveling with PySpark

شما و تکامل (Evolution) در Iceberg Schema & Evolution in Iceberg

ویژگی‌های فشرده‌سازی جداول در Iceberg Compression Table Properties in Iceberg

پارتیشن‌بندی بدون ستون‌های پارتیشن Partitioning without partition columns

پارتیشن مخفی (Hidden Partition) در Iceberg Hidden Partition using Iceberg

کاتالوگ Nessie Nessie

مقدمه‌ای بر کاتالوگ Nessie Introduction of Nessie Catalog

نصب Nessie Nessie Installation

اولین مثال از کاتالوگ Nessie Nessie First Catalog Example

دستورات Nessie Nessie Commands

کار با شاخه‌ها (Branches) در Nessie Nessie Playing with Branches

ایجاد و حذف شاخه‌ها در Nessie Nessie Creating & Delete Branches

فرمت‌های باز جدول (Open Table Formats) Open Table Formats

مقایسه Iceberg، Delta Lake و Apache Hudi Iceberg Vs. Delta Lake Vs. Apache Hudi