آموزش مقدمه ای بر مهندسی داده با استفاده از هوش مصنوعی تولیدی

Introduction to Data Engineering using Generative AI

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: راهنمای مبتدیان برای GenAI و LLM برای تبدیل، بارگذاری و مدل‌سازی داده‌ها با پایتون و SQL از مدل‌های زبان بزرگ برای ایجاد کد پایتون برای پیاده‌سازی خطوط انتقال داده استفاده از LLM برای حل چالش‌های بارگذاری داده، تبدیل داده‌ها و ارزیابی کیفیت داده‌ها ایجاد پایگاه داده و مدل‌های داده‌های تحلیلی با استفاده از AI مولد ایجاد اسکریپت‌های Python، SQL و Bash برای اجرای کارهای رایج مهندسی داده‌ها

توضیحات به روز شده 3/12/2024


ابزارهای AI مولد مانند ChatGPT، Claude و Bard مهندسی داده را در دسترس‌تر و کارآمدتر می‌کنند. اگر با صفحات گسترده یا ابزارهای هوش تجاری کار می کنید اما با Python یا SQL خیلی آشنا نیستید، هوش مصنوعی مولد می تواند به شما در تجزیه و تحلیل داده ها و ایجاد خطوط لوله داده و فرآیندهای ETL/ELT خود کمک کند.

هوش مصنوعی و LLM های مولد جایگزین مهندسان داده یا تحلیلگران داده نمی شوند، اما کسانی که می دانند چگونه از این ابزارهای هوش مصنوعی استفاده کنند، می توانند خطوط لوله داده توانمندتر و قابل اعتمادتری را سریعتر بسازند. آن‌ها همچنین به ابزاری دسترسی خواهند داشت که می‌تواند به شما در توسعه مهارت‌های پایتون، SQL و مدل‌سازی داده‌ها با ارائه نمونه‌های متنوعی از کدهای کاربردی و کمک به پیام‌های خطا و فرآیندهای عیب‌یابی که طبق انتظار عمل نمی‌کنند، کمک کند.


تکنیک های مهندسی داده و همچنین ابزارهای مهندسی داده را بیاموزید

در این دوره آموزشی، شما یاد خواهید گرفت که چگونه مسائل مهندسی داده را به یک سری از وظایف تقسیم کنید که می توان با استفاده از Python، SQL، و اسکریپت های خط فرمان تولید شده توسط یک مدل زبان بزرگ (LLM) به صورت خودکار انجام شود.


> ترغیب یک هوش مصنوعی برای "تولید یک اسکریپت پردازش داده برای انجام X، Y و Z" احتمالاً نتایجی را که انتظار دارید به شما نخواهد رساند. LLM ها ابزار قدرتمندی هستند، اما اوراکل نیستند. مانند هر ابزار دیگری، ما باید بدانیم که ابزار چه توانایی هایی دارد و چگونه از قابلیت ها برای رفع نیازهای خود استفاده کنیم.

این دوره به شما نشان می دهد که چگونه در مورد تبدیل داده ها و مشکلات بارگذاری فکر کنید و اجزای یک راه حل را به صورت تدریجی بسازید. این دوره در چندین موضوع سازماندهی شده است که مهارت های اساسی مورد نیاز برای شروع کار در مهندسی داده با استفاده از GenAI را پوشش می دهد، از جمله:

  • مقدمه‌ای بر مدل‌های زبان بزرگ، مدل‌های پایه و سایر موضوعات هوش مصنوعی مرتبط با مهندسی داده. این دوره از هوش مصنوعی Claude از Anthropic استفاده می کند، یک مدل زبان بزرگ که هم برای تولید کد مهندسی داده مناسب است و هم استفاده از آن رایگان است.

  • کار با فایل‌های CSV و JSON

  • کیفیت داده‌ها و پاک‌سازی داده‌ها، از جمله آمار و تجسم‌ها

  • تبدیل استخراج و بار (ETL)/فرآیندهای استخراج، بارگذاری و تبدیل (ELT)

  • پایگاه‌های اطلاعاتی رابطه‌ای و NoSQL

  • مدل سازی داده ها با استفاده از الگوهای مدل داده های بعدی

  • کار با داده های JSON در پایگاه داده های رابطه ای مانند PostgreSQL


این دوره با ابتدایی ترین وظایف مهندسی داده آغاز می شود: کار با فایل ها. شما یاد خواهید گرفت که چگونه به سرعت فیلتر، تبدیل، و مشکلات را در مجموعه داده های ساخته شده از مقادیر جدا شده با کاما (CSV) و فایل های JSON پیدا کنید. همچنین خواهید دید که چگونه می‌توانیم نمونه‌هایی از مجموعه داده‌های بزرگ ایجاد کنیم تا راه‌حل‌های مختلف را برای نیازهای مهندس داده‌مان به طور مؤثر آزمایش کنیم. شما یاد خواهید گرفت که چگونه کدی تولید کنید که از ابزارهای خط فرمان مانند awk، ابزار پردازش متن و استخراج داده، و jq، ابزاری برای تجزیه، فیلتر کردن و تبدیل داده های JSON استفاده می کند. اگر با ابزارهایی مانند awk و jq آشنایی ندارید، مشکلی نیست. در این دوره، شما یاد خواهید گرفت که چگونه آنچه را که می خواهید در یک راه حل توصیف کنید تا LLM بتواند ابزار مناسبی را برای کار انتخاب کند.

کیفیت داده یک نگرانی اصلی در هر پروژه مهندسی داده است. خوشبختانه، با GenAI و درک پایه ای از بررسی کیفیت داده ها، می توانید به سرعت اسکریپت هایی را برای بررسی مشکلات رایج کیفیت داده تولید کنید و برای تصحیح این مشکلات تغییراتی را در داده ها اعمال کنید. آمار و تجسم ابزارهای مهمی برای تضمین کیفیت داده ها هستند. در این دوره یاد خواهید گرفت که چگونه از آمار و تجسم های اولیه برای کمک به کیفیت داده ها و کاوش داده ها استفاده کنید. و از آنجایی که هوش مصنوعی مولد برای تولید کد استفاده می‌شود، می‌توانید زمان بیشتری را صرف یادگیری آمار، تجسم‌ها و نحوه اعمال آن‌ها در دامنه مشکل خود کنید و زمان کمتری را برای یافتن خطاهای نحوی یا اشکال‌زدایی یک خطای منطقی در کد خود صرف کنید.

پایگاه های داده پایه و اساس بسیاری از برنامه ها و پلت فرم های تجزیه و تحلیل داده ها هستند. با پایگاه داده های رابطه ای و همچنین پایگاه های داده NoSQL و زمان استفاده از آنها آشنا خواهید شد. پایگاه‌های داده سیستم‌های پیچیده‌ای هستند که نیاز دارند تا نحوه ساختاردهی داده‌های خود را شرح دهیم. این فرآیند به عنوان مدل سازی داده ها شناخته می شود. این دوره به معرفی مدل سازی داده ها با تمرکز بر مدل سازی ابعادی، یک الگوی مدل داده رایج در تجزیه و تحلیل داده ها می پردازد. همچنین یاد خواهید گرفت که چگونه کد SQL را برای پیاده‌سازی مدل‌های ابعادی، بارگذاری داده‌ها در پایگاه داده خود، و جستجو و تجزیه و تحلیل داده‌ها پس از بارگیری، ایجاد کنید.

اکنون زمان بسیار خوبی برای تبدیل شدن به یک مهندس داده است زیرا تقاضا برای مهارت های مهندسی داده زیاد است و ما اکنون ابزارهایی در اختیار داریم که به ما امکان می دهد روی مشکلاتی که در حال حل آن هستیم تمرکز کنیم و در عین حال سرعت ایجاد مقیاس پذیر و قابل اعتماد را تسریع کنیم. خطوط لوله داده


سرفصل ها و درس ها

معرفی Introduction

  • معرفی Introduction

  • بررسی اجمالی دوره Course Overview

  • مهندسی داده، تجزیه و تحلیل داده ها و علم داده Data Engineering, Data Analysis, and Data Science

  • هوش مصنوعی و مدل‌های زبان بزرگ (LLM) Generative AI and Large Language Models (LLMs)

  • مفاهیم کلیدی آزمون GenAI Key Concepts of GenAI Quiz

کار با فایل های CSV Working with CSV Files

  • فایل های CSV و JSON CSV and JSON Files

  • ابزارهای خط فرمان برای کار با فایل ها Command Line Utilities for Working with Files

  • فیلتر کردن ردیف های یک فایل CSV Filtering Rows of a CSV File

  • ترکیب دستورات در اسکریپت شل Combining Commands in a Shell Script

  • آزمون فایل CSV CSV File Quiz

  • تخصیص عملی: داده ها را در یک فایل CSV با استفاده از اسکریپت bash فیلتر کنید Hands-on Assignment: Filter Data in a CSV File using a bash script

  • نمونه برداری با پایتون Sampling with Python

  • اصلاح یک اسکریپت شل Modifying a Shell Script

  • برنامه ریزی مشاغل با Cron Scheduling Jobs with Cron

  • مثال برنامه ریزی شغلی Cron Cron Job Scheduling Example

  • آزمون شل اسکریپت Shell Script Quiz

کار با فایل های JSON Working with JSON FIles

  • کار با فایل های JSON Working with JSON Files

  • نصب jq Installing jq

  • فیلتر کردن فایل های JSON با jq Filtering JSON files with jq

  • بارگیری JSON در پایتون Loading JSON into Python

  • آزمون JSON JSON Quiz

کیفیت داده ها در مهندسی داده Data Quality in Data Engineering

  • مروری بر کیفیت داده ها Overiew of Data Quality

  • داده های فروش Sales Data

  • مقادیر از دست رفته در فایل های داده Missing Values in Data Files

  • افزودن مستندات به اسکریپت ها Adding Documentation to Scripts

  • بررسی محدوده Range Checks

  • کار با تاریخ و زمان Working with Dates and Times

  • بررسی فرمت تاریخ و زمان Checking Date and Time Format

  • تجسم برای کیفیت داده Visualizations for Data Quality

  • آزمون کیفیت داده ها Data Quality Quiz

  • تخصیص عملی: داده های پرواز مسافر را با کدهای نامعتبر فرودگاه بررسی کنید Hands-On Assignment: Check passenger flight data with invalid airport codes

کار با پانداها در پایتون Working with Pandas in Python

  • کار با پانداها Working with Pandas

  • آمار با استفاده از Dataframes Statistics using Dataframes

  • تولید داده های مصنوعی Generating Synthetic Data

  • تخصیص عملی: JSON را در یک Pandas DataFrame بارگذاری کنید Hands-on Assignment: Load JSON into a Pandas DataFrame

طرحواره های JSON JSON Schemas

  • طرحواره های JSON برای اعتبارسنجی داده ها 1 JSON Schemas for Data Validation 1

  • طرحواره های JSON برای اعتبارسنجی داده ها 2 JSON Schemas for Data Validation 2

  • Pandas و JSON Schema Quiz Pandas and JSON Schema Quiz

کار با پایگاه های داده Working with Databases

  • پایگاه های داده رابطه ای Relational Databases

  • پایگاه های داده NoSQL NoSQL Databases

  • PostgreSQL PostgreSQL

  • نصب PostgreSQL Installing PostgreSQL

  • ایجاد طرحواره های PostgreSQL Creating PostgreSQL Schemas

  • ایجاد جداول در PostgreSQL Creating Tables in PostgreSQL

  • آزمون پایگاه داده Database Quiz

  • تکلیف عملی: جدولی برای برنامه اتوبوس ایجاد کنید Hands-on Assignment: Create a table for bus schedules

مدلسازی بعدی برای تجزیه و تحلیل داده ها Dimensional Modeling for Data Analysis

  • مدلسازی ابعادی Dimensional Modeling

  • بارگیری داده های فروش در جداول مرحله بندی Loading Sales Data into Staging Tables

  • بارگیری داده های ابعاد در جداول مرحله بندی Loading Dimension Data into Staging Tables

  • ایجاد بعد موقعیت مکانی Creating Location Dimension

  • بعد ایجاد محصولات Creating Products Dimension

  • بعد تاریخ را ایجاد کنید Create Date Dimension

  • آزمون مدل بعدی 1 Dimensional Model Quiz 1

پر کردن یک جدول واقعیت در یک مدل بعدی Populating a Fact Table in a Dimensional Model

  • ایجاد یک جدول اطلاعات فروش Creating a Sales Fact Table

  • آماده سازی داده ها برای تجمیع Preparing Data for Aggregation

  • جمع آوری داده های مرحله بندی Aggregating Staging Data

  • بارگیری جدول اطلاعات فروش Loading Sales Fact Table

  • ایجاد پرس و جوهای SQL برای یک مدل بعدی Generating SQL Queries for a Dimensional Model

  • آزمون مدلسازی بعدی 2 Dimensional Modeling Quiz 2

JSON در PostgreSQL JSON in PostgreSQL

  • JSON در PostgreSQL JSON in PostgreSQL

  • ایجاد یک جدول با یک ستون JSON در PostgreSQL Creating a Table with a JSON Column in PostgreSQL

  • بارگیری داده های JSON در PostgreSQL Loading JSON Data into PostgreSQL

  • جستجوی داده های JSON در PostgreSQL Querying JSON Data in PostgreSQL

  • JSON در آزمون PostgreSQL JSON in PostgreSQL Quiz

مراحل بعدی یادگیری مهندسی داده Next Steps Learning Data Engineering

  • بعد چه چیزی یاد بگیریم؟ What to Learn Next?

  • جریان هوای آپاچی برای ارکستراسیون Apache Airflow for Orchestration

  • Apache Spark برای ETL/ELT و Analytics Apache Spark for ETL/ELT and Analytics

  • انتظارات بزرگ برای کنترل کیفیت داده ها Great Expectations for Data Quality Control

  • dbt برای تبدیل داده با SQL dbt for Data Transformation with SQL

پایان دوره Course Wrap Up

  • نتیجه Conclusion

نمایش نظرات

آموزش مقدمه ای بر مهندسی داده با استفاده از هوش مصنوعی تولیدی
جزییات دوره
6 hours
56
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
713
4.3 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Daniel Sullivan Daniel Sullivan

بنیانگذار، SLG