لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش مقدمه ای بر مهندسی داده با استفاده از هوش مصنوعی تولیدی
Introduction to Data Engineering using Generative AI
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
راهنمای مبتدیان برای GenAI و LLM برای تبدیل، بارگذاری و مدلسازی دادهها با پایتون و SQL از مدلهای زبان بزرگ برای ایجاد کد پایتون برای پیادهسازی خطوط انتقال داده استفاده از LLM برای حل چالشهای بارگذاری داده، تبدیل دادهها و ارزیابی کیفیت دادهها ایجاد پایگاه داده و مدلهای دادههای تحلیلی با استفاده از AI مولد ایجاد اسکریپتهای Python، SQL و Bash برای اجرای کارهای رایج مهندسی دادهها
توضیحات به روز شده 3/12/2024
ابزارهای AI مولد مانند ChatGPT، Claude و Bard مهندسی داده را در دسترستر و کارآمدتر میکنند. اگر با صفحات گسترده یا ابزارهای هوش تجاری کار می کنید اما با Python یا SQL خیلی آشنا نیستید، هوش مصنوعی مولد می تواند به شما در تجزیه و تحلیل داده ها و ایجاد خطوط لوله داده و فرآیندهای ETL/ELT خود کمک کند.
هوش مصنوعی و LLM های مولد جایگزین مهندسان داده یا تحلیلگران داده نمی شوند، اما کسانی که می دانند چگونه از این ابزارهای هوش مصنوعی استفاده کنند، می توانند خطوط لوله داده توانمندتر و قابل اعتمادتری را سریعتر بسازند. آنها همچنین به ابزاری دسترسی خواهند داشت که میتواند به شما در توسعه مهارتهای پایتون، SQL و مدلسازی دادهها با ارائه نمونههای متنوعی از کدهای کاربردی و کمک به پیامهای خطا و فرآیندهای عیبیابی که طبق انتظار عمل نمیکنند، کمک کند.
تکنیک های مهندسی داده و همچنین ابزارهای مهندسی داده را بیاموزید
در این دوره آموزشی، شما یاد خواهید گرفت که چگونه مسائل مهندسی داده را به یک سری از وظایف تقسیم کنید که می توان با استفاده از Python، SQL، و اسکریپت های خط فرمان تولید شده توسط یک مدل زبان بزرگ (LLM) به صورت خودکار انجام شود.
> ترغیب یک هوش مصنوعی برای "تولید یک اسکریپت پردازش داده برای انجام X، Y و Z" احتمالاً نتایجی را که انتظار دارید به شما نخواهد رساند. LLM ها ابزار قدرتمندی هستند، اما اوراکل نیستند. مانند هر ابزار دیگری، ما باید بدانیم که ابزار چه توانایی هایی دارد و چگونه از قابلیت ها برای رفع نیازهای خود استفاده کنیم.
این دوره به شما نشان می دهد که چگونه در مورد تبدیل داده ها و مشکلات بارگذاری فکر کنید و اجزای یک راه حل را به صورت تدریجی بسازید. این دوره در چندین موضوع سازماندهی شده است که مهارت های اساسی مورد نیاز برای شروع کار در مهندسی داده با استفاده از GenAI را پوشش می دهد، از جمله:
مقدمهای بر مدلهای زبان بزرگ، مدلهای پایه و سایر موضوعات هوش مصنوعی مرتبط با مهندسی داده. این دوره از هوش مصنوعی Claude از Anthropic استفاده می کند، یک مدل زبان بزرگ که هم برای تولید کد مهندسی داده مناسب است و هم استفاده از آن رایگان است.
کار با فایلهای CSV و JSON
کیفیت دادهها و پاکسازی دادهها، از جمله آمار و تجسمها
تبدیل استخراج و بار (ETL)/فرآیندهای استخراج، بارگذاری و تبدیل (ELT)
پایگاههای اطلاعاتی رابطهای و NoSQL
مدل سازی داده ها با استفاده از الگوهای مدل داده های بعدی
کار با داده های JSON در پایگاه داده های رابطه ای مانند PostgreSQL
این دوره با ابتدایی ترین وظایف مهندسی داده آغاز می شود: کار با فایل ها. شما یاد خواهید گرفت که چگونه به سرعت فیلتر، تبدیل، و مشکلات را در مجموعه داده های ساخته شده از مقادیر جدا شده با کاما (CSV) و فایل های JSON پیدا کنید. همچنین خواهید دید که چگونه میتوانیم نمونههایی از مجموعه دادههای بزرگ ایجاد کنیم تا راهحلهای مختلف را برای نیازهای مهندس دادهمان به طور مؤثر آزمایش کنیم. شما یاد خواهید گرفت که چگونه کدی تولید کنید که از ابزارهای خط فرمان مانند awk، ابزار پردازش متن و استخراج داده، و jq، ابزاری برای تجزیه، فیلتر کردن و تبدیل داده های JSON استفاده می کند. اگر با ابزارهایی مانند awk و jq آشنایی ندارید، مشکلی نیست. در این دوره، شما یاد خواهید گرفت که چگونه آنچه را که می خواهید در یک راه حل توصیف کنید تا LLM بتواند ابزار مناسبی را برای کار انتخاب کند.
کیفیت داده یک نگرانی اصلی در هر پروژه مهندسی داده است. خوشبختانه، با GenAI و درک پایه ای از بررسی کیفیت داده ها، می توانید به سرعت اسکریپت هایی را برای بررسی مشکلات رایج کیفیت داده تولید کنید و برای تصحیح این مشکلات تغییراتی را در داده ها اعمال کنید. آمار و تجسم ابزارهای مهمی برای تضمین کیفیت داده ها هستند. در این دوره یاد خواهید گرفت که چگونه از آمار و تجسم های اولیه برای کمک به کیفیت داده ها و کاوش داده ها استفاده کنید. و از آنجایی که هوش مصنوعی مولد برای تولید کد استفاده میشود، میتوانید زمان بیشتری را صرف یادگیری آمار، تجسمها و نحوه اعمال آنها در دامنه مشکل خود کنید و زمان کمتری را برای یافتن خطاهای نحوی یا اشکالزدایی یک خطای منطقی در کد خود صرف کنید.
پایگاه های داده پایه و اساس بسیاری از برنامه ها و پلت فرم های تجزیه و تحلیل داده ها هستند. با پایگاه داده های رابطه ای و همچنین پایگاه های داده NoSQL و زمان استفاده از آنها آشنا خواهید شد. پایگاههای داده سیستمهای پیچیدهای هستند که نیاز دارند تا نحوه ساختاردهی دادههای خود را شرح دهیم. این فرآیند به عنوان مدل سازی داده ها شناخته می شود. این دوره به معرفی مدل سازی داده ها با تمرکز بر مدل سازی ابعادی، یک الگوی مدل داده رایج در تجزیه و تحلیل داده ها می پردازد. همچنین یاد خواهید گرفت که چگونه کد SQL را برای پیادهسازی مدلهای ابعادی، بارگذاری دادهها در پایگاه داده خود، و جستجو و تجزیه و تحلیل دادهها پس از بارگیری، ایجاد کنید.
اکنون زمان بسیار خوبی برای تبدیل شدن به یک مهندس داده است زیرا تقاضا برای مهارت های مهندسی داده زیاد است و ما اکنون ابزارهایی در اختیار داریم که به ما امکان می دهد روی مشکلاتی که در حال حل آن هستیم تمرکز کنیم و در عین حال سرعت ایجاد مقیاس پذیر و قابل اعتماد را تسریع کنیم. خطوط لوله داده
سرفصل ها و درس ها
معرفی
Introduction
معرفی
Introduction
بررسی اجمالی دوره
Course Overview
مهندسی داده، تجزیه و تحلیل داده ها و علم داده
Data Engineering, Data Analysis, and Data Science
هوش مصنوعی و مدلهای زبان بزرگ (LLM)
Generative AI and Large Language Models (LLMs)
مفاهیم کلیدی آزمون GenAI
Key Concepts of GenAI Quiz
کار با فایل های CSV
Working with CSV Files
فایل های CSV و JSON
CSV and JSON Files
ابزارهای خط فرمان برای کار با فایل ها
Command Line Utilities for Working with Files
فیلتر کردن ردیف های یک فایل CSV
Filtering Rows of a CSV File
ترکیب دستورات در اسکریپت شل
Combining Commands in a Shell Script
آزمون فایل CSV
CSV File Quiz
تخصیص عملی: داده ها را در یک فایل CSV با استفاده از اسکریپت bash فیلتر کنید
Hands-on Assignment: Filter Data in a CSV File using a bash script
نمونه برداری با پایتون
Sampling with Python
اصلاح یک اسکریپت شل
Modifying a Shell Script
برنامه ریزی مشاغل با Cron
Scheduling Jobs with Cron
مثال برنامه ریزی شغلی Cron
Cron Job Scheduling Example
آزمون شل اسکریپت
Shell Script Quiz
کار با فایل های JSON
Working with JSON FIles
کار با فایل های JSON
Working with JSON Files
نصب jq
Installing jq
فیلتر کردن فایل های JSON با jq
Filtering JSON files with jq
بارگیری JSON در پایتون
Loading JSON into Python
آزمون JSON
JSON Quiz
کیفیت داده ها در مهندسی داده
Data Quality in Data Engineering
مروری بر کیفیت داده ها
Overiew of Data Quality
داده های فروش
Sales Data
مقادیر از دست رفته در فایل های داده
Missing Values in Data Files
افزودن مستندات به اسکریپت ها
Adding Documentation to Scripts
بررسی محدوده
Range Checks
کار با تاریخ و زمان
Working with Dates and Times
بررسی فرمت تاریخ و زمان
Checking Date and Time Format
تجسم برای کیفیت داده
Visualizations for Data Quality
آزمون کیفیت داده ها
Data Quality Quiz
تخصیص عملی: داده های پرواز مسافر را با کدهای نامعتبر فرودگاه بررسی کنید
Hands-On Assignment: Check passenger flight data with invalid airport codes
کار با پانداها در پایتون
Working with Pandas in Python
کار با پانداها
Working with Pandas
آمار با استفاده از Dataframes
Statistics using Dataframes
تولید داده های مصنوعی
Generating Synthetic Data
تخصیص عملی: JSON را در یک Pandas DataFrame بارگذاری کنید
Hands-on Assignment: Load JSON into a Pandas DataFrame
طرحواره های JSON
JSON Schemas
طرحواره های JSON برای اعتبارسنجی داده ها 1
JSON Schemas for Data Validation 1
طرحواره های JSON برای اعتبارسنجی داده ها 2
JSON Schemas for Data Validation 2
Pandas و JSON Schema Quiz
Pandas and JSON Schema Quiz
کار با پایگاه های داده
Working with Databases
پایگاه های داده رابطه ای
Relational Databases
پایگاه های داده NoSQL
NoSQL Databases
PostgreSQL
PostgreSQL
نصب PostgreSQL
Installing PostgreSQL
ایجاد طرحواره های PostgreSQL
Creating PostgreSQL Schemas
ایجاد جداول در PostgreSQL
Creating Tables in PostgreSQL
آزمون پایگاه داده
Database Quiz
تکلیف عملی: جدولی برای برنامه اتوبوس ایجاد کنید
Hands-on Assignment: Create a table for bus schedules
مدلسازی بعدی برای تجزیه و تحلیل داده ها
Dimensional Modeling for Data Analysis
مدلسازی ابعادی
Dimensional Modeling
بارگیری داده های فروش در جداول مرحله بندی
Loading Sales Data into Staging Tables
بارگیری داده های ابعاد در جداول مرحله بندی
Loading Dimension Data into Staging Tables
ایجاد بعد موقعیت مکانی
Creating Location Dimension
بعد ایجاد محصولات
Creating Products Dimension
بعد تاریخ را ایجاد کنید
Create Date Dimension
آزمون مدل بعدی 1
Dimensional Model Quiz 1
پر کردن یک جدول واقعیت در یک مدل بعدی
Populating a Fact Table in a Dimensional Model
ایجاد یک جدول اطلاعات فروش
Creating a Sales Fact Table
آماده سازی داده ها برای تجمیع
Preparing Data for Aggregation
جمع آوری داده های مرحله بندی
Aggregating Staging Data
بارگیری جدول اطلاعات فروش
Loading Sales Fact Table
ایجاد پرس و جوهای SQL برای یک مدل بعدی
Generating SQL Queries for a Dimensional Model
آزمون مدلسازی بعدی 2
Dimensional Modeling Quiz 2
JSON در PostgreSQL
JSON in PostgreSQL
JSON در PostgreSQL
JSON in PostgreSQL
ایجاد یک جدول با یک ستون JSON در PostgreSQL
Creating a Table with a JSON Column in PostgreSQL
بارگیری داده های JSON در PostgreSQL
Loading JSON Data into PostgreSQL
جستجوی داده های JSON در PostgreSQL
Querying JSON Data in PostgreSQL
JSON در آزمون PostgreSQL
JSON in PostgreSQL Quiz
مراحل بعدی یادگیری مهندسی داده
Next Steps Learning Data Engineering
بعد چه چیزی یاد بگیریم؟
What to Learn Next?
جریان هوای آپاچی برای ارکستراسیون
Apache Airflow for Orchestration
Apache Spark برای ETL/ELT و Analytics
Apache Spark for ETL/ELT and Analytics
انتظارات بزرگ برای کنترل کیفیت داده ها
Great Expectations for Data Quality Control
dbt برای تبدیل داده با SQL
dbt for Data Transformation with SQL
نمایش نظرات