توضیحات به روز شده 3/12/2024
ابزارهای AI مولد مانند ChatGPT، Claude و Bard مهندسی داده را در دسترستر و کارآمدتر میکنند. اگر با صفحات گسترده یا ابزارهای هوش تجاری کار می کنید اما با Python یا SQL خیلی آشنا نیستید، هوش مصنوعی مولد می تواند به شما در تجزیه و تحلیل داده ها و ایجاد خطوط لوله داده و فرآیندهای ETL/ELT خود کمک کند.
هوش مصنوعی و LLM های مولد جایگزین مهندسان داده یا تحلیلگران داده نمی شوند، اما کسانی که می دانند چگونه از این ابزارهای هوش مصنوعی استفاده کنند، می توانند خطوط لوله داده توانمندتر و قابل اعتمادتری را سریعتر بسازند. آنها همچنین به ابزاری دسترسی خواهند داشت که میتواند به شما در توسعه مهارتهای پایتون، SQL و مدلسازی دادهها با ارائه نمونههای متنوعی از کدهای کاربردی و کمک به پیامهای خطا و فرآیندهای عیبیابی که طبق انتظار عمل نمیکنند، کمک کند.
تکنیک های مهندسی داده و همچنین ابزارهای مهندسی داده را بیاموزید
در این دوره آموزشی، شما یاد خواهید گرفت که چگونه مسائل مهندسی داده را به یک سری از وظایف تقسیم کنید که می توان با استفاده از Python، SQL، و اسکریپت های خط فرمان تولید شده توسط یک مدل زبان بزرگ (LLM) به صورت خودکار انجام شود.
> ترغیب یک هوش مصنوعی برای "تولید یک اسکریپت پردازش داده برای انجام X، Y و Z" احتمالاً نتایجی را که انتظار دارید به شما نخواهد رساند. LLM ها ابزار قدرتمندی هستند، اما اوراکل نیستند. مانند هر ابزار دیگری، ما باید بدانیم که ابزار چه توانایی هایی دارد و چگونه از قابلیت ها برای رفع نیازهای خود استفاده کنیم.
این دوره به شما نشان می دهد که چگونه در مورد تبدیل داده ها و مشکلات بارگذاری فکر کنید و اجزای یک راه حل را به صورت تدریجی بسازید. این دوره در چندین موضوع سازماندهی شده است که مهارت های اساسی مورد نیاز برای شروع کار در مهندسی داده با استفاده از GenAI را پوشش می دهد، از جمله:
مقدمهای بر مدلهای زبان بزرگ، مدلهای پایه و سایر موضوعات هوش مصنوعی مرتبط با مهندسی داده. این دوره از هوش مصنوعی Claude از Anthropic استفاده می کند، یک مدل زبان بزرگ که هم برای تولید کد مهندسی داده مناسب است و هم استفاده از آن رایگان است.
کار با فایلهای CSV و JSON
کیفیت دادهها و پاکسازی دادهها، از جمله آمار و تجسمها
تبدیل استخراج و بار (ETL)/فرآیندهای استخراج، بارگذاری و تبدیل (ELT)
پایگاههای اطلاعاتی رابطهای و NoSQL
مدل سازی داده ها با استفاده از الگوهای مدل داده های بعدی
کار با داده های JSON در پایگاه داده های رابطه ای مانند PostgreSQL
این دوره با ابتدایی ترین وظایف مهندسی داده آغاز می شود: کار با فایل ها. شما یاد خواهید گرفت که چگونه به سرعت فیلتر، تبدیل، و مشکلات را در مجموعه داده های ساخته شده از مقادیر جدا شده با کاما (CSV) و فایل های JSON پیدا کنید. همچنین خواهید دید که چگونه میتوانیم نمونههایی از مجموعه دادههای بزرگ ایجاد کنیم تا راهحلهای مختلف را برای نیازهای مهندس دادهمان به طور مؤثر آزمایش کنیم. شما یاد خواهید گرفت که چگونه کدی تولید کنید که از ابزارهای خط فرمان مانند awk، ابزار پردازش متن و استخراج داده، و jq، ابزاری برای تجزیه، فیلتر کردن و تبدیل داده های JSON استفاده می کند. اگر با ابزارهایی مانند awk و jq آشنایی ندارید، مشکلی نیست. در این دوره، شما یاد خواهید گرفت که چگونه آنچه را که می خواهید در یک راه حل توصیف کنید تا LLM بتواند ابزار مناسبی را برای کار انتخاب کند.
کیفیت داده یک نگرانی اصلی در هر پروژه مهندسی داده است. خوشبختانه، با GenAI و درک پایه ای از بررسی کیفیت داده ها، می توانید به سرعت اسکریپت هایی را برای بررسی مشکلات رایج کیفیت داده تولید کنید و برای تصحیح این مشکلات تغییراتی را در داده ها اعمال کنید. آمار و تجسم ابزارهای مهمی برای تضمین کیفیت داده ها هستند. در این دوره یاد خواهید گرفت که چگونه از آمار و تجسم های اولیه برای کمک به کیفیت داده ها و کاوش داده ها استفاده کنید. و از آنجایی که هوش مصنوعی مولد برای تولید کد استفاده میشود، میتوانید زمان بیشتری را صرف یادگیری آمار، تجسمها و نحوه اعمال آنها در دامنه مشکل خود کنید و زمان کمتری را برای یافتن خطاهای نحوی یا اشکالزدایی یک خطای منطقی در کد خود صرف کنید.
پایگاه های داده پایه و اساس بسیاری از برنامه ها و پلت فرم های تجزیه و تحلیل داده ها هستند. با پایگاه داده های رابطه ای و همچنین پایگاه های داده NoSQL و زمان استفاده از آنها آشنا خواهید شد. پایگاههای داده سیستمهای پیچیدهای هستند که نیاز دارند تا نحوه ساختاردهی دادههای خود را شرح دهیم. این فرآیند به عنوان مدل سازی داده ها شناخته می شود. این دوره به معرفی مدل سازی داده ها با تمرکز بر مدل سازی ابعادی، یک الگوی مدل داده رایج در تجزیه و تحلیل داده ها می پردازد. همچنین یاد خواهید گرفت که چگونه کد SQL را برای پیادهسازی مدلهای ابعادی، بارگذاری دادهها در پایگاه داده خود، و جستجو و تجزیه و تحلیل دادهها پس از بارگیری، ایجاد کنید.
اکنون زمان بسیار خوبی برای تبدیل شدن به یک مهندس داده است زیرا تقاضا برای مهارت های مهندسی داده زیاد است و ما اکنون ابزارهایی در اختیار داریم که به ما امکان می دهد روی مشکلاتی که در حال حل آن هستیم تمرکز کنیم و در عین حال سرعت ایجاد مقیاس پذیر و قابل اعتماد را تسریع کنیم. خطوط لوله داده
یودمی یکی از بزرگترین پلتفرمهای آموزشی آنلاین است که به میلیونها کاربر در سراسر جهان امکان دسترسی به دورههای متنوع و کاربردی را فراهم میکند. این پلتفرم امکان آموزش در زمینههای مختلف از فناوری اطلاعات و برنامهنویسی گرفته تا زبانهای خارجی، مدیریت، و هنر را به کاربران ارائه میدهد. با استفاده از یودمی، کاربران میتوانند به صورت انعطافپذیر و بهینه، مهارتهای جدیدی را یاد بگیرند و خود را برای بازار کار آماده کنند.
یکی از ویژگیهای برجسته یودمی، کیفیت بالای دورهها و حضور استادان مجرب و با تجربه در هر حوزه است. این امر به کاربران اعتماد میدهد که در حال دریافت آموزش از منابع قابل اعتماد و معتبر هستند و میتوانند به بهترین شکل ممکن از آموزشها بهره ببرند. به طور خلاصه، یودمی به عنوان یکی از معتبرترین و موثرترین پلتفرمهای آموزشی آنلاین، به افراد امکان میدهد تا به راحتی و با کیفیت، مهارتهای مورد نیاز خود را ارتقا دهند و به دنبال رشد و پیشرفت شغلی خود باشند.
بنیانگذار، SLG
نمایش نظرات