لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش Transformers in Computer Vision - نسخه انگلیسی
Transformers in Computer Vision - English version
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
Transformers in Computer Vision - نسخه انگلیسی شبکه های ترانسفورماتور چیست؟ معماری های پیشرفته برای برنامه های CV مانند طبقه بندی تصویر، تقسیم بندی معنایی، تشخیص اشیا و پردازش ویدئو کاربرد عملی معماری های SoTA مانند ViT، DETR، SWIN در ترانسفورماتورهای بینایی Huggingface مکانیسم های توجه به عنوان یک ایده کلی یادگیری عمیق، تعصب القایی و چشم انداز DL مدل ها از نظر مفروضات مدل سازی کاربرد ترانسفورماتورها در NLP و ترجمه ماشینی ترانسفورماتورها در بینایی کامپیوتر انواع مختلف توجه در بینایی کامپیوتری پیش نیازها:دوره عملی یادگیری ماشین دوره عملی بینایی کامپیوتر (ConvNets) مقدمه دوره NLP
شبکههای ترانسفورمر، روند جدید یادگیری عمیق امروزه هستند. مدلهای ترانسفورماتور از سال 2017 دنیای NLP را طوفانی کردهاند. از آن زمان، آنها به مدل اصلی تقریباً در تمام وظایف NLP تبدیل شدهاند. ترانسفورماتورها در CV هنوز هم عقب هستند، اما از سال 2020 شروع به تصاحب کردند.
ما با معرفی توجه و شبکه های ترانسفورماتور شروع خواهیم کرد. از آنجایی که ترانسفورماتورها برای اولین بار در NLP معرفی شدند، توصیف آنها با چند مثال NLP آسانتر است. از آنجا به مزایا و معایب این معماری پی خواهیم برد. همچنین، در مورد اهمیت پیشآموزش بدون نظارت یا نیمهنظارت برای معماریهای ترانسفورماتور، به طور خلاصه درباره مدلهای زبان مقیاس بزرگ (LLM) مانند BERT و GPT بحث خواهیم کرد.
این راه را برای معرفی ترانسفورماتورها در CV هموار می کند. در اینجا سعی خواهیم کرد ایده توجه را به حوزه فضایی دوبعدی تصویر گسترش دهیم. ما در مورد چگونگی تعمیم پیچیدگی با استفاده از توجه به خود، در معماری متا رمزگذار-رمزگشا بحث خواهیم کرد. خواهیم دید که چگونه این معماری عمومی از نظر تصویر تقریباً مشابه متن و NLP است، که ترانسفورماتورها را به یک تقریب کننده عملکرد عمومی تبدیل می کند. ما در مورد کانال و توجه فضایی، توجه محلی در مقابل توجه جهانی در میان موضوعات دیگر بحث خواهیم کرد.
در سه ماژول بعدی، شبکههای خاصی را که مشکلات بزرگ در CV را حل میکنند، مورد بحث قرار خواهیم داد: طبقهبندی، تشخیص اشیا و تقسیمبندی. ما در مورد Vision Transformer (ViT) از Google، Shifter Window Transformer (SWIN) از Microsoft، Detection Transformer (DETR) از تحقیقات فیس بوک، Segmentation Transformer (SETR) و بسیاری دیگر بحث خواهیم کرد. سپس درباره کاربرد ترانسفورماتورها در پردازش ویدئو، از طریق ترانسفورماتورهای فضایی-زمانی با کاربرد تشخیص شی متحرک، همراه با راه اندازی آموزش چند وظیفه ای بحث خواهیم کرد.
در نهایت، ما نشان خواهیم داد که چگونه آن معماری های از پیش آموزش دیده را می توان به راحتی در عمل با استفاده از کتابخانه معروف Huggingface با استفاده از رابط Pipeline به کار برد.
سرفصل ها و درس ها
معرفی
Introduction
معرفی
Introduction
مروری بر شبکه های ترانسفورماتور
Overview of Transformer Networks
ظهور ترانسفورماتورها
The Rise of Transformers
تعصب القایی در مدل های شبکه عصبی عمیق
Inductive Bias in Deep Neural Network Models
توجه یک ایده کلی DL است
Attention is a General DL idea
توجه در NLP
Attention in NLP
توجه تمام چیزی است که شما نیاز دارید
Attention is ALL you need
مکانیسم های توجه به خود
Self Attention Mechanisms
معادلات ماتریس توجه خود
Self Attention Matrix Equations
توجه چند سر
Multihead Attention
توجه رمزگذار-رمزگشا
Encoder-Decoder Attention
مزایا و معایب ترانسفورماتورها
Transformers Pros and Cons
پیش تمرینی بدون نظارت
Unsupervised Pre-training
ترانسفورماتورها در بینایی کامپیوتر
Transformers in Computer Vision
نقشه راه ماژول
Module roadmap
الگوی طراحی رمزگذار-رمزگشا
Encoder-Decoder Design Pattern
رمزگذارهای کانولوشنال
Convolutional Encoders
توجه به خود در مقابل پیچیدگی
Self Attention vs. Convolution
توجه فضایی در مقابل کانال در مقابل توجه زمانی
Spatial vs. Channel vs. Temporal Attention
تعمیم معادلات توجه به خود
Generalization of self attention equations
توجه محلی در مقابل جهانی
Local vs. Global Attention
مزایا و معایب توجه در CV
Pros and Cons of Attention in CV
ترانسفورماتورها در طبقه بندی تصویر
Transformers in Image Classification
ترانسفورماتورها در طبقه بندی تصویر
Transformers in image classification
Vision Transformers (ViT و DeiT)
Vistion Transformers (ViT and DeiT)
ترانسفورماتورهای پنجره تغییر یافته (SWIN)
Shifted Window Transformers (SWIN)
ترانسفورماتورها در تشخیص شی
Transformers in Object Detection
ترانسفورماتورها در تشخیص شی
Transformers in Object detection
بررسی روش های تشخیص اشیاء
Obejct Detection methods review
تشخیص شی با ConvNet - YOLO
Object Detection with ConvNet - YOLO
یودمی یکی از بزرگترین پلتفرمهای آموزشی آنلاین است که به میلیونها کاربر در سراسر جهان امکان دسترسی به دورههای متنوع و کاربردی را فراهم میکند. این پلتفرم امکان آموزش در زمینههای مختلف از فناوری اطلاعات و برنامهنویسی گرفته تا زبانهای خارجی، مدیریت، و هنر را به کاربران ارائه میدهد. با استفاده از یودمی، کاربران میتوانند به صورت انعطافپذیر و بهینه، مهارتهای جدیدی را یاد بگیرند و خود را برای بازار کار آماده کنند.
یکی از ویژگیهای برجسته یودمی، کیفیت بالای دورهها و حضور استادان مجرب و با تجربه در هر حوزه است. این امر به کاربران اعتماد میدهد که در حال دریافت آموزش از منابع قابل اعتماد و معتبر هستند و میتوانند به بهترین شکل ممکن از آموزشها بهره ببرند. به طور خلاصه، یودمی به عنوان یکی از معتبرترین و موثرترین پلتفرمهای آموزشی آنلاین، به افراد امکان میدهد تا به راحتی و با کیفیت، مهارتهای مورد نیاز خود را ارتقا دهند و به دنبال رشد و پیشرفت شغلی خود باشند.
نمایش نظرات