آموزش Transformers in Computer Vision - نسخه انگلیسی

Transformers in Computer Vision - English version

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: Transformers in Computer Vision - نسخه انگلیسی شبکه های ترانسفورماتور چیست؟ معماری های پیشرفته برای برنامه های CV مانند طبقه بندی تصویر، تقسیم بندی معنایی، تشخیص اشیا و پردازش ویدئو کاربرد عملی معماری های SoTA مانند ViT، DETR، SWIN در ترانسفورماتورهای بینایی Huggingface مکانیسم های توجه به عنوان یک ایده کلی یادگیری عمیق، تعصب القایی و چشم انداز DL مدل ها از نظر مفروضات مدل سازی کاربرد ترانسفورماتورها در NLP و ترجمه ماشینی ترانسفورماتورها در بینایی کامپیوتر انواع مختلف توجه در بینایی کامپیوتری پیش نیازها:دوره عملی یادگیری ماشین دوره عملی بینایی کامپیوتر (ConvNets) مقدمه دوره NLP

شبکه‌های ترانسفورمر، روند جدید یادگیری عمیق امروزه هستند. مدل‌های ترانسفورماتور از سال 2017 دنیای NLP را طوفانی کرده‌اند. از آن زمان، آنها به مدل اصلی تقریباً در تمام وظایف NLP تبدیل شده‌اند. ترانسفورماتورها در CV هنوز هم عقب هستند، اما از سال 2020 شروع به تصاحب کردند.

ما با معرفی توجه و شبکه های ترانسفورماتور شروع خواهیم کرد. از آنجایی که ترانسفورماتورها برای اولین بار در NLP معرفی شدند، توصیف آنها با چند مثال NLP آسانتر است. از آنجا به مزایا و معایب این معماری پی خواهیم برد. همچنین، در مورد اهمیت پیش‌آموزش بدون نظارت یا نیمه‌نظارت برای معماری‌های ترانسفورماتور، به طور خلاصه درباره مدل‌های زبان مقیاس بزرگ (LLM) مانند BERT و GPT بحث خواهیم کرد.

این راه را برای معرفی ترانسفورماتورها در CV هموار می کند. در اینجا سعی خواهیم کرد ایده توجه را به حوزه فضایی دوبعدی تصویر گسترش دهیم. ما در مورد چگونگی تعمیم پیچیدگی با استفاده از توجه به خود، در معماری متا رمزگذار-رمزگشا بحث خواهیم کرد. خواهیم دید که چگونه این معماری عمومی از نظر تصویر تقریباً مشابه متن و NLP است، که ترانسفورماتورها را به یک تقریب کننده عملکرد عمومی تبدیل می کند. ما در مورد کانال و توجه فضایی، توجه محلی در مقابل توجه جهانی در میان موضوعات دیگر بحث خواهیم کرد.

در سه ماژول بعدی، شبکه‌های خاصی را که مشکلات بزرگ در CV را حل می‌کنند، مورد بحث قرار خواهیم داد: طبقه‌بندی، تشخیص اشیا و تقسیم‌بندی. ما در مورد Vision Transformer (ViT) از Google، Shifter Window Transformer (SWIN) از Microsoft، Detection Transformer (DETR) از تحقیقات فیس بوک، Segmentation Transformer (SETR) و بسیاری دیگر بحث خواهیم کرد. سپس درباره کاربرد ترانسفورماتورها در پردازش ویدئو، از طریق ترانسفورماتورهای فضایی-زمانی با کاربرد تشخیص شی متحرک، همراه با راه اندازی آموزش چند وظیفه ای بحث خواهیم کرد.

در نهایت، ما نشان خواهیم داد که چگونه آن معماری های از پیش آموزش دیده را می توان به راحتی در عمل با استفاده از کتابخانه معروف Huggingface با استفاده از رابط Pipeline به کار برد.


سرفصل ها و درس ها

معرفی Introduction

  • معرفی Introduction

مروری بر شبکه های ترانسفورماتور Overview of Transformer Networks

  • ظهور ترانسفورماتورها The Rise of Transformers

  • تعصب القایی در مدل های شبکه عصبی عمیق Inductive Bias in Deep Neural Network Models

  • توجه یک ایده کلی DL است Attention is a General DL idea

  • توجه در NLP Attention in NLP

  • توجه تمام چیزی است که شما نیاز دارید Attention is ALL you need

  • مکانیسم های توجه به خود Self Attention Mechanisms

  • معادلات ماتریس توجه خود Self Attention Matrix Equations

  • توجه چند سر Multihead Attention

  • توجه رمزگذار-رمزگشا Encoder-Decoder Attention

  • مزایا و معایب ترانسفورماتورها Transformers Pros and Cons

  • پیش تمرینی بدون نظارت Unsupervised Pre-training

ترانسفورماتورها در بینایی کامپیوتر Transformers in Computer Vision

  • نقشه راه ماژول Module roadmap

  • الگوی طراحی رمزگذار-رمزگشا Encoder-Decoder Design Pattern

  • رمزگذارهای کانولوشنال Convolutional Encoders

  • توجه به خود در مقابل پیچیدگی Self Attention vs. Convolution

  • توجه فضایی در مقابل کانال در مقابل توجه زمانی Spatial vs. Channel vs. Temporal Attention

  • تعمیم معادلات توجه به خود Generalization of self attention equations

  • توجه محلی در مقابل جهانی Local vs. Global Attention

  • مزایا و معایب توجه در CV Pros and Cons of Attention in CV

ترانسفورماتورها در طبقه بندی تصویر Transformers in Image Classification

  • ترانسفورماتورها در طبقه بندی تصویر Transformers in image classification

  • Vision Transformers (ViT و DeiT) Vistion Transformers (ViT and DeiT)

  • ترانسفورماتورهای پنجره تغییر یافته (SWIN) Shifted Window Transformers (SWIN)

ترانسفورماتورها در تشخیص شی Transformers in Object Detection

  • ترانسفورماتورها در تشخیص شی Transformers in Object detection

  • بررسی روش های تشخیص اشیاء Obejct Detection methods review

  • تشخیص شی با ConvNet - YOLO Object Detection with ConvNet - YOLO

  • ترانسفورماتورهای تشخیص (DETR) DEtection TRansformers (DETR)

  • مورد استفاده DETR در مقابل YOLOv5 DETR vs. YOLOv5 use case

ترانسفورماتورها در تقسیم بندی معنایی Transformers in Semantic Segmentation

  • نقشه راه ماژول Module roadmap

  • تقسیم بندی تصویر با استفاده از ConvNets Image Segmentation using ConvNets

  • تقسیم بندی تصویر با استفاده از ترانسفورماتورها Image Segmentation using Transformers

ترانسفورماتورهای فضایی-زمانی Spatio-Temporal Transformers

  • ترانسفورماتورهای فضایی-زمانی - تشخیص شی متحرک و یادگیری چند ترسک Spatio-Temporal Transformers - Moving Object Detection and Multi-trask Learning

Huggingface Vision Transformers Huggingface Vision Transformers

  • نقشه راه ماژول Module roadmap

  • نمای کلی خط لوله Huggingface Huggingface Pipeline overview

  • ترانسفورماتور بینایی Huggingface Huggingface vision transformers

  • نسخه ی نمایشی Huggingface با استفاده از Gradio Huggingface Demo using Gradio

نتیجه Conclusion

  • نتیجه گیری دوره Course conclusion

مواد Material

  • اسلایدها Slides

نمایش نظرات

آموزش Transformers in Computer Vision - نسخه انگلیسی
جزییات دوره
5.5 hours
38
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
2,501
3.7 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Coursatai Dr Ahmad ElSallab Coursatai Dr Ahmad ElSallab

دوره های عملی هوش مصنوعی