دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش یادگیری ماشین: خوشه‌بندی و بازیابی اطلاعات - آخرین آپدیت

دانلود Machine Learning: Clustering & Retrieval

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: مطالعات موردی: یافتن اسناد مشابه یک خواننده به یک مقاله خبری خاص علاقه‌مند است و شما می‌خواهید مقالات مشابهی را برای پیشنهاد دادن به او پیدا کنید. مفهوم درست شباهت چیست؟ علاوه بر این، اگر میلیون‌ها سند دیگر وجود داشته باشد چه می‌شود؟ آیا هر بار که می‌خواهید سند جدیدی را بازیابی کنید، باید در تمام اسناد دیگر جستجو کنید؟ چگونه اسناد مشابه را در کنار هم گروه‌بندی می‌کنید؟ چگونه موضوعات جدید و نوظهوری را که اسناد پوشش می‌دهند، کشف می‌کنید؟ در این مطالعه موردی سوم با عنوان یافتن اسناد مشابه، شما الگوریتم‌های مبتنی بر شباهت برای بازیابی اطلاعات را بررسی خواهید کرد. در این دوره، همچنین نمایش‌های ساختاریافته برای توصیف اسناد موجود در مجموعه داده، از جمله خوشه‌بندی و مدل‌های عضویت ترکیبی مانند تخصیص دیریکله پنهان (LDA) را بررسی می‌کنید. شما الگوریتم بیشینه‌سازی امید ریاضی (EM) را برای یادگیری خوشه‌بندی اسناد پیاده‌سازی کرده و نحوه مقیاس‌بندی این روش‌ها را با استفاده از MapReduce خواهید دید. دستاوردهای یادگیری: در پایان این دوره، شما قادر خواهید بود: - یک سیستم بازیابی اسناد را با استفاده از k-نزدیک‌ترین همسایه ایجاد کنید. - معیارهای مختلف شباهت برای داده‌های متنی را شناسایی کنید. - محاسبات در جستجوی k-نزدیک‌ترین همسایه را با استفاده از KD-trees کاهش دهید. - نزدیک‌ترین همسایگان تقریبی را با استفاده از هشینگ حساس به مکان (LSH) تولید کنید. - وظایف یادگیری نظارت شده و نظارت نشده را با هم مقایسه و تحلیل کنید. - اسناد را بر اساس موضوع با استفاده از k-means خوشه‌بندی کنید. - نحوه موازی‌سازی k-means را با استفاده از MapReduce توصیف کنید. - رویکردهای خوشه‌بندی احتمالی را با استفاده از مدل‌های ترکیبی بررسی کنید. - یک مدل ترکیب گاوسی را با استفاده از بیشینه‌سازی امید ریاضی (EM) برازش کنید. - مدل‌سازی عضویت ترکیبی را با استفاده از تخصیص دیریکله پنهان (LDA) انجام دهید. - مراحل نمونه‌بردار گیبز و نحوه استفاده از خروجی آن برای استنتاج را توصیف کنید. - تکنیک‌های مقداردهی اولیه برای اهداف بهینه‌سازی غیر محدب را مقایسه کنید. - این تکنیک‌ها را در پایتون پیاده‌سازی کنید.

سرفصل ها و درس ها

خوش‌آمدگویی Welcome

خوش‌آمدگویی و معرفی وظایف خوشه‌بندی و بازیابی Welcome and introduction to clustering and retrieval tasks
مرور کلی دوره Course overview
موضوعات پوشش داده شده در هر ماژول Module-by-module topics covered
پیش‌نیازهای لازم Assumed background

جستجوی نزدیک‌ترین همسایه Nearest Neighbor Search

بازیابی به عنوان جستجوی k-نزدیک‌ترین همسایه Retrieval as k-nearest neighbor search
الگوریتم 1-NN 1-NN algorithm
الگوریتم k-NN k-NN algorithm
نمایش اسناد Document representation
معیارهای فاصله: اقلیدسی و اقلیدسی مقیاس‌شده Distance metrics: Euclidean and scaled Euclidean
نوشتن فاصله اقلیدسی (مقیاس‌شده) با استفاده از ضرب داخلی (وزنی) Writing (scaled) Euclidean distance using (weighted) inner products
معیارهای فاصله: شباهت کسینوسی Distance metrics: Cosine similarity
نرمال‌سازی و سایر ملاحظات مربوط به فاصله To normalize or not and other distance considerations
پیچیدگی جستجوی Brute Force Complexity of brute force search
نمایش درخت KD KD-tree representation
جستجوی نزدیک‌ترین همسایه با درخت‌های KD NN search with KD-trees
پیچیدگی جستجوی نزدیک‌ترین همسایه با درخت‌های KD Complexity of NN search with KD-trees
تجسم رفتار مقیاس‌بندی درخت‌های KD Visualizing scaling behavior of KD-trees
جستجوی تقریبی k-NN با استفاده از درخت‌های KD Approximate k-NN search using KD-trees
محدودیت‌های درخت‌های KD Limitations of KD-trees
الگوریتم LSH به عنوان جایگزینی برای درخت‌های KD LSH as an alternative to KD-trees
استفاده از خطوط تصادفی برای تقسیم نقاط Using random lines to partition points
تعریف سطل‌های (Bins) بیشتر Defining more bins
جستجو در سطل‌های همسایه Searching neighboring bins
الگوریتم LSH در ابعاد بالا LSH in higher dimensions
(اختیاری) بهبود کارایی از طریق جداول متعدد (OPTIONAL) Improving efficiency through multiple tables
مرور کوتاه A brief recap

خوشه‌بندی با k-means Clustering with k-means

هدف از خوشه‌بندی The goal of clustering
یک وظیفه یادگیری بدون نظارت An unsupervised task
امیدها در یادگیری بدون نظارت و برخی موارد چالش‌برانگیز Hope for unsupervised learning, and some challenge cases
الگوریتم k-means The k-means algorithm
الگوریتم k-means به عنوان کاهش مختصاتی k-means as coordinate descent
مقداردهی اولیه هوشمند از طریق k-means++ Smart initialization via k-means++
ارزیابی کیفیت و انتخاب تعداد خوشه‌ها Assessing the quality and choosing the number of clusters
ضرورت استفاده از MapReduce Motivating MapReduce
انتزاع کلی MapReduce The general MapReduce abstraction
مرور اجرای MapReduce و ترکیب‌کننده‌ها (Combiners) MapReduce execution overview and combiners
استفاده از MapReduce برای k-means MapReduce for k-means
سایر کاربردهای خوشه‌بندی Other applications of clustering
مرور کوتاه A brief recap

مدل‌های ترکیبی Mixture Models

ضرورت مدل‌های خوشه‌بندی احتمالی Motiving probabilistic clustering models
تجمیع بر روی کلاس‌های ناشناخته در یک مجموعه داده تصویری Aggregating over unknown classes in an image dataset
توزیع‌های گاوسی تک متغیره Univariate Gaussian distributions
توزیع‌های گاوسی دو متغیره و چند متغیره Bivariate and multivariate Gaussians
ترکیبی از توزیع‌های گاوسی (GMM) Mixture of Gaussians
تفسیر جملات ترکیب گاوسی Interpreting the mixture of Gaussian terms
مقیاس‌بندی ترکیبات گاوسی برای خوشه‌بندی اسناد Scaling mixtures of Gaussians for document clustering
محاسبه تخصیص‌های نرم (Soft Assignments) از پارامترهای شناخته شده خوشه Computing soft assignments from known cluster parameters
(اختیاری) مسئولیت‌ها به عنوان قانون بیز (OPTIONAL) Responsibilities as Bayes' rule
تخمین پارامترهای خوشه از تخصیص‌های شناخته شده Estimating cluster parameters from known cluster assignments
تخمین پارامترهای خوشه از تخصیص‌های نرم Estimating cluster parameters from soft assignments
تکرارهای EM در معادلات و تصاویر EM iterates in equations and pictures
همگرایی، مقداردهی اولیه و بیش‌برازش در EM Convergence, initialization, and overfitting of EM
رابطه با k-means Relationship to k-means
مرور کوتاه A brief recap

مدل‌سازی عضویت ترکیبی از طریق تخصیص دیریکله پنهان Mixed Membership Modeling via Latent Dirichlet Allocation

مدل‌های عضویت ترکیبی برای اسناد Mixed membership models for documents
یک مدل جایگزین برای خوشه‌بندی اسناد An alternative document clustering model
اجزای مدل تخصیص دیریکله پنهان (LDA) Components of latent Dirichlet allocation model
هدف از استنتاج LDA Goal of LDA inference
نیاز به استنتاج بیزی The need for Bayesian inference
نمونه‌برداری گیبز از نگاه کلی Gibbs sampling from 10,000 feet
یک نمونه‌بردار گیبز استاندارد برای LDA A standard Gibbs sampler for LDA
نمونه‌برداری گیبز متراکم (Collapsed Gibbs Sampling) چیست؟ What is collapsed Gibbs sampling?
مثال کاربردی برای LDA: تنظیمات اولیه A worked example for LDA: Initial setup
مثال کاربردی برای LDA: استخراج توزیع نمونه‌برداری مجدد A worked example for LDA: Deriving the resampling distribution
استفاده از خروجی نمونه‌برداری گیبز متراکم Using the output of collapsed Gibbs sampling
مرور کوتاه A brief recap

خوشه‌بندی سلسله‌مراتبی و سخنان پایانی Hierarchical Clustering & Closing Remarks

مرور ماژول ۱ Module 1 recap
مرور ماژول ۲ Module 2 recap
مرور ماژول ۳ Module 3 recap
مرور ماژول ۴ Module 4 recap
چرا خوشه‌بندی سلسله‌مراتبی؟ Why hierarchical clustering?
خوشه‌بندی تقسیمی (Divisive) Divisive clustering
خوشه‌بندی تجمعی (Agglomerative) Agglomerative clustering
نمودار دندروگرام The dendrogram
جزئیات خوشه‌بندی تجمعی Agglomerative clustering details
مدل‌های مارکوف پنهان (HMM) Hidden Markov models
مواردی که پوشش ندادیم What we didn't cover
سپاسگزاری! Thank you!

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش یادگیری ماشین: خوشه‌بندی و بازیابی اطلاعات

جزییات دوره

زمان دوره: 17h 21m

تعداد ویدیو ها: 78

شرکت: Coursera (کورسرا)

تاریخ انتشار مرجع: (آخرین آپدیت)

بازدید مرجع : 101,463

امتیاز مرجع: 4.8 از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Chris Croft Carlos Guestrin

لینک کوتاه این دوره

https://donyad.com/d/9d6f08

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

Carlos Guestrin

آموزش یادگیری ماشین: خوشه‌بندی و بازیابی اطلاعات - آخرین آپدیت

دانلود Machine Learning: Clustering & Retrieval

خوش‌آمدگویی Welcome

خوش‌آمدگویی و معرفی وظایف خوشه‌بندی و بازیابی Welcome and introduction to clustering and retrieval tasks

مرور کلی دوره Course overview

موضوعات پوشش داده شده در هر ماژول Module-by-module topics covered

پیش‌نیازهای لازم Assumed background

جستجوی نزدیک‌ترین همسایه Nearest Neighbor Search

بازیابی به عنوان جستجوی k-نزدیک‌ترین همسایه Retrieval as k-nearest neighbor search

الگوریتم 1-NN 1-NN algorithm

الگوریتم k-NN k-NN algorithm

نمایش اسناد Document representation

معیارهای فاصله: اقلیدسی و اقلیدسی مقیاس‌شده Distance metrics: Euclidean and scaled Euclidean

نوشتن فاصله اقلیدسی (مقیاس‌شده) با استفاده از ضرب داخلی (وزنی) Writing (scaled) Euclidean distance using (weighted) inner products

معیارهای فاصله: شباهت کسینوسی Distance metrics: Cosine similarity

نرمال‌سازی و سایر ملاحظات مربوط به فاصله To normalize or not and other distance considerations

پیچیدگی جستجوی Brute Force Complexity of brute force search

نمایش درخت KD KD-tree representation

جستجوی نزدیک‌ترین همسایه با درخت‌های KD NN search with KD-trees

پیچیدگی جستجوی نزدیک‌ترین همسایه با درخت‌های KD Complexity of NN search with KD-trees

تجسم رفتار مقیاس‌بندی درخت‌های KD Visualizing scaling behavior of KD-trees

جستجوی تقریبی k-NN با استفاده از درخت‌های KD Approximate k-NN search using KD-trees

محدودیت‌های درخت‌های KD Limitations of KD-trees

الگوریتم LSH به عنوان جایگزینی برای درخت‌های KD LSH as an alternative to KD-trees

استفاده از خطوط تصادفی برای تقسیم نقاط Using random lines to partition points

تعریف سطل‌های (Bins) بیشتر Defining more bins

جستجو در سطل‌های همسایه Searching neighboring bins

الگوریتم LSH در ابعاد بالا LSH in higher dimensions

(اختیاری) بهبود کارایی از طریق جداول متعدد (OPTIONAL) Improving efficiency through multiple tables

مرور کوتاه A brief recap

خوشه‌بندی با k-means Clustering with k-means

هدف از خوشه‌بندی The goal of clustering

یک وظیفه یادگیری بدون نظارت An unsupervised task

امیدها در یادگیری بدون نظارت و برخی موارد چالش‌برانگیز Hope for unsupervised learning, and some challenge cases

الگوریتم k-means The k-means algorithm

الگوریتم k-means به عنوان کاهش مختصاتی k-means as coordinate descent

مقداردهی اولیه هوشمند از طریق k-means++ Smart initialization via k-means++

ارزیابی کیفیت و انتخاب تعداد خوشه‌ها Assessing the quality and choosing the number of clusters

ضرورت استفاده از MapReduce Motivating MapReduce

انتزاع کلی MapReduce The general MapReduce abstraction

مرور اجرای MapReduce و ترکیب‌کننده‌ها (Combiners) MapReduce execution overview and combiners

استفاده از MapReduce برای k-means MapReduce for k-means

سایر کاربردهای خوشه‌بندی Other applications of clustering

مرور کوتاه A brief recap

مدل‌های ترکیبی Mixture Models

ضرورت مدل‌های خوشه‌بندی احتمالی Motiving probabilistic clustering models

تجمیع بر روی کلاس‌های ناشناخته در یک مجموعه داده تصویری Aggregating over unknown classes in an image dataset

توزیع‌های گاوسی تک متغیره Univariate Gaussian distributions

توزیع‌های گاوسی دو متغیره و چند متغیره Bivariate and multivariate Gaussians

ترکیبی از توزیع‌های گاوسی (GMM) Mixture of Gaussians

تفسیر جملات ترکیب گاوسی Interpreting the mixture of Gaussian terms

مقیاس‌بندی ترکیبات گاوسی برای خوشه‌بندی اسناد Scaling mixtures of Gaussians for document clustering

محاسبه تخصیص‌های نرم (Soft Assignments) از پارامترهای شناخته شده خوشه Computing soft assignments from known cluster parameters

(اختیاری) مسئولیت‌ها به عنوان قانون بیز (OPTIONAL) Responsibilities as Bayes' rule

تخمین پارامترهای خوشه از تخصیص‌های شناخته شده Estimating cluster parameters from known cluster assignments

تخمین پارامترهای خوشه از تخصیص‌های نرم Estimating cluster parameters from soft assignments

تکرارهای EM در معادلات و تصاویر EM iterates in equations and pictures

همگرایی، مقداردهی اولیه و بیش‌برازش در EM Convergence, initialization, and overfitting of EM

رابطه با k-means Relationship to k-means

مرور کوتاه A brief recap

مدل‌سازی عضویت ترکیبی از طریق تخصیص دیریکله پنهان Mixed Membership Modeling via Latent Dirichlet Allocation

مدل‌های عضویت ترکیبی برای اسناد Mixed membership models for documents

یک مدل جایگزین برای خوشه‌بندی اسناد An alternative document clustering model

اجزای مدل تخصیص دیریکله پنهان (LDA) Components of latent Dirichlet allocation model

هدف از استنتاج LDA Goal of LDA inference

نیاز به استنتاج بیزی The need for Bayesian inference

نمونه‌برداری گیبز از نگاه کلی Gibbs sampling from 10,000 feet

یک نمونه‌بردار گیبز استاندارد برای LDA A standard Gibbs sampler for LDA

نمونه‌برداری گیبز متراکم (Collapsed Gibbs Sampling) چیست؟ What is collapsed Gibbs sampling?

مثال کاربردی برای LDA: تنظیمات اولیه A worked example for LDA: Initial setup

مثال کاربردی برای LDA: استخراج توزیع نمونه‌برداری مجدد A worked example for LDA: Deriving the resampling distribution

استفاده از خروجی نمونه‌برداری گیبز متراکم Using the output of collapsed Gibbs sampling

مرور کوتاه A brief recap

خوشه‌بندی سلسله‌مراتبی و سخنان پایانی Hierarchical Clustering & Closing Remarks

مرور ماژول ۱ Module 1 recap

مرور ماژول ۲ Module 2 recap

مرور ماژول ۳ Module 3 recap

مرور ماژول ۴ Module 4 recap

چرا خوشه‌بندی سلسله‌مراتبی؟ Why hierarchical clustering?

خوشه‌بندی تقسیمی (Divisive) Divisive clustering