آموزش مجموعه داده های عظیم بازیابی و استخراج اطلاعات

Information Retrieval and Mining Massive Data Sets

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: تکنیک های مختلف برای ساختن یک سیستم بازیابی اطلاعات در مقیاس گوگل را بیاموزید. این دوره در ابتدا به 6 بخش تقسیم می شود. قسمت 1: ساختن یک سیستم بازیابی اطلاعات قسمت 2: الگوهای متداول استخراج و تداعی ها قسمت 3: طبقه بندی و خوشه بندی قسمت 4: وب کاوی قسمت 5: سیستم های توصیه پیش نیازها: دانش احتمال و جبر خطی. درک خوبی از الگوریتم های سطح تحصیلات تکمیلی. تجربه کار با یک زبان برنامه نویسی (C، Python، Java)

هدف معرفی تکنیک های مختلف مورد نیاز برای ساختن یک سیستم IR است. در این دوره ما روش های مختلفی را برای حل مشکل کلان داده بررسی خواهیم کرد. ما راه حل های جایگزین و معاوضه را ارزیابی خواهیم کرد. در بخش بعدی دوره، ما در مورد الگوریتم های مختلف داده کاوی برای درک مجموعه داده های عظیم بحث خواهیم کرد.


سرفصل ها و درس ها

مقدمه ای بر موتور جستجوی بولی Introduction To a Boolean Search Engine

  • داده کاوی چیست؟ What is Data Mining

  • داده های ساختاریافته، داده های بدون ساختار و بازیابی اطلاعات Structured Data, Unstructured data and Information Retrieval

  • ماتریس بروز سند مدت (1) Term-Document Incidence Matrix (1)

  • ماتریس بروز سند مدت (2) Term-Document Incidence Matrix (2)

  • شاخص معکوس Inverted Index

  • معاوضه در اجرای یک شاخص معکوس Tradeoffs in implementing an Inverted Index

  • پردازش AND، OR، NOT پرس و جوها Processing AND, OR, NOT queries

  • مروری بر خط لوله ساختمانی شاخص Overview of Index Construction Pipeline

  • بهینه سازی پرس و جو با استفاده از فرکانس سند (1) Query optimization using Document Frequency (1)

  • بهینه سازی پرس و جو با استفاده از فرکانس سند (2) Query Optimization Using Document Frequency (2)

  • مدل بازیابی بولی Boolean Retrieval Model

  • نمونه ای از مدل بازیابی بولی Example of a Boolean Retrieval Model

  • محدودیت های مدل بازیابی بولی Limitations of Boolean Retrieval Model

  • نحوه ارزیابی عملکرد یک سیستم IR How to evaluate performance of an IR System

  • Google zeitgeist Google zeitgeist

ساختار داده فرهنگ لغت. بازیابی متحمل Dictionary Data Structure. Tolerant retrieval

  • تجزیه اسناد و مسائل مرتبط با آن Parsing Documents and Issues Associated with it

  • فرآیند توکن سازی در یک سیستم IR Tokenization Process in an IR System

  • عادی سازی شرایط Normalization to Terms

  • ارسال سریعتر با اشاره گرهای پرش ادغام می شود Faster Postings Merges With Skip Pointers

  • نحوه رسیدگی به پرس و جو عبارت How to Handle Phrase Query

  • عبارت عبارت با استفاده از نمایه موقعیت Phrase Query Using Positional Index

  • نحوه رسیدگی به درخواست مجاورت How to handle proximity query

  • بحث در مورد اندازه شاخص موقعیتی Discussion on Positional Index Size

ساخت شاخص. تخمین اندازه پست ها، نمایه سازی مبتنی بر مرتب سازی، نمایه پویا Index construction. Postings size estimation, sort-based indexing, dynamic index

  • پیاده سازی ساختار داده دیکشنری Dictionary Data Structure Implementation

  • سوالات وایلد کارت Wild card queries

  • سوالات مربوط به پرس و جوهای کارت وایلد Questions on Wild Card Queries

  • مدیریت پرس و جو کارت وایلد با استفاده از شاخص Permuterm Wild Card Query Handling Using Permuterm Index

  • مدیریت پرس و جو کارت وایلد با استفاده از شاخص K-Gram Wild Card Query Handling Using K-Gram Index

  • الگوریتم ساندکس Soundex Algorithm

  • تکنیک های تصحیح املا در یک سیستم IR Spelling Correction Techniques in an IR System

  • سوال در مورد الگوریتم Soundex Question On Soundex Algorithm

  • تصحیح املا (قسمت دوم) Spelling Correction (Part 2)

  • مقدمه ای بر برنامه نویسی پویا Introduction To Dynamic Programming

  • نحوه محاسبه فاصله ویرایش بین دو رشته How To Calculate Edit Distance Between Two Strings

  • تصحیح املا با استفاده از فاصله ویرایش وزنی Spelling Correction Using Weighted Edit Distance

  • تصحیح املا با استفاده از تکنیک همپوشانی Ngram Spelling Correction Using Ngram Overlap Technique

  • محاسبه ضریب جاکارد (یک مثال) Calculating Jaccard Coefficient (An Example)

  • تصحیح املا حساس به زمینه Context Sensitive Spell Correction

فشرده سازی دیکشنری، فشرده سازی ارسال Dictionary Compression, Posting Compression

  • مقدمه ای بر ساخت و ساز شاخص Introduction to Index Construction

  • ساخت ایندکس با استفاده از مرتب سازی InMemory Index Construction Using InMemory Sorting

  • ساخت ایندکس با استفاده از الگوریتم BSBI Index Construction Using BSBI Algorithm

  • ساخت ایندکس با استفاده از الگوریتم SPIMI Index Construction Using SPIMI Algorithm

  • مقدمه ای بر نمایه سازی توزیع شده Introduction To Distributed Indexing

  • نحوه ایجاد نمایه های توزیع شده How To build distributed indexes

  • پرسش و پاسخ در مورد شاخص توزیع شده Q & A on Distributed Index

  • کاهش نقشه Map Reduce

  • نمایه سازی پویا با استفاده از رویکرد ساده لوحانه Dynamic indexing using naive approach

  • نمایه سازی پویا با استفاده از ادغام لگاریتمی Dynamic indexing using logarithimic merge

  • مسائل مربوط به شاخص های چندگانه Issues With Multiple Indexes

امتیازدهی، وزن ترم، و مدل فضای برداری Scoring, term weighting, and the vector space model

  • چرا ایندکس ها را فشرده می کنیم؟ Why do we compress indexes

  • آمارهای مهم در مورد مجموعه RCV Important Statistics about RCV Collection

  • تکنیک های فشرده سازی دیکشنری مختلف Various Dictionary Compression Techniques

  • تکنیک های فشرده سازی دیکشنری مختلف قسمت 2 Various Dictionary Compression Techniques Part 2

  • تکنیک های مختلف فشرده سازی پست Various Posting Compression Techniques

امتیازدهی فضای برداری کارآمد. تکنیک های نزدیکترین همسایه Efficient vector space scoring. Nearest neighbor techniques

  • مدل بازیابی رتبه بندی شده Ranked Retrieval Model

  • امتیاز ژاکارد Jaccard Score

  • مدل توزین فرکانس ترم و کیسه کلمات Term Frequency Weighing And Bag Of Words Model

  • فرکانس معکوس سند Inverse Document Frequency

  • امتیاز TF-IDF TF-IDF Score

  • اسناد AS TF-IDF Vectors Documents AS TF-IDF Vectors

  • عادی سازی طول Length Normalization

  • مثال تشابه کسینوس Cosine Similarity Example

  • محاسبه امتیاز کسینوس در شاخص Computing Cosine Scores On Index

  • انواع وزنه های TF IDF Variants of TF IDF Weights

ارزیابی موتورهای جستجو شادی کاربر، دقت، یادآوری، اندازه گیری F Evaluating search engines. User happiness, precision, recall, F-measure

  • ترم در یک زمان به ثمر رساند Term at a Time Scoring

  • رتبه بندی کسینوس کارآمد Efficient Cosine Ranking

  • رویکرد عمومی برای سرعت بخشیدن به شباهت کسینوس Generic Approach For Speeding up Cosine Similarity

  • حذف شاخص Index Elimination

  • لیست قهرمانان Champion Lists

  • امتیاز کیفیت استاتیک Static Quality Score

  • لیست های بالا و پایین High And Low Lists

  • ارسال سفارشی تاثیر Impact Ordered Posting

  • هرس خوشه ای Cluster Pruning

  • شاخص خستگی منطقه پارامتریک Parametric Zone Tired Index

  • نزدیکی اصطلاح پرس و جو و تجزیه پرس و جو Query Term Proximity And Query Parsing

  • چگونه یک موتور جستجو کار می کند How A Search Engine Works

تبلیغات سیستم. Google AdSense. بهینه سازی موتور جستجو Advertisement Systen. Google AdSense. Search Engine Optimization

  • عملکرد موتور جستجو قسمت 1 Performance of a Search Engine Part 1

  • عملکرد موتور جستجو قسمت 2 Performance of a Search Engine Part 2

  • عملکرد موتور جستجو قسمت 3 Performance of a Search Engine Part 3

  • عملکرد موتور جستجو قسمت 4 Performance of a Search Engine Part 4

  • عملکرد موتور جستجو قسمت 5 Performance of a Search Engine Part 5

یادگیری تحت نظارت. طبقه بندی متن طبقه بندی متن ساده لوحانه-بایز Supervised Learning. Text Classification. Naive-Bayes Text Classification

  • تجارت الکترونیک در مقابل مشاغل سنتی ECommerce Vs. Traditional Businesses

  • مدل های قیمت گذاری برای تبلیغات آنلاین Pricing Models For Online Advertisement

  • AdWords و AdSense AdWords and AdSense

  • SEM و SEO SEM And SEO

تجزیه و تحلیل پیوند. وب به عنوان یک نمودار رتبه صفحه Link analysis. Web as a graph. PageRank

  • سیستم طبقه بندی Classification System

  • طبقه بندی اسناد Document Classification

  • روش های دسته بندی دستی Manual Classification Methods

  • طبقه بندی کننده های ساده لوح بیز Naive Bayes Classifiers

  • قوانین بیز طبقه بندی متن Bayes Rules Of Text Classification

  • روش های مختلف طبقه بندی Various Classification Methods

  • نمونه ای از مدل چند متغیره برنولی Example of Multivariate Bernouli Model

  • نسخه دوم Naive Bayes Second Version of Naive Bayes

  • نمونه ای از نسخه دوم Naive Bayes Example of Second Version of Naive Bayes

خوشه بندی. مقدمه ای بر مسئله. روش های پارتیشن بندی: k-means clusterin Clustering. Introduction to the problem. Partitioning methods: k-means clusterin

  • سیستم شهرت Reputation System

  • نمونه هایی از سیستم شهرت Examples of Reputation System

  • محدودیت های سیستم شهرت Limitations of Reputation System

  • محاسبه رتبه صفحه Page Rank Calculation

خزنده وب Web Crawler

  • خوشه بندی چیست What is Clustering

  • کاربردهای خوشه بندی در سیستم های IR Applications of Clustering in IR Systems

  • مسائل مربوط به خوشه بندی Issues For Clustering

  • مقدمه ای بر الگوریتم های خوشه بندی Introduction to Clustering Algorithms

  • الگوریتم های خوشه بندی K-Means K-Means Clustering Algorithms

  • الگوریتم های روچیو Rocchio Algorithms

  • K الگوریتم های نزدیکترین همسایه K Nearest Neighbor Algorithms

  • بحث در مورد K نزدیکترین همسایه Discussion on K Nearest Neighbor

  • اثبات الگوریتم روکیو به عنوان طبقه بندی کننده خطی Proof of Rocchio's Algorithm as linear classifier

  • مثالی در الگوریتم‌های روچیو کار کرد Worked out Example On Rocchio Algorithms

  • نمونه هایی در نمایه بیگرام Examples On Bigram Index

قوانین انجمن مدل سبد بازار و مجموعه اقلام مکرر. الگوریتم پیشینی Association Rules. Market Basket Model and Frequent Item Sets. A Priori Algorith

  • معرفی قانون انجمن Association Rule Introduction

  • مدل سبد بازار و مجموعه اقلام مکرر Market Basket Model and Frequent Item Sets

  • رویکرد رسمی به قوانین انجمن A formal approach to Association Rules

  • چگونه قوانین انجمن را پیدا کنیم How to find association Rules

  • ملاحظات ذخیره سازی برای سبد بازار Storage Considerations for Market Basket

  • گلوگاه حافظه در ذخیره سازی سبد بازار Memory Bottleneck in Storage of Market Basket

  • یک الگوریتم ساده لوح برای کشف قوانین انجمن قسمت 1 A Naive Algorithm to discover Association Rules Part1

  • یک الگوریتم ساده لوح برای کشف قوانین انجمن قسمت 2 A Naive Algorithm to discover Association Rules Part2

  • یک الگوریتم پیشینی A Priori Algorithm

  • بسط الگوریتم پیشینی Extension of A Priori Algorithm

نمایش نظرات

آموزش مجموعه داده های عظیم بازیابی و استخراج اطلاعات
جزییات دوره
39 hours
123
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
1,895
4.6 از 5
ندارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Omkar Deshpande Omkar Deshpande

مهندس اصلی WalmartLabs

Mentors Net Mentors Net

زندگی های بیشتری را لمس کنید، خرد بیشتری را به دیگران منتقل کنید