آموزش بازیابی اطلاعات و استخراج از مجموعه داده‌های حجیم - آخرین آپدیت

دانلود Information Retrieval and Mining Massive Data Sets

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره:

آموزش ساخت سیستم بازیابی اطلاعات در مقیاس گوگل

با یادگیری تکنیک‌های مختلف، یک سیستم بازیابی اطلاعات (IR System) قدرتمند در مقیاس گوگل بسازید.

محتوای دوره:

بخش ۱: ساخت سیستم بازیابی اطلاعات (Information Retrieval System)
بخش ۲: استخراج الگوهای پرتکرار و وابستگی‌ها (Mining Frequent Patterns and Associations)
بخش ۳: طبقه‌بندی و خوشه‌بندی (Classification and Clustering)
بخش ۴: استخراج اطلاعات از وب (Web Mining)
بخش ۵: سیستم‌های توصیه‌گر (Recommendation Systems)

هدف دوره:

هدف اصلی این دوره، معرفی تکنیک‌های متنوع مورد نیاز برای ساخت یک سیستم بازیابی اطلاعات کارآمد است. در این دوره، روش‌های مختلفی را برای حل مشکلات داده‌های بزرگ (Big Data) بررسی خواهیم کرد. راه‌حل‌های جایگزین و مزایا و معایب آن‌ها را ارزیابی می‌کنیم. در بخش‌های پایانی، به بررسی الگوریتم‌های داده‌کاوی گوناگون برای درک بهتر مجموعه داده‌های عظیم خواهیم پرداخت.

پیش‌نیازهای دوره:

آشنایی با نظریه احتمالات و جبر خطی.
تسلط کافی بر الگوریتم‌های سطح تحصیلات تکمیلی.
تجربه کار با یک زبان برنامه‌نویسی (مانند C، Python، Java).

سرفصل ها و درس ها

مقدمه‌ای بر موتور جستجوی بولی Introduction To a Boolean Search Engine

داده کاوی چیست What is Data Mining
داده ساختاریافته، داده بدون ساختار و بازیابی اطلاعات Structured Data, Unstructured data and Information Retrieval
ماتریس وقوع واژه-سند (۱) Term-Document Incidence Matrix (1)
ماتریس وقوع واژه-سند (۲) Term-Document Incidence Matrix (2)
شاخص معکوس Inverted Index
موازنه ها در پیاده سازی شاخص معکوس Tradeoffs in implementing an Inverted Index
پردازش پرس و جوهای AND، OR، NOT Processing AND, OR, NOT queries
مروری بر خط لوله ساخت شاخص Overview of Index Construction Pipeline
بهینه سازی پرس و جو با استفاده از فراوانی سند (۱) Query optimization using Document Frequency (1)
بهینه سازی پرس و جو با استفاده از فراوانی سند (۲) Query Optimization Using Document Frequency (2)
مدل بازیابی بولی Boolean Retrieval Model
مثالی از مدل بازیابی بولی Example of a Boolean Retrieval Model
محدودیت های مدل بازیابی بولی Limitations of Boolean Retrieval Model
چگونه عملکرد سیستم IR را ارزیابی کنیم How to evaluate performance of an IR System
Zeitgeist گوگل Google zeitgeist

ساختار داده دیکشنری. بازیابی تحمل پذیر Dictionary Data Structure. Tolerant retrieval

تجزیه اسناد و مسائل مرتبط با آن Parsing Documents and Issues Associated with it
فرآیند توکنیزاسیون در یک سیستم IR Tokenization Process in an IR System
نرمال سازی به واژه ها Normalization to Terms
ادغام سریعتر فهرست ها با اشاره گر پرش Faster Postings Merges With Skip Pointers
چگونه با پرس و جوی عبارت برخورد کنیم How to Handle Phrase Query
پرس و جوی عبارت با استفاده از شاخص موقعیتی Phrase Query Using Positional Index
چگونه با پرس و جوی مجاورت برخورد کنیم How to handle proximity query
بحث در مورد اندازه شاخص موقعیتی Discussion on Positional Index Size

ساخت شاخص. تخمین اندازه فهرست، شاخص مبتنی بر مرتب سازی، شاخص پویا Index construction. Postings size estimation, sort-based indexing, dynamic index

پیاده سازی ساختار داده دیکشنری Dictionary Data Structure Implementation
پرس و جوهای کاراکتر عام Wild card queries
سوالاتی در مورد پرس و جوهای کاراکتر عام Questions on Wild Card Queries
مدیریت پرس و جوهای کاراکتر عام با استفاده از شاخص Permuterm Wild Card Query Handling Using Permuterm Index
مدیریت پرس و جوهای کاراکتر عام با استفاده از شاخص K-Gram Wild Card Query Handling Using K-Gram Index
الگوریتم Soundex Soundex Algorithm
تکنیک های تصحیح املا در یک سیستم IR Spelling Correction Techniques in an IR System
سوال در مورد الگوریتم Soundex Question On Soundex Algorithm
تصحیح املا (بخش ۲) Spelling Correction (Part 2)
مقدمه ای بر برنامه نویسی پویا Introduction To Dynamic Programming
چگونه فاصله ویرایش بین دو رشته را محاسبه کنیم How To Calculate Edit Distance Between Two Strings
تصحیح املا با استفاده از فاصله ویرایش وزن دار Spelling Correction Using Weighted Edit Distance
تصحیح املا با استفاده از تکنیک همپوشانی Ngram Spelling Correction Using Ngram Overlap Technique
محاسبه ضریب ژاکارد (مثال) Calculating Jaccard Coefficient (An Example)
تصحیح املا حساس به متن Context Sensitive Spell Correction

فشرده سازی دیکشنری، فشرده سازی فهرست Dictionary Compression, Posting Compression

مقدمه ای بر ساخت شاخص Introduction to Index Construction
ساخت شاخص با استفاده از مرتب سازی درون حافظه Index Construction Using InMemory Sorting
ساخت شاخص با استفاده از الگوریتم BSBI Index Construction Using BSBI Algorithm
ساخت شاخص با استفاده از الگوریتم SPIMI Index Construction Using SPIMI Algorithm
مقدمه ای بر نمایه‌سازی توزیع شده Introduction To Distributed Indexing
چگونه شاخص های توزیع شده بسازیم How To build distributed indexes
پرسش و پاسخ در مورد شاخص توزیع شده Q & A on Distributed Index
Map Reduce Map Reduce
نمایه‌سازی پویا با رویکرد ساده Dynamic indexing using naive approach
نمایه‌سازی پویا با استفاده از ادغام لگاریتمی Dynamic indexing using logarithimic merge
مشکلات با شاخص های متعدد Issues With Multiple Indexes

امتیازدهی، وزن دهی واژه، و مدل فضای برداری Scoring, term weighting, and the vector space model

چرا شاخص ها را فشرده می کنیم Why do we compress indexes
آمار مهم در مورد مجموعه RCV Important Statistics about RCV Collection
تکنیک های مختلف فشرده سازی دیکشنری Various Dictionary Compression Techniques
تکنیک های مختلف فشرده سازی دیکشنری بخش ۲ Various Dictionary Compression Techniques Part 2
تکنیک های مختلف فشرده سازی فهرست Various Posting Compression Techniques

امتیازدهی کارآمد فضای برداری. تکنیک های نزدیکترین همسایه Efficient vector space scoring. Nearest neighbor techniques

مدل بازیابی رتبه بندی شده Ranked Retrieval Model
امتیاز ژاکارد Jaccard Score
وزن دهی فراوانی واژه و مدل Bag of Words Term Frequency Weighing And Bag Of Words Model
فراوانی معکوس سند Inverse Document Frequency
امتیاز TF-IDF TF-IDF Score
اسناد به عنوان بردارهای TF-IDF Documents AS TF-IDF Vectors
نرمال سازی طول Length Normalization
مثال شباهت کسینوسی Cosine Similarity Example
محاسبه امتیازهای کسینوسی بر روی شاخص Computing Cosine Scores On Index
انواع وزن های TF IDF Variants of TF IDF Weights

ارزیابی موتورهای جستجو. رضایت کاربر، دقت، فراخوانی، معیار F Evaluating search engines. User happiness, precision, recall, F-measure

امتیازدهی واژه به واژه Term at a Time Scoring
رتبه بندی کسینوسی کارآمد Efficient Cosine Ranking
رویکرد کلی برای افزایش سرعت شباهت کسینوسی Generic Approach For Speeding up Cosine Similarity
حذف شاخص Index Elimination
لیست های قهرمان Champion Lists
امتیاز کیفیت ایستا Static Quality Score
لیست های بالا و پایین High And Low Lists
فهرست مرتب شده با تأثیر Impact Ordered Posting
خوشه بندی (Pruning) Cluster Pruning
شاخص منطقه پارامتری طبقه بندی شده Parametric Zone Tired Index
مجاورت واژه پرس و جو و تجزیه پرس و جو Query Term Proximity And Query Parsing
عملکرد موتور جستجو چگونه است How A Search Engine Works

سیستم تبلیغات. Google AdSense. بهینه سازی موتور جستجو Advertisement Systen. Google AdSense. Search Engine Optimization

عملکرد یک موتور جستجو بخش ۱ Performance of a Search Engine Part 1
عملکرد یک موتور جستجو بخش ۲ Performance of a Search Engine Part 2
عملکرد یک موتور جستجو بخش ۳ Performance of a Search Engine Part 3
عملکرد یک موتور جستجو بخش ۴ Performance of a Search Engine Part 4
عملکرد یک موتور جستجو بخش ۵ Performance of a Search Engine Part 5

یادگیری نظارت شده. طبقه بندی متن. طبقه بندی متن Naive-Bayes Supervised Learning. Text Classification. Naive-Bayes Text Classification

تجارت الکترونیک در مقابل مشاغل سنتی ECommerce Vs. Traditional Businesses
مدل های قیمت گذاری برای تبلیغات آنلاین Pricing Models For Online Advertisement
AdWords و AdSense AdWords and AdSense
SEM و SEO SEM And SEO

تحلیل پیوند. وب به عنوان یک گراف. PageRank Link analysis. Web as a graph. PageRank

سیستم طبقه بندی Classification System
طبقه بندی اسناد Document Classification
روش های طبقه بندی دستی Manual Classification Methods
طبقه بندی کننده های Naive Bayes Naive Bayes Classifiers
قوانین بیز برای طبقه بندی متن Bayes Rules Of Text Classification
روش های مختلف طبقه بندی Various Classification Methods
مثال مدل چند متغیره برنولی Example of Multivariate Bernouli Model
نسخه دوم Naive Bayes Second Version of Naive Bayes
مثال نسخه دوم Naive Bayes Example of Second Version of Naive Bayes

خوشه بندی. مقدمه ای بر مسئله. روش های پارتیشن بندی: خوشه بندی k-means Clustering. Introduction to the problem. Partitioning methods: k-means clusterin

سیستم های اعتبار Reputation System
نمونه هایی از سیستم اعتبار Examples of Reputation System
محدودیت های سیستم اعتبار Limitations of Reputation System
محاسبه Page Rank Page Rank Calculation

Web Crawler Web Crawler

خوشه بندی چیست What is Clustering
کاربرد خوشه بندی در سیستم های IR Applications of Clustering in IR Systems
مشکلات خوشه بندی Issues For Clustering
مقدمه ای بر الگوریتم های خوشه بندی Introduction to Clustering Algorithms
الگوریتم های خوشه بندی K-Means K-Means Clustering Algorithms
الگوریتم های Rocchio Rocchio Algorithms
الگوریتم های K Nearest Neighbor K Nearest Neighbor Algorithms
بحث در مورد K Nearest Neighbor Discussion on K Nearest Neighbor
اثبات الگوریتم Rocchio به عنوان طبقه بندی کننده خطی Proof of Rocchio's Algorithm as linear classifier
مثال حل شده در الگوریتم های Rocchio Worked out Example On Rocchio Algorithms
مثال هایی بر روی شاخص Bigram Examples On Bigram Index

قوانین وابستگی. مدل سبد خرید بازار و مجموعه اقلام پرتکرار. الگوریتم A Priori Association Rules. Market Basket Model and Frequent Item Sets. A Priori Algorith

عملکرد Web Crawler چگونه است How a Web Crawler Works
معرفی قانون انجمن Association Rule Introduction
پیچیدگی ها در خزیدن Complications in Crawling
مدل سبد بازار و مجموعه اقلام مکرر Market Basket Model and Frequent Item Sets
رویکرد رسمی به قوانین انجمن A formal approach to Association Rules
معماری پیشرفته خزنده Advance Crawler Architecture
چگونه قوانین انجمن را پیدا کنیم How to find association Rules
URL Frontier URL Frontier
ملاحظات ذخیره سازی برای سبد بازار Storage Considerations for Market Basket
گلوگاه حافظه در ذخیره سازی سبد بازار Memory Bottleneck in Storage of Market Basket
یک الگوریتم ساده لوح برای کشف قوانین انجمن قسمت 1 A Naive Algorithm to discover Association Rules Part1
یک الگوریتم ساده لوح برای کشف قوانین انجمن قسمت 2 A Naive Algorithm to discover Association Rules Part2
یک الگوریتم پیشینی A Priori Algorithm
بسط الگوریتم پیشینی Extension of A Priori Algorithm

قوانین وابستگی. مدل سبد خرید بازار و مجموعه اقلام پرتکرار. الگوریتم A Priori Association Rules. Market Basket Model and Frequent Item Sets. A Priori Algorith

مقدمه قوانین وابستگی Association Rule Introduction
مدل سبد خرید بازار و مجموعه اقلام پرتکرار Market Basket Model and Frequent Item Sets
رویکرد رسمی به قوانین وابستگی A formal approach to Association Rules
چگونه قوانین وابستگی را پیدا کنیم How to find association Rules
ملاحظات ذخیره سازی برای سبد خرید بازار Storage Considerations for Market Basket
گلوگاه حافظه در ذخیره سازی سبد خرید بازار Memory Bottleneck in Storage of Market Basket
یک الگوریتم ساده برای کشف قوانین وابستگی بخش اول A Naive Algorithm to discover Association Rules Part1
یک الگوریتم ساده برای کشف قوانین وابستگی بخش دوم A Naive Algorithm to discover Association Rules Part2
الگوریتم A Priori A Priori Algorithm
گسترش الگوریتم A Priori Extension of A Priori Algorithm

برای ارسال نظر ثبت نام کنید.

توسعه وب

توسعه

توسعه بدون کد

آموزش بازیابی اطلاعات و استخراج از مجموعه داده‌های حجیم - آخرین آپدیت

دانلود Information Retrieval and Mining Massive Data Sets

آموزش ساخت سیستم بازیابی اطلاعات در مقیاس گوگل

محتوای دوره:

هدف دوره:

پیش‌نیازهای دوره:

مقدمه‌ای بر موتور جستجوی بولی Introduction To a Boolean Search Engine

داده کاوی چیست What is Data Mining

داده ساختاریافته، داده بدون ساختار و بازیابی اطلاعات Structured Data, Unstructured data and Information Retrieval

ماتریس وقوع واژه-سند (۱) Term-Document Incidence Matrix (1)

ماتریس وقوع واژه-سند (۲) Term-Document Incidence Matrix (2)

شاخص معکوس Inverted Index

موازنه ها در پیاده سازی شاخص معکوس Tradeoffs in implementing an Inverted Index

پردازش پرس و جوهای AND، OR، NOT Processing AND, OR, NOT queries

مروری بر خط لوله ساخت شاخص Overview of Index Construction Pipeline

بهینه سازی پرس و جو با استفاده از فراوانی سند (۱) Query optimization using Document Frequency (1)

بهینه سازی پرس و جو با استفاده از فراوانی سند (۲) Query Optimization Using Document Frequency (2)

مدل بازیابی بولی Boolean Retrieval Model

مثالی از مدل بازیابی بولی Example of a Boolean Retrieval Model

محدودیت های مدل بازیابی بولی Limitations of Boolean Retrieval Model

چگونه عملکرد سیستم IR را ارزیابی کنیم How to evaluate performance of an IR System

Zeitgeist گوگل Google zeitgeist

ساختار داده دیکشنری. بازیابی تحمل پذیر Dictionary Data Structure. Tolerant retrieval

تجزیه اسناد و مسائل مرتبط با آن Parsing Documents and Issues Associated with it

فرآیند توکنیزاسیون در یک سیستم IR Tokenization Process in an IR System

نرمال سازی به واژه ها Normalization to Terms

ادغام سریعتر فهرست ها با اشاره گر پرش Faster Postings Merges With Skip Pointers

چگونه با پرس و جوی عبارت برخورد کنیم How to Handle Phrase Query

پرس و جوی عبارت با استفاده از شاخص موقعیتی Phrase Query Using Positional Index

چگونه با پرس و جوی مجاورت برخورد کنیم How to handle proximity query

بحث در مورد اندازه شاخص موقعیتی Discussion on Positional Index Size

ساخت شاخص. تخمین اندازه فهرست، شاخص مبتنی بر مرتب سازی، شاخص پویا Index construction. Postings size estimation, sort-based indexing, dynamic index

پیاده سازی ساختار داده دیکشنری Dictionary Data Structure Implementation

پرس و جوهای کاراکتر عام Wild card queries

سوالاتی در مورد پرس و جوهای کاراکتر عام Questions on Wild Card Queries

مدیریت پرس و جوهای کاراکتر عام با استفاده از شاخص Permuterm Wild Card Query Handling Using Permuterm Index

مدیریت پرس و جوهای کاراکتر عام با استفاده از شاخص K-Gram Wild Card Query Handling Using K-Gram Index

الگوریتم Soundex Soundex Algorithm

تکنیک های تصحیح املا در یک سیستم IR Spelling Correction Techniques in an IR System

سوال در مورد الگوریتم Soundex Question On Soundex Algorithm

تصحیح املا (بخش ۲) Spelling Correction (Part 2)

مقدمه ای بر برنامه نویسی پویا Introduction To Dynamic Programming

چگونه فاصله ویرایش بین دو رشته را محاسبه کنیم How To Calculate Edit Distance Between Two Strings

تصحیح املا با استفاده از فاصله ویرایش وزن دار Spelling Correction Using Weighted Edit Distance

تصحیح املا با استفاده از تکنیک همپوشانی Ngram Spelling Correction Using Ngram Overlap Technique

محاسبه ضریب ژاکارد (مثال) Calculating Jaccard Coefficient (An Example)

تصحیح املا حساس به متن Context Sensitive Spell Correction

فشرده سازی دیکشنری، فشرده سازی فهرست Dictionary Compression, Posting Compression

مقدمه ای بر ساخت شاخص Introduction to Index Construction

ساخت شاخص با استفاده از مرتب سازی درون حافظه Index Construction Using InMemory Sorting

ساخت شاخص با استفاده از الگوریتم BSBI Index Construction Using BSBI Algorithm

ساخت شاخص با استفاده از الگوریتم SPIMI Index Construction Using SPIMI Algorithm

مقدمه ای بر نمایه‌سازی توزیع شده Introduction To Distributed Indexing

چگونه شاخص های توزیع شده بسازیم How To build distributed indexes

پرسش و پاسخ در مورد شاخص توزیع شده Q & A on Distributed Index

Map Reduce Map Reduce

نمایه‌سازی پویا با رویکرد ساده Dynamic indexing using naive approach

نمایه‌سازی پویا با استفاده از ادغام لگاریتمی Dynamic indexing using logarithimic merge

مشکلات با شاخص های متعدد Issues With Multiple Indexes

امتیازدهی، وزن دهی واژه، و مدل فضای برداری Scoring, term weighting, and the vector space model

چرا شاخص ها را فشرده می کنیم Why do we compress indexes

آمار مهم در مورد مجموعه RCV Important Statistics about RCV Collection

تکنیک های مختلف فشرده سازی دیکشنری Various Dictionary Compression Techniques

تکنیک های مختلف فشرده سازی دیکشنری بخش ۲ Various Dictionary Compression Techniques Part 2

تکنیک های مختلف فشرده سازی فهرست Various Posting Compression Techniques

امتیازدهی کارآمد فضای برداری. تکنیک های نزدیکترین همسایه Efficient vector space scoring. Nearest neighbor techniques

مدل بازیابی رتبه بندی شده Ranked Retrieval Model

امتیاز ژاکارد Jaccard Score

وزن دهی فراوانی واژه و مدل Bag of Words Term Frequency Weighing And Bag Of Words Model

فراوانی معکوس سند Inverse Document Frequency

امتیاز TF-IDF TF-IDF Score

اسناد به عنوان بردارهای TF-IDF Documents AS TF-IDF Vectors

نرمال سازی طول Length Normalization

مثال شباهت کسینوسی Cosine Similarity Example

محاسبه امتیازهای کسینوسی بر روی شاخص Computing Cosine Scores On Index

انواع وزن های TF IDF Variants of TF IDF Weights

ارزیابی موتورهای جستجو. رضایت کاربر، دقت، فراخوانی، معیار F Evaluating search engines. User happiness, precision, recall, F-measure