🔔 با توجه به بهبود نسبی اینترنت، آمادهسازی دورهها آغاز شده است. به دلیل تداوم برخی اختلالات، بارگذاری دورهها ممکن است با کمی تأخیر انجام شود. مدت اشتراکهای تهیهشده محفوظ است.
لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش متن کاوی و تشخیص نوری کاراکتر با پایتون
- آخرین آپدیت
دانلود Text Mining & Optical Character Recognition with Python
نکته:
ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:
آموزش جامع متنکاوی و OCR با پایتون
به دوره جامع متنکاوی (Text Mining) و تشخیص نوری کاراکتر (Optical Character Recognition - OCR) با پایتون خوش آمدید. این دوره پروژه محور، گام به گام به شما میآموزد که چگونه از تکنیکهای پیشرفته متنکاوی با استفاده از پردازش زبان طبیعی (NLP) بهره ببرید. علاوه بر این، یک سیستم تشخیص نوری کاراکتر با استفاده از کتابخانههای پایتون مانند EasyOCR و Tesseract ایجاد خواهید کرد. سیستم OCR قادر خواهد بود متن را از انواع اسناد و تصاویر استخراج کند. این دوره به خوبی متنکاوی را با بینایی کامپیوتر ترکیب میکند و فرصتی عالی برای تمرین مهارتهای برنامهنویسی شما با ایجاد پروژههای پیچیده با کاربردهای دنیای واقعی ارائه میدهد.
در جلسه مقدماتی، اصول اولیه متنکاوی و تشخیص نوری کاراکتر، مانند آشنایی با موارد استفاده، نحوه عملکرد این فناوریها، چالشها و محدودیتهای فنی را یاد خواهید گرفت. سپس، در جلسه بعدی، مجموعهدادههای متنی را از Kaggle دانلود خواهیم کرد. این دادهها شامل صدها یا حتی هزاران متن ساختار نیافته خواهند بود. قبل از شروع پروژه، تکنیکهای اساسی متنکاوی مانند توکنایزیشن، حذف ایستواژهها (Stopwords)، ریشهیابی (Stemming)، لِماتیزاسیون (Lemmatization) و نرمالسازی متن را خواهیم آموخت. این بخش بسیار مهم است زیرا درک اساسی از متنکاوی را برای شما فراهم میکند.
پس از آن، بخش پروژه را شروع خواهیم کرد. برای متنکاوی، هشت پروژه خواهیم داشت:
پروژه اول: ساخت سیستم تشخیص موجودیت نامدار (Named Entity Recognition - NER) برای مقالات خبری با استفاده از Spacy و Flair
پروژه دوم: ایجاد سیستم مدلسازی موضوعی (Topic Modeling) برای تحقیقات آکادمیک با استفاده از Gensim و LDA
پروژه سوم: ایجاد سیستم دستهبندی و طبقهبندی مقالات خبری با استفاده از TF-IDF
پروژه چهارم: ساخت سیستم خلاصهسازی متن (Text Summarization) برای مقالات تحقیقاتی با استفاده از Transformers و BART
پروژه پنجم: ایجاد سیستم استخراج کلمات کلیدی (Keyword Extraction) برای ابزار بهینهسازی موتورهای جستجو (SEO) با استفاده از Rake NLTK و Spacy
پروژه ششم: انجام تحلیل احساسات (Sentiment Analysis) بر روی نظرات محصولات با استفاده از TextBlob و BERT
پروژه هفتم: ساخت ابزار تشخیص تقلب (Plagiarism Detection) با استفاده از TF-IDF و Cosine Similarity
پروژه هشتم: ایجاد سیستم طبقهبندی ایمیلهای اسپم (Spam Email Classification) با استفاده از ماشین بردار پشتیبان (Support Vector Machine)
در بخش بعدی، تکنیکهای اساسی مورد نیاز برای OCR مانند پردازش تصویر و شناسایی ناحیه مورد علاقه (Region of Interest - ROI) را یاد خواهیم گرفت. در همین حال، برای OCR، سه پروژه خواهیم داشت:
پروژه اول: ساخت سیستم تشخیص پلاک خودرو (Car License Plate Recognition) با استفاده از EasyOCR
پروژه دوم: ایجاد سیستم تشخیص دستخط (Handwriting Recognition) با استفاده از EasyOCR
پروژه سوم: ساخت سیستم اسکن رسید (Receipt Scanner) با استفاده از Tesseract
قبل از شروع دوره، باید از خود این سوال را بپرسیم: چرا باید در مورد متنکاوی و تشخیص نوری کاراکتر یاد بگیریم؟ پاسخ من این است:
متنکاوی و تشخیص نوری کاراکتر برای تبدیل دادههای متنی ساختار نیافته به بینشهای ارزشمند ضروری هستند و به کسبوکارها و محققان این امکان را میدهند تا مقادیر زیادی از اطلاعات را به طور موثر تجزیه و تحلیل و تفسیر کنند. این فناوریها نقش مهمی در خودکارسازی فرآیندهای استخراج و تحلیل دادهها، کاهش تلاش دستی و افزایش دقت ایفا میکنند. علاوه بر این، در زمینههایی مانند مراقبتهای بهداشتی، امور مالی و حقوقی، متنکاوی و OCR برای مدیریت حجم زیادی از اسناد، استخراج اطلاعات مربوطه و اطمینان از انطباق با الزامات نظارتی ضروری هستند. علاوه بر این، با تسلط بر این تکنیکها، مهارتهای لازم برای توسعه برنامههای پیشرفته مبتنی بر داده را به دست میآوریم و در نهایت توانایی خود را در حل مسائل پیچیده دنیای واقعی از طریق علم داده و هوش مصنوعی افزایش میدهیم.
آنچه در این دوره خواهید آموخت:
آموزش مبانی متنکاوی و کاربردهای آن
آموزش مبانی تشخیص نوری کاراکتر و کاربردهای آن
آشنایی با نحوه کارکرد متنکاوی: جمعآوری دادهها، پیشپردازش متن، استخراج ویژگی، تحلیل و مدلسازی متن
آشنایی با نحوه کارکرد تشخیص نوری کاراکتر: ثبت تصویر، پیشپردازش، مکانیابی متن، بخشبندی کاراکتر، تشخیص کاراکتر و تولید خروجی
آموزش توکنایزیشن و حذف ایستواژهها با استفاده از NLTK
آموزش انجام ریشهیابی، لِماتیزاسیون و مکانیابی متن با استفاده از NLTK
آموزش ساخت سیستم تشخیص موجودیت نامدار با استفاده از Spacy و Flair
آموزش انجام مدلسازی موضوعی با استفاده از Gensim و LDA
آموزش ساخت سیستم دستهبندی مقالات خبری با استفاده از TF-IDF
آموزش ساخت خلاصهساز متن با استفاده از Transformers و BART
آموزش استخراج کلمات کلیدی با استفاده از Rake NLTK و Spacy
آموزش انجام تحلیل احساسات با استفاده از TextBlob و BERT
آموزش ساخت ابزار تشخیص تقلب با استفاده از TF-IDF و Cosine Similarity
آموزش ساخت ابزار تشخیص ایمیلهای اسپم با استفاده از ماشین بردار پشتیبان
آموزش انجام پردازش تصویر و شناسایی ناحیه مورد علاقه
آموزش ساخت سیستم تشخیص پلاک خودرو با استفاده از EasyOCR
آموزش ساخت سیستم تشخیص دستخط با استفاده از EasyOCR
آموزش ساخت سیستم اسکن رسید با استفاده از Tesseract
پروژههای تکمیلی:
تحلیل احساسات در بازخورد مشتری با استفاده از VADER: در این پروژه، نحوه تحلیل بازخورد مشتری با استفاده از VADER، یک ابزار تحلیل احساسات را یاد خواهید گرفت. یاد میگیرید که چگونه بازخورد را به عنوان مثبت، منفی یا خنثی دستهبندی کنید تا درک بهتری از رضایت مشتری به دست آورید و استراتژیهای تجاری را بهبود بخشید.
ساخت مدل تشخیص زبان با استفاده از Naive Bayes: در این پروژه، یک مدل تشخیص زبان با استفاده از Naive Bayes، یک الگوریتم یادگیری ماشین محبوب، خواهید ساخت. مدل را آموزش میدهید تا زبان دادههای متنی را به طور دقیق شناسایی کند و به کسبوکارها و برنامهها کمک میکند تا محتوای چند زبانه را به طور موثر پردازش کنند.
OCR: استخراج متن از تصویر گزارش آزمایشگاهی با استفاده از Pytesseract: این پروژه شما را در استخراج متن از تصاویر، به ویژه گزارشهای آزمایشگاهی، با استفاده از Pytesseract، یک ابزار OCR (تشخیص نوری کاراکتر) راهنمایی میکند. یاد میگیرید که چگونه استخراج متن از اسناد اسکن شده یا عکس گرفته شده را برای تجزیه و تحلیل و پردازش آسان دادهها خودکار کنید.
پیشنیازها:
بدون نیاز به تجربه قبلی در متنکاوی
بدون نیاز به تجربه قبلی در تشخیص نوری کاراکتر
آشنایی اولیه با پایتون و Pandas
سرفصل ها و درس ها
مقدمه
Introduction
معرفی دوره
Introduction to the Course
فهرست مطالب
Table of Contents
این دوره برای چه کسانی مناسب است؟
Whom This Course is Intended for?
ابزارها، IDE و مجموعه دادهها
Tools, IDE, and Datasets
ابزارها، IDE و مجموعه دادهها
Tools, IDE, and Datasets
آشنایی با متنکاوی
Introduction to Text Mining
آشنایی با متنکاوی
Introduction to Text Mining
آشنایی با تشخیص نوری کاراکتر (OCR)
Introduction to Optical Character Recognition
آشنایی با تشخیص نوری کاراکتر (OCR)
Introduction to Optical Character Recognition
یافتن و دانلود مجموعه دادهها از Kaggle
Finding & downloading Datasets From Kaggle
یافتن و دانلود مجموعه دادهها از Kaggle
Finding & downloading Datasets From Kaggle
توکنسازی و حذف کلمات توقف با NLTK
Tokenization & Removing Stopwords with NLTK
توکنسازی و حذف کلمات توقف با NLTK
Tokenization & Removing Stopwords with NLTK
ریشهیابی، لِماتیزاسیون و نرمالسازی متن با NLTK
Stemming, Lemmatization, and Text Normalization with NLTK
ریشهیابی، لِماتیزاسیون و نرمالسازی متن با NLTK
Stemming, Lemmatization, and Text Normalization with NLTK
ساخت سیستم تشخیص موجودیت نامدار با Spacy & Flair
Building Named Entity Recognition System with Spacy & Flair
ساخت سیستم تشخیص موجودیت نامدار با Spacy & Flair
Building Named Entity Recognition System with Spacy & Flair
مدلسازی موضوعی با Gensim & LDA
Topic Modelling with Gensim & LDA
مدلسازی موضوعی با Gensim & LDA
Topic Modelling with Gensim & LDA
دستهبندی مقالات خبری با TF-IDF
News Articles Classification with TF-IDF
دستهبندی مقالات خبری با TF-IDF
News Articles Classification with TF-IDF
خلاصهسازی متن با Transformers & BART
Summarizing Text with Transformers & BART
خلاصهسازی متن با Transformers & BART
Summarizing Text with Transformers & BART
استخراج کلمات کلیدی با Rake NLTK & Spacy
Extracting Keywords with Rake NLTK & Spacy
استخراج کلمات کلیدی با Rake NLTK & Spacy
Extracting Keywords with Rake NLTK & Spacy
تحلیل احساسات با TextBlob & BERT
Sentiment Analysis with TextBlob & BERT
تحلیل احساسات با TextBlob & BERT
Sentiment Analysis with TextBlob & BERT
ساخت ابزار تشخیص سرقت ادبی با TF-IDF و تشابه کسینوسی
Building Plagiarism Detection Tool with TF-IDF & Cosine Similarity
ساخت ابزار تشخیص سرقت ادبی با TF-IDF و تشابه کسینوسی
Building Plagiarism Detection Tool with TF-IDF & Cosine Similarity
ساخت ابزار تشخیص ایمیلهای اسپم با SVM
Building Spam Email Detection Tool with SVM
ساخت ابزار تشخیص ایمیلهای اسپم با SVM
Building Spam Email Detection Tool with SVM
پردازش تصویر و شناسایی ناحیه مورد نظر
Image Processing & Region of Interest Identification
پردازش تصویر و شناسایی ناحیه مورد نظر
Image Processing & Region of Interest Identification
ساخت سیستم تشخیص پلاک خودرو با EasyOCR
Building Car License Plate Recognition System with EasyOCR
ساخت سیستم تشخیص پلاک خودرو با EasyOCR
Building Car License Plate Recognition System with EasyOCR
ساخت سیستم تشخیص دستخط با EasyOCR
Building Handwriting Recognition System with EasyOCR
ساخت سیستم تشخیص دستخط با EasyOCR
Building Handwriting Recognition System with EasyOCR
اسکن رسید با Tesseract
Scanning Receipt with Tesseract
اسکن رسید با Tesseract
Scanning Receipt with Tesseract
تحلیل احساسات در بازخورد مشتری با VADER
Performing Sentiment Analysis on Client Feedback with VADER
تحلیل احساسات در بازخورد مشتری با VADER
Performing Sentiment Analysis on Client Feedback with VADER
ساخت مدل تشخیص زبان با Naive Bayes
Building Language Detection Model with Naive Bayes
ساخت مدل تشخیص زبان با Naive Bayes
Building Language Detection Model with Naive Bayes
استخراج متن از گزارش آزمایشگاه با Pytesseract
Extracting Text From Lab Report with Pytesseract
استخراج متن از گزارش آزمایشگاه با Pytesseract
Extracting Text From Lab Report with Pytesseract
نمایش نظرات