لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش استخراج هوشمند متن و داده از سند با OCR NER
Intelligently Extract Text & Data from Document with OCR NER
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
توسعه پروژه برنامه اسکنر سند که استخراج موجودیت نامگذاری شده از اسناد اسکن با OpenCV، Pytesseract، Spacy Develop و Train Named Entity Recognition Model است نه تنها متن را از تصویر استخراج کنید، بلکه موجودیت ها را از کارت ویزیت استخراج کنید. توسعه اسکنر کارت ویزیت مانند ABBY از سطح بالا. تکنیکهای پیش پردازش داده برای مشکل زبان طبیعی برنامههای NER زمان واقعی پیش نیازها: حداقل باید در پایتون مبتدی باشد.
به دوره آموزشی "استخراج هوشمند داده متن از سند با OCR NER" خوش آمدید!!!
در این دوره آموزشی یاد خواهید گرفت که چگونه به صورت سفارشی Named Entity Recognizer بسازید. ایده اصلی این دوره استخراج موجودیت ها از اسناد اسکن شده مانند فاکتور، کارت بازرگانی، قبض حمل، بارنامه و اسناد می باشد. اما می توانید از چارچوب توضیح داده شده برای انواع اسناد مالی استفاده کنید. در زیر برنامه درسی ارائه شده است که ما برای توسعه پروژه دنبال می کنیم.
برای توسعه این پروژه از دو فناوری اصلی در علم داده استفاده خواهیم کرد:
بینایی کامپیوتر
پردازش زبان طبیعی
در ماژول Computer Vision، سند را اسکن می کنیم، محل متن را شناسایی می کنیم و در نهایت متن را از تصویر استخراج می کنیم. سپس در پردازش زبان طبیعی، عنوانها را از متن استخراج میکنیم و پاکسازی متن لازم را انجام میدهیم و موجودیتهای متن را تجزیه میکنیم.
کتابخانههای پایتون مورد استفاده در ماژول بینایی رایانه.
OpenCV
Numpy
Pytesseract
کتابخانه های پایتون مورد استفاده در پردازش زبان طبیعی
فضا
پاندا
عبارت منظم
رشته
همانطور که دو فناوری اصلی را برای توسعه پروژه ترکیب میکنیم، برای درک آسان، دوره را به چند مرحله از توسعه تقسیم میکنیم.
مرحله -1: ما پروژه را با انجام نصبها و الزامات لازم راهاندازی میکنیم.
پایتون را نصب کنید
وابسته ها را نصب کنید
مرحله -2: ما آماده سازی داده ها را انجام خواهیم داد. یعنی ما متن را با استفاده از Pytesseract از تصاویر استخراج می کنیم و همچنین پاکسازی لازم را انجام می دهیم.
تصاویر جمع آوری کنید
نمای کلی در Pytesseract
متن را از تمام تصاویر استخراج کنید
پاک کردن و آماده کردن متن
مرحله -3: نحوه برچسب گذاری داده های NER با استفاده از برچسب گذاری BIO را خواهیم دید.
برچسب زدن دستی با تکنیک BIO
B - شروع
I - داخل
O - خارج
مرحله -4: ما متن را بیشتر پاکسازی می کنیم و داده ها را برای آموزش یادگیری ماشین از قبل پردازش می کنیم.
داده های آموزشی را برای Spacy آماده کنید
تبدیل داده ها به قالب فضایی
مرحله -5: با داده های پیش پردازش، مدل نهاد نامگذاری شده را آموزش خواهیم داد.
پیکربندی مدل NER
مدل را آموزش دهید
مرحله -6: عنوانها را با استفاده از NER و مدلسازی پیشبینی میکنیم و خط لوله داده را برای تجزیه متن ایجاد میکنیم.
مدل بارگذاری
ارائه و ارائه با Displacy
کادر مرزی را روی تصویر بکشید
عنوان ها را از متن تجزیه کنید
در نهایت، همه را کنار هم می گذاریم و برنامه اسکنر اسناد را ایجاد می کنیم.
آماده اید !!!
اجازه دهید توسعه پروژه هوش مصنوعی را شروع کنیم.
سرفصل ها و درس ها
معرفی
Introduction
معرفی
Introduction
طرح پروژه
Project Plan
سند پروژه
Project Document
منابع را دانلود کنید
Download the Resources
با مشکلی در دوره مواجه هستید؟ راه حل اینجاست
Facing any Issue with the Course ? Here is the solution
راه اندازی پروژه
Project Setup
پایتون را نصب کنید
Install Python
محیط مجازی را نصب کنید
Install Virtual Environment
بسته ها را در محیط مجازی نصب کنید
Install Packages into Virtual Environment
Tesseract OCR و Pytesseract را نصب کنید
Install Tesseract OCR & Pytesseract
SpaCy را نصب کنید
Install spaCy
تست کنید، بسته ها نصب می شوند
Test, the packages are installed
آماده سازی داده ها
Data Preparation
کارت ویزیت را با استفاده از OpenCV و PIL بارگیری کنید
Load Business Card using OpenCV & PIL
Pytesseract: متن را از Image استخراج کنید
Pytesseract: Extract text from Image
یودمی یکی از بزرگترین پلتفرمهای آموزشی آنلاین است که به میلیونها کاربر در سراسر جهان امکان دسترسی به دورههای متنوع و کاربردی را فراهم میکند. این پلتفرم امکان آموزش در زمینههای مختلف از فناوری اطلاعات و برنامهنویسی گرفته تا زبانهای خارجی، مدیریت، و هنر را به کاربران ارائه میدهد. با استفاده از یودمی، کاربران میتوانند به صورت انعطافپذیر و بهینه، مهارتهای جدیدی را یاد بگیرند و خود را برای بازار کار آماده کنند.
یکی از ویژگیهای برجسته یودمی، کیفیت بالای دورهها و حضور استادان مجرب و با تجربه در هر حوزه است. این امر به کاربران اعتماد میدهد که در حال دریافت آموزش از منابع قابل اعتماد و معتبر هستند و میتوانند به بهترین شکل ممکن از آموزشها بهره ببرند. به طور خلاصه، یودمی به عنوان یکی از معتبرترین و موثرترین پلتفرمهای آموزشی آنلاین، به افراد امکان میدهد تا به راحتی و با کیفیت، مهارتهای مورد نیاز خود را ارتقا دهند و به دنبال رشد و پیشرفت شغلی خود باشند.
تیم مهندس و توسعه دهندگان سلام ، ما تیمی متشکل از کارشناسان یادگیری ماشین ، توسعه دهندگان هوش مصنوعی هستیم که با هم همکاری می کنند تا وضعیت هنر هوش مصنوعی را پیشرفت دهند. وقتی دوره های جدید آزاد می شوید ، با پرسش و پاسخ و بسیاری موارد دیگر از ما می شنوید. ما در اینجا هستیم تا به شما کمک کنیم در لبه پیشرفته علم و فناوری داده بمانید. با تشکر، تیم Data Science Anywhere
توسعه دهنده هوش مصنوعی سلام به همه ، ما تیم دانشمندان داده هستیم و در طول دوره با شما همراه خواهیم بود. ما به تمام س yourالات شما در رابطه با دوره پاسخ خواهیم داد و اگر در اجرای کد ساختار دارید ، به شما کمک می کنیم خطاها را برطرف کنید. بسیار سپاسگزارم و یادگیری مبارک. علم داده در هر کجا
نمایش نظرات