لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش NLP عملی با NLTK و Scikit-Learn [ویدئو]
Hands-on NLP with NLTK and Scikit-learn [Video]
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
امروزه سرریز داده های متنی آنلاین وجود دارد. به عنوان یک توسعه دهنده پایتون، باید یک راه حل جدید با استفاده از پردازش زبان طبیعی برای پروژه بعدی خود ایجاد کنید. همکاران شما برای کسب درآمد از گیگابایت داده های متنی بدون ساختار به شما وابسته هستند. چه کار میکنی؟
NLP عملی با NLTK و یادگیری scikit پاسخ است. این دوره شما را دقیقاً در محل قرار می دهد و با ساختن یک طبقه بندی کننده هرزنامه در اولین ویدیوی ما شروع می کند. در پایان دوره، شما با سه برنامه NLP کنار میروید: یک فیلتر هرزنامه، یک طبقهبندی کننده موضوع و یک تحلیلگر احساسات. نیازی به تئوری ریاضی فانتزی نیست، فقط توضیحات انگلیسی ساده در مورد مفاهیم اصلی NLP و نحوه به کارگیری آنهایی که از کتابخانههای پایتون استفاده میکنند.
گذراندن این دوره به شما کمک می کند تا دقیقاً برنامه های جدید را با پایتون و NLP ایجاد کنید. شما قادر خواهید بود راه حل های واقعی را با پشتیبانی از یادگیری ماشین و مدل های پردازش NLP به راحتی بسازید.
همه کدها و فایل های پشتیبانی در GitHub در دسترس هستند: https://github.com/PacktPublishing/Hands-on-NLP-with-NLTK-and-scikit-learn-
این دوره از Python 3.6، TensorFlow 1.4، NLTK 2 و scikit-learn 0.19 استفاده می کند، در حالی که آخرین نسخه موجود نیست، محتوای مرتبط و آموزنده را برای کاربران قدیمی NLP با NLTK و Scikit-learn ارائه می دهد. * راهحلهای پردازش زبان طبیعی سرتاسر بسازید، از دریافت دادهها برای مدل شما تا ارائه نتایج آن.
* مفاهیم اصلی NLP مانند توکن سازی، ریشه یابی و حذف کلمه توقف.
* از کتابخانه های منبع باز مانند NLTK، scikit-learn و spaCy برای انجام کارهای معمول NLP استفاده کنید.
* ایمیل ها را با استفاده از تکنیک های اولیه NLP و مدل های ساده یادگیری ماشینی به عنوان هرزنامه یا غیر هرزنامه طبقه بندی کنید.
* اسناد را با استفاده از تکنیک هایی مانند TF-IDF، SVM و LDA در موضوعات مرتبط خود قرار دهید.
* مراحل متداول پردازش داده های متنی برای افزایش عملکرد مدل های یادگیری ماشین شما.
این دوره برای توسعه دهندگان، دانشمندان داده و برنامه نویسانی است که می خواهند به طور عملی در مورد پردازش زبان طبیعی با پایتون به طور عملی بیاموزند. توسعهدهندگانی که پروژهای در آینده دارند که به NLP یا انبوهی از دادههای متنی بدون ساختار نیاز دارد و نمیدانند با آن چه کنند، این دوره مفید خواهد بود. تجربه برنامه نویسی قبلی با پایتون در کنار راحت بودن با اصطلاحات یادگیری ماشینی مانند یادگیری نظارت شده، رگرسیون و طبقه بندی فرض می شود. هیچ تجربه قبلی پردازش زبان طبیعی یا متن کاوی مورد نیاز نیست. * به جای پیچیدگی در تئوری و نمادهای ریاضی، راهحلهای واقعی را با پشتیبانی از یادگیری ماشین و مدلهای پردازش زبان طبیعی بسازید. * * سه مدل را به تنهایی بسازید، یکی برای فیلتر هرزنامه، 0ne برای تجزیه و تحلیل احساسات، و در نهایت یکی برای طبقه بندی متن. * * پایه و اساس مناسبی را برای انجام پردازش زبان طبیعی واقعی و کاربردی بدست آورید. ما به شما نشان میدهیم که چگونه میتوانید دادههای منبع باز را دریافت کنید، متن را در ساختارهای داده پایتون با NLTK وارد کنید، و کلاسهای مختلف زبان طبیعی را با scikit-learn پیشبینی کنید. *
سرفصل ها و درس ها
کار با داده های زبان طبیعی
Working with Natural Language Data
بررسی اجمالی دوره
The Course Overview
از Python، NLTK، spaCy و Scikit-learn برای ساخت مجموعه ابزار NLP خود استفاده کنید
Use Python, NLTK, spaCy, and Scikit-learn to Build Your NLP Toolset
خواندن یک فایل زبان طبیعی ساده در حافظه
Reading a Simple Natural Language File into Memory
متن را با بیان منظم به کلمات جداگانه تقسیم کنید
Split the Text into Individual Words with Regular Expression
تبدیل کلمات به لیست نشانه های حروف کوچک
Converting Words into Lists of Lower Case Tokens
حذف کلمات غیر معمول و توقف کلمات
Removing Uncommon Words and Stop Words
طبقه بندی هرزنامه با مجموعه داده های ایمیل
Spam Classification with an Email Dataset
از مجموعه داده های منبع باز و مجموعه داده های Enron چیست استفاده کنید
Use an Open Source Dataset, and What Is the Enron Dataset
بارگیری مجموعه داده انرون در حافظه
Loading the Enron Dataset into Memory
Tokenization، Lemmatization و Stop Word Removal
Tokenization, Lemmatization, and Stop Word Removal
فرآیند استخراج ویژگی کیسهای کلمات با Scikit-learn
Bag-of-Words Feature Extraction Process with Scikit-learn
طبقه بندی اولیه هرزنامه با NLTK's Naive Bayes
Basic Spam Classification with NLTK's Naive Bayes
تجزیه و تحلیل احساسات با مجموعه داده بررسی فیلم
Sentiment Analysis with a Movie Review Dataset
درک منشاء و ویژگی های مجموعه داده نقد فیلم
Understanding the Origin and Features of the Movie Review Dataset
بارگیری و پاک کردن داده های بازبینی
Loading and Cleaning the Review Data
پیش پردازش مجموعه داده برای حذف کلمات و کاراکترهای ناخواسته
Preprocessing the Dataset to Remove Unwanted Words and Characters
ایجاد ویژگی های زبان طبیعی وزن TF-IDF
Creating TF-IDF Weighted Natural Language Features
تحلیل احساسات پایه با مدل رگرسیون لجستیک
Basic Sentiment Analysis with Logistic Regression Model
افزایش عملکرد مدل های خود با N-gram
Boosting the Performance of Your Models with N-grams
شیرجه عمیق به توکن های خام از نقدهای فیلم
Deep Dive into Raw Tokens from the Movie Reviews
پاکسازی پیشرفته توکن ها با استفاده از توابع رشته پایتون و Regex
Advanced Cleaning of Tokens Using Python String Functions and Regex
ایجاد ویژگی های N-gram با استفاده از Scikit-learn
Creating N-gram Features Using Scikit-learn
آزمایش مدل های پیشرفته Scikit-Learn با استفاده از NLTK Wrapper
Experimenting with Advanced Scikit-learn Models Using the NLTK Wrapper
ساخت یک مدل رأی گیری با Scikit-learn
Building a Voting Model with Scikit-learn
طبقه بندی اسناد با مجموعه داده های گروه خبری
Document Classification with a Newsgroup Dataset
درک منشاء و ویژگی های مجموعه داده 20 گروه خبری
Understanding the Origin and Features of the 20 Newsgroups Dataset
بارگیری داده های گروه خبری و استخراج ویژگی ها
Loading the Newsgroup Data and Extracting Features
ساخت خط لوله طبقه بندی اسناد
Building a Document Classification Pipeline
ایجاد گزارش عملکرد مدل در مجموعه تست
Creating a Performance Report of the Model on the Test Set
یافتن فراپارامترهای بهینه با استفاده از جستجوی گرید
Finding Optimal Hyper-parameters Using Grid Search
مدلسازی موضوع پیشرفته با TF-IDF، LSA و SVM
Advanced Topic Modelling with TF-IDF, LSA, and SVMs
ساخت خط لوله پیش پردازش متن با NLTK
Building a Text Preprocessing Pipeline with NLTK
ایجاد ویژگی های مبتنی بر هش از زبان طبیعی
Creating Hashing Based Features from Natural Language
با LSA اسناد را به 20 موضوع طبقه بندی کنید
Classify Documents into 20 Topics with LSA
طبقه بندی اسناد با TF-IDF و SVM
Document Classification with TF-IDF and SVMs
نمایش نظرات
Packtpub یک ناشر دیجیتالی کتابها و منابع آموزشی در زمینه فناوری اطلاعات و توسعه نرمافزار است. این شرکت از سال 2004 فعالیت خود را آغاز کرده و به تولید و انتشار کتابها، ویدیوها و دورههای آموزشی میپردازد که به توسعهدهندگان و متخصصان فناوری اطلاعات کمک میکند تا مهارتهای خود را ارتقا دهند. منابع آموزشی Packtpub موضوعات متنوعی از جمله برنامهنویسی، توسعه وب، دادهکاوی، امنیت سایبری و هوش مصنوعی را پوشش میدهد. محتوای این منابع به صورت کاربردی و بهروز ارائه میشود تا کاربران بتوانند دانش و تواناییهای لازم برای موفقیت در پروژههای عملی و حرفهای خود را کسب کنند.
کولیبری یک شرکت مشاوره فناوری است که در سال 2015 توسط جیمز کراس و اینگرید فونی تاسیس شد. این شرکت با تخصص عمیق در زمینه هایی مانند کلان داده، علم داده، یادگیری ماشین و محاسبات ابری، به مشتریان خود کمک می کند تا در دنیای به سرعت در حال تغییر و پیچیده فناوری های نوظهور حرکت کنند. در چند سال گذشته، آنها با برخی از بزرگترین و معتبرترین شرکت های جهان، از جمله بانک سرمایه گذاری ردیف 1، یک گروه مشاوره مدیریت پیشرو، و یکی از محبوب ترین شرکت های نوشابه در جهان کار کرده اند و به هر یک از آنها کمک کرده اند تا داده های آن را بهتر درک کرده و آن ها را به روش های هوشمندانه تری پردازش کنید. این شرکت با شعار خود زندگی می کند: داده -> هوش -> عمل.
جیمز کراس یک مهندس داده بزرگ و معمار راه حل های AWS دارای گواهینامه است که علاقه زیادی به برنامه های کاربردی داده محور دارد. او 3 تا 5 سال گذشته را صرف کمک به مشتریان خود برای طراحی و پیادهسازی پلتفرمهای کلان داده در مقیاس عظیم، استریم، پشتههای تحلیلی مبتنی بر ابر و معماریهای بدون سرور کرده است.
او کار حرفهای خود را در بانکداری سرمایهگذاری، با کار با فناوریهای جاافتاده مانند جاوا و SQL Server، قبل از ورود به فضای Big Data آغاز کرد. از آن زمان او با طیف وسیعی از ابزارهای کلان داده از جمله اکثر اکو سیستم Hadoop، Spark و بسیاری از فناوریهای No-SQL مانند Cassandra، MongoDB، Redis و DynamoDB کار کرده است. اخیراً تمرکز او بر روی فناوریهای ابری و نحوه استفاده از آنها در تجزیه و تحلیل دادهها بوده است که در کار او در Scout Solutions به عنوان CTO و اخیراً با Mckinsey به اوج خود رسیده است.
جیمز یک معمار راه حل های دارای گواهینامه AWS با چندین سال تجربه در طراحی و اجرای راه حل ها در این پلت فرم ابری است. او بهعنوان مدیر ارشد فناوری Scout Solutions Ltd، مجموعهای کاملاً بدون سرور از APIها و یک پشته تحلیلی مبتنی بر Lambda و Redshift ساخت.
نمایش نظرات