NLP عملی با NLTK و Scikit-Learn [ویدئو]

Hands-on NLP with NLTK and Scikit-learn [Video]

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: امروزه سرریز داده های متنی آنلاین وجود دارد. به عنوان یک توسعه دهنده پایتون، باید یک راه حل جدید با استفاده از پردازش زبان طبیعی برای پروژه بعدی خود ایجاد کنید. همکاران شما برای کسب درآمد از گیگابایت داده های متنی بدون ساختار به شما وابسته هستند. چه کار میکنی؟ NLP عملی با NLTK و یادگیری scikit پاسخ است. این دوره شما را دقیقاً در محل قرار می دهد و با ساختن یک طبقه بندی کننده هرزنامه در اولین ویدیوی ما شروع می کند. در پایان دوره، شما با سه برنامه NLP کنار می‌روید: یک فیلتر هرزنامه، یک طبقه‌بندی کننده موضوع و یک تحلیلگر احساسات. نیازی به تئوری ریاضی فانتزی نیست، فقط توضیحات انگلیسی ساده در مورد مفاهیم اصلی NLP و نحوه به کارگیری آن‌هایی که از کتابخانه‌های پایتون استفاده می‌کنند. گذراندن این دوره به شما کمک می کند تا دقیقاً برنامه های جدید را با پایتون و NLP ایجاد کنید. شما قادر خواهید بود راه حل های واقعی را با پشتیبانی از یادگیری ماشین و مدل های پردازش NLP به راحتی بسازید. همه کدها و فایل های پشتیبانی در GitHub در دسترس هستند: https://github.com/PacktPublishing/Hands-on-NLP-with-NLTK-and-scikit-learn- این دوره از Python 3.6، TensorFlow 1.4، NLTK 2 و scikit-learn 0.19 استفاده می کند، در حالی که آخرین نسخه موجود نیست، محتوای مرتبط و آموزنده را برای کاربران قدیمی NLP با NLTK و Scikit-learn ارائه می دهد. * راه‌حل‌های پردازش زبان طبیعی سرتاسر بسازید، از دریافت داده‌ها برای مدل شما تا ارائه نتایج آن. * مفاهیم اصلی NLP مانند توکن سازی، ریشه یابی و حذف کلمه توقف. * از کتابخانه های منبع باز مانند NLTK، scikit-learn و spaCy برای انجام کارهای معمول NLP استفاده کنید. * ایمیل ها را با استفاده از تکنیک های اولیه NLP و مدل های ساده یادگیری ماشینی به عنوان هرزنامه یا غیر هرزنامه طبقه بندی کنید. * اسناد را با استفاده از تکنیک هایی مانند TF-IDF، SVM و LDA در موضوعات مرتبط خود قرار دهید. * مراحل متداول پردازش داده های متنی برای افزایش عملکرد مدل های یادگیری ماشین شما. این دوره برای توسعه دهندگان، دانشمندان داده و برنامه نویسانی است که می خواهند به طور عملی در مورد پردازش زبان طبیعی با پایتون به طور عملی بیاموزند. توسعه‌دهندگانی که پروژه‌ای در آینده دارند که به NLP یا انبوهی از داده‌های متنی بدون ساختار نیاز دارد و نمی‌دانند با آن چه کنند، این دوره مفید خواهد بود. تجربه برنامه نویسی قبلی با پایتون در کنار راحت بودن با اصطلاحات یادگیری ماشینی مانند یادگیری نظارت شده، رگرسیون و طبقه بندی فرض می شود. هیچ تجربه قبلی پردازش زبان طبیعی یا متن کاوی مورد نیاز نیست. * به جای پیچیدگی در تئوری و نمادهای ریاضی، راه‌حل‌های واقعی را با پشتیبانی از یادگیری ماشین و مدل‌های پردازش زبان طبیعی بسازید. * * سه مدل را به تنهایی بسازید، یکی برای فیلتر هرزنامه، 0ne برای تجزیه و تحلیل احساسات، و در نهایت یکی برای طبقه بندی متن. * * پایه و اساس مناسبی را برای انجام پردازش زبان طبیعی واقعی و کاربردی بدست آورید. ما به شما نشان می‌دهیم که چگونه می‌توانید داده‌های منبع باز را دریافت کنید، متن را در ساختارهای داده پایتون با NLTK وارد کنید، و کلاس‌های مختلف زبان طبیعی را با scikit-learn پیش‌بینی کنید. *

سرفصل ها و درس ها

کار با داده های زبان طبیعی Working with Natural Language Data

  • بررسی اجمالی دوره The Course Overview

  • از Python، NLTK، spaCy و Scikit-learn برای ساخت مجموعه ابزار NLP خود استفاده کنید Use Python, NLTK, spaCy, and Scikit-learn to Build Your NLP Toolset

  • خواندن یک فایل زبان طبیعی ساده در حافظه Reading a Simple Natural Language File into Memory

  • متن را با بیان منظم به کلمات جداگانه تقسیم کنید Split the Text into Individual Words with Regular Expression

  • تبدیل کلمات به لیست نشانه های حروف کوچک Converting Words into Lists of Lower Case Tokens

  • حذف کلمات غیر معمول و توقف کلمات Removing Uncommon Words and Stop Words

طبقه بندی هرزنامه با مجموعه داده های ایمیل Spam Classification with an Email Dataset

  • از مجموعه داده های منبع باز و مجموعه داده های Enron چیست استفاده کنید Use an Open Source Dataset, and What Is the Enron Dataset

  • بارگیری مجموعه داده انرون در حافظه Loading the Enron Dataset into Memory

  • Tokenization، Lemmatization و Stop Word Removal Tokenization, Lemmatization, and Stop Word Removal

  • فرآیند استخراج ویژگی کیسه‌ای کلمات با Scikit-learn Bag-of-Words Feature Extraction Process with Scikit-learn

  • طبقه بندی اولیه هرزنامه با NLTK's Naive Bayes Basic Spam Classification with NLTK's Naive Bayes

تجزیه و تحلیل احساسات با مجموعه داده بررسی فیلم Sentiment Analysis with a Movie Review Dataset

  • درک منشاء و ویژگی های مجموعه داده نقد فیلم Understanding the Origin and Features of the Movie Review Dataset

  • بارگیری و پاک کردن داده های بازبینی Loading and Cleaning the Review Data

  • پیش پردازش مجموعه داده برای حذف کلمات و کاراکترهای ناخواسته Preprocessing the Dataset to Remove Unwanted Words and Characters

  • ایجاد ویژگی های زبان طبیعی وزن TF-IDF Creating TF-IDF Weighted Natural Language Features

  • تحلیل احساسات پایه با مدل رگرسیون لجستیک Basic Sentiment Analysis with Logistic Regression Model

افزایش عملکرد مدل های خود با N-gram Boosting the Performance of Your Models with N-grams

  • شیرجه عمیق به توکن های خام از نقدهای فیلم Deep Dive into Raw Tokens from the Movie Reviews

  • پاکسازی پیشرفته توکن ها با استفاده از توابع رشته پایتون و Regex Advanced Cleaning of Tokens Using Python String Functions and Regex

  • ایجاد ویژگی های N-gram با استفاده از Scikit-learn Creating N-gram Features Using Scikit-learn

  • آزمایش مدل های پیشرفته Scikit-Learn با استفاده از NLTK Wrapper Experimenting with Advanced Scikit-learn Models Using the NLTK Wrapper

  • ساخت یک مدل رأی گیری با Scikit-learn Building a Voting Model with Scikit-learn

طبقه بندی اسناد با مجموعه داده های گروه خبری Document Classification with a Newsgroup Dataset

  • درک منشاء و ویژگی های مجموعه داده 20 گروه خبری Understanding the Origin and Features of the 20 Newsgroups Dataset

  • بارگیری داده های گروه خبری و استخراج ویژگی ها Loading the Newsgroup Data and Extracting Features

  • ساخت خط لوله طبقه بندی اسناد Building a Document Classification Pipeline

  • ایجاد گزارش عملکرد مدل در مجموعه تست Creating a Performance Report of the Model on the Test Set

  • یافتن فراپارامترهای بهینه با استفاده از جستجوی گرید Finding Optimal Hyper-parameters Using Grid Search

مدل‌سازی موضوع پیشرفته با TF-IDF، LSA و SVM Advanced Topic Modelling with TF-IDF, LSA, and SVMs

  • ساخت خط لوله پیش پردازش متن با NLTK Building a Text Preprocessing Pipeline with NLTK

  • ایجاد ویژگی های مبتنی بر هش از زبان طبیعی Creating Hashing Based Features from Natural Language

  • با LSA اسناد را به 20 موضوع طبقه بندی کنید Classify Documents into 20 Topics with LSA

  • طبقه بندی اسناد با TF-IDF و SVM Document Classification with TF-IDF and SVMs

نمایش نظرات

NLP عملی با NLTK و Scikit-Learn [ویدئو]
جزییات دوره
2 h 46 m
30
Packtpub Packtpub
(آخرین آپدیت)
از 5
ندارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

James Cross James Cross

کولیبری یک شرکت مشاوره فناوری است که در سال 2015 توسط جیمز کراس و اینگرید فونی تاسیس شد. این شرکت با تخصص عمیق در زمینه هایی مانند کلان داده، علم داده، یادگیری ماشین و محاسبات ابری، به مشتریان خود کمک می کند تا در دنیای به سرعت در حال تغییر و پیچیده فناوری های نوظهور حرکت کنند. در چند سال گذشته، آنها با برخی از بزرگترین و معتبرترین شرکت های جهان، از جمله بانک سرمایه گذاری ردیف 1، یک گروه مشاوره مدیریت پیشرو، و یکی از محبوب ترین شرکت های نوشابه در جهان کار کرده اند و به هر یک از آنها کمک کرده اند تا داده های آن را بهتر درک کرده و آن ها را به روش های هوشمندانه تری پردازش کنید. این شرکت با شعار خود زندگی می کند: داده -> هوش -> عمل. جیمز کراس یک مهندس داده بزرگ و معمار راه حل های AWS دارای گواهینامه است که علاقه زیادی به برنامه های کاربردی داده محور دارد. او 3 تا 5 سال گذشته را صرف کمک به مشتریان خود برای طراحی و پیاده‌سازی پلتفرم‌های کلان داده در مقیاس عظیم، استریم، پشته‌های تحلیلی مبتنی بر ابر و معماری‌های بدون سرور کرده است. او کار حرفه‌ای خود را در بانکداری سرمایه‌گذاری، با کار با فناوری‌های جاافتاده مانند جاوا و SQL Server، قبل از ورود به فضای Big Data آغاز کرد. از آن زمان او با طیف وسیعی از ابزارهای کلان داده از جمله اکثر اکو سیستم Hadoop، Spark و بسیاری از فناوری‌های No-SQL مانند Cassandra، MongoDB، Redis و DynamoDB کار کرده است. اخیراً تمرکز او بر روی فناوری‌های ابری و نحوه استفاده از آن‌ها در تجزیه و تحلیل داده‌ها بوده است که در کار او در Scout Solutions به عنوان CTO و اخیراً با Mckinsey به اوج خود رسیده است. جیمز یک معمار راه حل های دارای گواهینامه AWS با چندین سال تجربه در طراحی و اجرای راه حل ها در این پلت فرم ابری است. او به‌عنوان مدیر ارشد فناوری Scout Solutions Ltd، مجموعه‌ای کاملاً بدون سرور از APIها و یک پشته تحلیلی مبتنی بر Lambda و Redshift ساخت.

James Cross James Cross

کولیبری یک شرکت مشاوره فناوری است که در سال 2015 توسط جیمز کراس و اینگرید فونی تاسیس شد. این شرکت با تخصص عمیق در زمینه هایی مانند کلان داده، علم داده، یادگیری ماشین و محاسبات ابری، به مشتریان خود کمک می کند تا در دنیای به سرعت در حال تغییر و پیچیده فناوری های نوظهور حرکت کنند. در چند سال گذشته، آنها با برخی از بزرگترین و معتبرترین شرکت های جهان، از جمله بانک سرمایه گذاری ردیف 1، یک گروه مشاوره مدیریت پیشرو، و یکی از محبوب ترین شرکت های نوشابه در جهان کار کرده اند و به هر یک از آنها کمک کرده اند تا داده های آن را بهتر درک کرده و آن ها را به روش های هوشمندانه تری پردازش کنید. این شرکت با شعار خود زندگی می کند: داده -> هوش -> عمل. جیمز کراس یک مهندس داده بزرگ و معمار راه حل های AWS دارای گواهینامه است که علاقه زیادی به برنامه های کاربردی داده محور دارد. او 3 تا 5 سال گذشته را صرف کمک به مشتریان خود برای طراحی و پیاده‌سازی پلتفرم‌های کلان داده در مقیاس عظیم، استریم، پشته‌های تحلیلی مبتنی بر ابر و معماری‌های بدون سرور کرده است. او کار حرفه‌ای خود را در بانکداری سرمایه‌گذاری، با کار با فناوری‌های جاافتاده مانند جاوا و SQL Server، قبل از ورود به فضای Big Data آغاز کرد. از آن زمان او با طیف وسیعی از ابزارهای کلان داده از جمله اکثر اکو سیستم Hadoop، Spark و بسیاری از فناوری‌های No-SQL مانند Cassandra، MongoDB، Redis و DynamoDB کار کرده است. اخیراً تمرکز او بر روی فناوری‌های ابری و نحوه استفاده از آن‌ها در تجزیه و تحلیل داده‌ها بوده است که در کار او در Scout Solutions به عنوان CTO و اخیراً با Mckinsey به اوج خود رسیده است. جیمز یک معمار راه حل های دارای گواهینامه AWS با چندین سال تجربه در طراحی و اجرای راه حل ها در این پلت فرم ابری است. او به‌عنوان مدیر ارشد فناوری Scout Solutions Ltd، مجموعه‌ای کاملاً بدون سرور از APIها و یک پشته تحلیلی مبتنی بر Lambda و Redshift ساخت.