Beginning of dialog window. Escape will cancel and close the window.
End of dialog window.
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره:
این دوره جنبه های مهم خراش دادن وب سایت ها با استفاده از سوپ زیبا را پوشش می دهد. شما یاد خواهید گرفت که درخت تجزیه را بسازید ، دستکاری کنید و از آن استفاده کنید ، همچنین از ویژگی های پیشرفته ای مانند کار با فیلترها ، CSS و XPath استفاده کنید. تراشیدن وب یک روش مهم است که به عنوان اولین گام در بسیاری از گردش های کار در داده کاوی به طور گسترده ای استفاده می شود ، بازیابی اطلاعات و یادگیری ماشینی مبتنی بر متن. در این دوره ، با استخراج داده ها از HTML با BeautifulSoup * شما توانایی ایجاد راه حل های قوی و قابل نگهداری خراش وب را با استفاده از کتابخانه Beautiful Soup در پایتون خواهید داشت. ابتدا یاد خواهید گرفت که چگونه می توان از عبارات منظم برای تراشیدن محتوای وب استفاده کرد و عملکرد عالی سوپ از راه های مهم چگونه است. در مرحله بعدی ، خواهید فهمید که چگونه Beautiful Soup HTML را از محتوای وب تجزیه می کند ، برچسب های بد شکل را برطرف می کند و یک درخت تجزیه تمیز و به راحتی قابل عبور می سازد. سپس خواهید دید که چگونه می توان از آن درخت تجزیه برای یافتن و بازیابی الگوهای خاص استفاده کرد. سرانجام ، شما با استفاده از ویژگی های پیشرفته سوپ زیبا مانند کار با CSS و XPath ، دانش خود را جمع آوری خواهید کرد. پس از پایان این دوره ، مهارت و دانش لازم برای اجرای وب تراش قوی با استفاده از سوپ زیبا را خواهید داشت.
سرفصل ها و درس ها
بررسی اجمالی دوره
Course Overview
بررسی اجمالی دوره
Course Overview
شروع کار با BeautifulSoup
Getting Started with BeautifulSoup
بررسی اجمالی ماژول
Module Overview
پیش نیازها و طرح کلی دوره
Prerequisites and Course Outline
معرفی وب تراش
Introducing Web Scraping
عبارات منظم و سوپ زیبا
Regular Expressions and Beautiful Soup
ساخت درخواستهای GET با استفاده از Httplib2 ، Urllib و Requests
Making GET Requests Using Httplib2, Urllib and Requests
اجرای مسابقات الگوی ساده با استفاده از عبارات منظم
Performing Simple Pattern Matches Using Regular Expressions
تجزیه صفحات وب با استفاده از عبارات منظم
Parsing Web Pages Using Regular Expressions
معرفی سوپ زیبا
Introducing Beautiful Soup
خلاصه ماژول
Module Summary
پیمایش در درخت پارس
Navigating the Parse Tree
بررسی اجمالی ماژول
Module Overview
تجزیه صفحات وب با سوپ زیبا
Parsing Web Pages with Beautiful Soup
برچسب ها ، ویژگی ها ، رشته های قابل پیمایش ، نظرات
Tags, Attributes, NavigableStrings, Comments
پیمایش با استفاده از برچسب ها و مطالب
Navigating Using Tags and Contents
پیمایش در کودکان ، فرزندان و والدین
Navigating Children, Descendants, and Parents
پیمایش به یک طرف با استفاده از خواهر و برادر بعدی و قبلی
Navigating Sideways Using Next and Previous Sibling
با استفاده از عنصر بعدی و عنصر قبلی به پهلو بروید
Navigating Sideways Using Next Element and Previous Element
با استفاده از عبارات منظم و عملکردهای سفارشی ، برچسب ها و ویژگی ها را فیلتر کنید
Filter by Tags and Attributes Using Regular Expressions and Custom Functions
استخراج پیوندهای مطلق و نسبی از HTML
Extracting Absolute and Relative Links from HTML
خلاصه ماژول
Module Summary
در حال جستجو برای عناصر در درخت تجزیه
Searching for Elements in the Parse Tree
بررسی اجمالی ماژول
Module Overview
XML و XPath
XML and XPath
انجام جستجوی پیشرفته در Parse Tree
Performing Advanced Search on the Parse Tree
جستجو با استفاده از تغییرات یافتن و یافتن همه
Searching Using Variations of Find and Find All
انتخاب کنندگان CSS با استفاده از Soup Sieve
CSS Selectors Using Soup Sieve
استفاده از XPath برای پیمایش یک درخت XML
Using XPath to Navigate an XML Tree
خلاصه ماژول
Module Summary
استفاده از ویژگی های پیشرفته BeautifulSoup
Leveraging Advanced Features of BeautifulSoup
بررسی اجمالی ماژول
Module Overview
اصلاح HTML Parse Tree
Modifying the HTML Parse Tree
کاوش توابع سوپ زیبا برای اصلاح درخت تجزیه
Exploring Beautiful Soup Functions to Modify the Parse Tree
عملیات متفرقه با استفاده از سوپ زیبا
Miscellaneous Operations Using Beautiful Soup
کار با تجزیه کننده های مختلف
Working with Different Parsers
استفاده از صافی سوپ برای تجزیه قسمت های یک سند
Using the Soup Strainer to Parse Parts of a Document
Janani Ravi یک معمار و مهندس داده خبره Google cloud است.
جنانی مدرک کارشناسی ارشد خود را در رشته مهندسی برق از دانشگاه استنفورد دریافت کرد و برای مایکروسافت، گوگل و فلیپ کارت کار کرده است. او یکی از بنیانگذاران Loonycorn است، یک استودیوی محتوا که بر ارائه محتوای با کیفیت بالا برای توسعه مهارت های فنی متمرکز است، جایی که او عشق خود را به فناوری با اشتیاق خود به تدریس ترکیب می کند.
نمایش نظرات