آموزش استخراج داده ها از HTML با BeautifulSoup

Extracting Data from HTML with BeautifulSoup

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره: این دوره جنبه های مهم خراش دادن وب سایت ها با استفاده از سوپ زیبا را پوشش می دهد. شما یاد خواهید گرفت که درخت تجزیه را بسازید ، دستکاری کنید و از آن استفاده کنید ، همچنین از ویژگی های پیشرفته ای مانند کار با فیلترها ، CSS و XPath استفاده کنید. تراشیدن وب یک روش مهم است که به عنوان اولین گام در بسیاری از گردش های کار در داده کاوی به طور گسترده ای استفاده می شود ، بازیابی اطلاعات و یادگیری ماشینی مبتنی بر متن. در این دوره ، با استخراج داده ها از HTML با BeautifulSoup * شما توانایی ایجاد راه حل های قوی و قابل نگهداری خراش وب را با استفاده از کتابخانه Beautiful Soup در پایتون خواهید داشت. ابتدا یاد خواهید گرفت که چگونه می توان از عبارات منظم برای تراشیدن محتوای وب استفاده کرد و عملکرد عالی سوپ از راه های مهم چگونه است. در مرحله بعدی ، خواهید فهمید که چگونه Beautiful Soup HTML را از محتوای وب تجزیه می کند ، برچسب های بد شکل را برطرف می کند و یک درخت تجزیه تمیز و به راحتی قابل عبور می سازد. سپس خواهید دید که چگونه می توان از آن درخت تجزیه برای یافتن و بازیابی الگوهای خاص استفاده کرد. سرانجام ، شما با استفاده از ویژگی های پیشرفته سوپ زیبا مانند کار با CSS و XPath ، دانش خود را جمع آوری خواهید کرد. پس از پایان این دوره ، مهارت و دانش لازم برای اجرای وب تراش قوی با استفاده از سوپ زیبا را خواهید داشت.

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

  • بررسی اجمالی دوره Course Overview

شروع کار با BeautifulSoup Getting Started with BeautifulSoup

  • بررسی اجمالی ماژول Module Overview

  • پیش نیازها و طرح کلی دوره Prerequisites and Course Outline

  • معرفی وب تراش Introducing Web Scraping

  • عبارات منظم و سوپ زیبا Regular Expressions and Beautiful Soup

  • ساخت درخواستهای GET با استفاده از Httplib2 ، Urllib و Requests Making GET Requests Using Httplib2, Urllib and Requests

  • معرفی اصطلاحات منظم Introducing Regular Expressions

  • اجرای مسابقات الگوی ساده با استفاده از عبارات منظم Performing Simple Pattern Matches Using Regular Expressions

  • تجزیه صفحات وب با استفاده از عبارات منظم Parsing Web Pages Using Regular Expressions

  • معرفی سوپ زیبا Introducing Beautiful Soup

  • خلاصه ماژول Module Summary

پیمایش در درخت پارس Navigating the Parse Tree

  • بررسی اجمالی ماژول Module Overview

  • تجزیه صفحات وب با سوپ زیبا Parsing Web Pages with Beautiful Soup

  • برچسب ها ، ویژگی ها ، رشته های قابل پیمایش ، نظرات Tags, Attributes, NavigableStrings, Comments

  • پیمایش با استفاده از برچسب ها و مطالب Navigating Using Tags and Contents

  • پیمایش در کودکان ، فرزندان و والدین Navigating Children, Descendants, and Parents

  • پیمایش به یک طرف با استفاده از خواهر و برادر بعدی و قبلی Navigating Sideways Using Next and Previous Sibling

  • با استفاده از عنصر بعدی و عنصر قبلی به پهلو بروید Navigating Sideways Using Next Element and Previous Element

  • با استفاده از عبارات منظم و عملکردهای سفارشی ، برچسب ها و ویژگی ها را فیلتر کنید Filter by Tags and Attributes Using Regular Expressions and Custom Functions

  • استخراج پیوندهای مطلق و نسبی از HTML Extracting Absolute and Relative Links from HTML

  • خلاصه ماژول Module Summary

در حال جستجو برای عناصر در درخت تجزیه Searching for Elements in the Parse Tree

  • بررسی اجمالی ماژول Module Overview

  • XML و XPath XML and XPath

  • انجام جستجوی پیشرفته در Parse Tree Performing Advanced Search on the Parse Tree

  • جستجو با استفاده از تغییرات یافتن و یافتن همه Searching Using Variations of Find and Find All

  • انتخاب کنندگان CSS با استفاده از Soup Sieve CSS Selectors Using Soup Sieve

  • استفاده از XPath برای پیمایش یک درخت XML Using XPath to Navigate an XML Tree

  • خلاصه ماژول Module Summary

استفاده از ویژگی های پیشرفته BeautifulSoup Leveraging Advanced Features of BeautifulSoup

  • بررسی اجمالی ماژول Module Overview

  • اصلاح HTML Parse Tree Modifying the HTML Parse Tree

  • کاوش توابع سوپ زیبا برای اصلاح درخت تجزیه Exploring Beautiful Soup Functions to Modify the Parse Tree

  • عملیات متفرقه با استفاده از سوپ زیبا Miscellaneous Operations Using Beautiful Soup

  • کار با تجزیه کننده های مختلف Working with Different Parsers

  • استفاده از صافی سوپ برای تجزیه قسمت های یک سند Using the Soup Strainer to Parse Parts of a Document

  • رمزگذاری در سوپ زیبا Encodings in Beautiful Soup

  • خلاصه و مطالعه بیشتر Summary and Further Study

نمایش نظرات

Pluralsight (پلورال سایت)

Pluralsight یکی از پرطرفدارترین پلتفرم‌های آموزش آنلاین است که به میلیون‌ها کاربر در سراسر جهان کمک می‌کند تا مهارت‌های خود را توسعه دهند و به روز رسانی کنند. این پلتفرم دوره‌های آموزشی در زمینه‌های فناوری اطلاعات، توسعه نرم‌افزار، طراحی وب، مدیریت پروژه، و موضوعات مختلف دیگر را ارائه می‌دهد.

یکی از ویژگی‌های برجسته Pluralsight، محتوای بروز و با کیفیت آموزشی آن است. این پلتفرم با همکاری با توسعه‌دهندگان و کارشناسان معتبر، دوره‌هایی را ارائه می‌دهد که با توجه به تغییرات روزافزون در صنعت فناوری، کاربران را در جریان آخرین مفاهیم و تکنولوژی‌ها نگه می‌دارد. این امر به کاربران این اطمینان را می‌دهد که دوره‌هایی که در Pluralsight می‌پذیرند، با جدیدترین دانش‌ها و تجارب به روز شده‌اند.

آموزش استخراج داده ها از HTML با BeautifulSoup
جزییات دوره
2h 25m
36
Pluralsight (پلورال سایت) Pluralsight (پلورال سایت)
(آخرین آپدیت)
-
از 5
دارد
دارد
دارد
Janani Ravi
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Janani Ravi Janani Ravi

معمار و مهندس داده خبره Google Cloud

Janani Ravi یک معمار و مهندس داده خبره Google cloud است.

جنانی مدرک کارشناسی ارشد خود را در رشته مهندسی برق از دانشگاه استنفورد دریافت کرد و برای مایکروسافت، گوگل و فلیپ کارت کار کرده است. او یکی از بنیانگذاران Loonycorn است، یک استودیوی محتوا که بر ارائه محتوای با کیفیت بالا برای توسعه مهارت های فنی متمرکز است، جایی که او عشق خود را به فناوری با اشتیاق خود به تدریس ترکیب می کند.