آموزش جامع استخراج اطلاعات از وب (Web Scraping) با چارچوب Scrapy پایتون برای مبتدیان، راهنمای گام به گام و عمیق استخراج داده از وب
نصب و راهاندازی Scrapy در محیطهای ویندوز، مک، اوبونتو (لینوکس) و آناکوندا
ارسال درخواست به URL برای استخراج اطلاعات وبسایتها با استفاده از Scrapy Spider
دریافت پاسخ HTML از URL و تجزیه آن برای استخراج اطلاعات وب
انتخاب دادههای مورد نظر از وبسایتها با استفاده از Scrapy Selector، انتخابگرهای CSS و XPath
Scrapy Crawl Spiders برای دریافت داده از وبسایتها و استخراج آن در فایلهای JSON، CSV، XLSX (Excel) و XML
استفاده از دستورات Scrapy Shell برای تست و تأیید انتخابگرهای CSS یا XPath
ذخیره و خروجی دادههای استخراج شده در پایگاههای داده آنلاین مانند MongoDB با استفاده از Scrapy Item Pipelines
تعریف Scrapy Items برای سازماندهی دادههای استخراج شده و بارگذاری Items با استفاده از Scrapy Itemloaders با پردازندههای ورودی و خروجی
استخراج داده از صفحات وب متعدد با استفاده از pagine Scrapy و استخراج داده از جداول HTML
ورود به وبسایتها با استفاده از Scrapy FormRequest و توکنهای CSRF
استخراج اطلاعات وبسایتهای پویا/رندر شده با JavaScript با استفاده از Scrapy-Playwright و تعامل با عناصر وب، گرفتن اسکرینشات از وبسایتها یا ذخیره به صورت PDF
شناسایی فراخوانیهای API از یک وبسایت و استخراج داده از API با استفاده از درخواست Scrapy
استخراج اطلاعات از وب (Web scraping) فرآیند جمعآوری و استخراج دادههای مورد نظر از وبسایتها است. در این دوره، شما با استفاده از پایتون و چارچوب قدرتمند Scrapy، استخراج اطلاعات وب را به صورت گام به گام و جامع یاد خواهید گرفت و در آن تسلط پیدا خواهید کرد.
با فرض اینکه هیچ دانشی در مورد استخراج اطلاعات وب، رباتهای خزنده وب، چارچوب Scrapy، یا حتی واژههای مرتبط با استخراج داده ندارید، از مبانی شروع خواهیم کرد. در بخش اول، فرآیند استخراج اطلاعات وب به صورت گام به گام (با اینفوگرافیک و بدون کد) را خواهید آموخت، نحوه استخراج داده از وبسایتها و نحوه استفاده از Scrapy برای این منظور (یعنی معنی Scrapy) را فرا خواهید گرفت.
پس از روشن شدن مبانی و درک نحوه عملکرد استخراج اطلاعات وب، شروع به استخراج اطلاعات با پایتون و چارچوب Scrapy خواهیم کرد! مجدداً، به صورت گام به گام پیش خواهیم رفت و هر مرحله آموخته شده در مبانی را با درسهای کوتاه و کاربردی اجرا خواهیم کرد. با سرعت کم پیش میرویم تا درک هر مرحله از استخراج و پردازش دادهها از وبسایتها برای شما آسانتر باشد.
با ساخت یک استخراجکننده وب واقعی، درک کاملی از نحوه عملکرد استخراج اطلاعات وب به دست خواهید آورد. اکنون پوشش مفاهیم ضروری استخراج اطلاعات وب و Scrapy بسیار مهم است که در ادامه به آن خواهیم پرداخت.
یادگیری نحوه استخراج اطلاعات وبسایتها و نکات ضروری، شما را به یک استخراجکننده کامل تبدیل میکند، اما ما این فرآیند را حتی فراتر خواهیم برد و تکنیکهای پیشرفته استخراج اطلاعات وب را برای تبدیل شدن به یک متخصص خواهیم آموخت!
پس از تسلط بر استخراج اطلاعات وب و رباتهای خزنده وب، به پروژههایی برای شروع نیاز داریم! به همین دلیل شما سه پروژه را نیز انجام خواهید داد:
به ما در این دوره عمیق بپیوندید، جایی که استخراج اطلاعات وب را از ابتدا یاد خواهید گرفت و فرآیند استخراج داده از وبسایتها را به صورت گام به گام تسلط خواهید یافت. برای یادگیری نحوه عملکرد استخراج اطلاعات وب، درسهای پیشنمایش را بررسی کنید! منتظر شما هستیم~
Rahul Mula
Python Developera Python توسعه دهنده، نویسنده و دانش آموز Rahul در اینجا. من چند کتاب در مورد علوم رایانه ای مانند پایتون برای مبتدیان، علم داده ها با پایتون و غیره نوشته ام که در آمازون منتشر شده اند. شما می توانید آنها را بررسی کنید اگر می خواهید در آمازون بخواهید آن را با عنوان کتاب و نام من جستجو کنید.
نمایش نظرات