لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش تسلط بر تجزیه و تحلیل داده های بزرگ با PySpark [ویدئو]
Mastering Big Data Analytics with PySpark [Video]
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
PySpark به شما کمک می کند تا تجزیه و تحلیل داده ها را در مقیاس انجام دهید. به شما امکان می دهد تحلیل ها و خطوط لوله مقیاس پذیرتری بسازید. این دوره با معرفی شما با پتانسیل PySpark برای انجام تجزیه و تحلیل موثر مجموعه داده های بزرگ شروع می شود. شما یاد خواهید گرفت که چگونه با Spark از پایتون تعامل داشته باشید و Jupyter را به Spark متصل کنید تا تصاویری غنی از داده ها ارائه دهید. پس از آن، به اجزای مختلف Spark و معماری آن خواهید پرداخت.
شما کار با Apache Spark و انجام وظایف ML را روانتر از قبل خواهید آموخت. جمع آوری و پرس و جو داده ها با استفاده از Spark SQL، برای غلبه بر چالش های موجود در خواندن آن. برای کار با Spark MLlib و اطلاعات در مورد Pipeline API از DataFrame API استفاده خواهید کرد. در نهایت، ما نکات و ترفندهایی را برای استقرار کد و تنظیم عملکرد ارائه می دهیم.
در پایان این دوره، شما نه تنها قادر به انجام تجزیه و تحلیل داده های کارآمد خواهید بود، بلکه یاد خواهید گرفت که از PySpark برای تجزیه و تحلیل آسان مجموعه داده های بزرگ در مقیاس در سازمان خود استفاده کنید.
همه فایلهای کد مرتبط در یک مخزن GitHub در آدرس زیر قرار میگیرند: https://github.com/PacktPublishing/Mastering-Big-Data-Analytics-with-PySpark با استفاده از موارد استفاده عملی، دانش کاملی از مفاهیم تجزیه و تحلیل دادههای حیاتی به دست آورید.
با استفاده از Jupyter تجسم داده های زیبا ایجاد کنید
با استفاده از PySpark، تکه های بزرگی از مجموعه داده ها را اجرا، پردازش و تجزیه و تحلیل کنید
از Spark SQL برای بارگذاری آسان داده های بزرگ در DataFrames استفاده کنید
با استفاده از MLlib با Spark برنامه های یادگیری ماشینی سریع و مقیاس پذیر ایجاد کنید
تجزیه و تحلیل داده های اکتشافی را به روشی مقیاس پذیر انجام دهید
دستیابی به پردازش مقیاس پذیر، پرتوان و با تحمل خطا از جریان های داده با استفاده از Spark Streaming این دوره برای علاقه مندان به علم داده، دانشمندان داده، یا هر کسی که با مفاهیم یادگیری ماشین آشنایی دارد و می خواهد کار خود را در مقیاس بزرگی برای کار انجام دهد بسیار جذاب خواهد بود. با داده های بزرگ
اگر تجزیه و تحلیل مجموعه داده های بزرگی که مدام در حال رشد هستند برایتان دشوار است، این دوره راهنمای عالی برای شماست!
دانش کاری پایتون فرض شده است. مشکلات کلان داده خود را با ساختن مدلهای یادگیری ماشین قدرتمند با Spark و پیادهسازی آنها با استفاده از پایتون حل کنید * با کتابخانهها و ابزارهای ضروری Spark (مانند PySpark، Spark Streaming، Spark SQL و Spark MLlib) راهاندازی و اجرا شوید. آنها را در برنامه های کاربردی داده های بزرگ در دنیای واقعی و عملی * Leverage Spark 2.x—یکی از محبوب ترین فن آوری های کلان داده—برای کشف اینکه Spark Machine Learning چقدر قدرتمند است که به راحتی می توانید آن را اعمال کنید!
سرفصل ها و درس ها
پایتون و جرقه: مسابقه ای ساخته شده در بهشت
Python and Spark: A Match Made in Heaven
بررسی اجمالی دوره
Course Overview
پایتون در مقابل اسپارک
Python versus Spark
آماده شدن برای دوره
Preparing for the Course
اتصال ژوپیتر به اسپارک
Connecting Jupyter to Spark
کار با PySpark
Working with PySpark
آشنایی با اسپارک
Getting to Know Spark
قدرت جرقه
The Power of Spark
قدرت Spark MLlib
The Power of Spark MLlib
Spark DataFrames
Spark DataFrames
عملیات داده اسپارک
Spark Data Operations
آماده سازی داده ها با استفاده از Spark SQL
Preparing Data Using Spark SQL
بارگیری داده ها از فایل های CSV
Loading Data from CSV Files
رفع مشکلات در داده های ما - بخش اول
Fixing Issues in Our Data – Part One
رفع مشکلات در داده های ما - قسمت دوم
Fixing Issues in Our Data – Part Two
گروه بندی، پیوستن و تجمیع - بخش اول
Grouping, Joining, and Aggregating – Part One
گروه بندی، پیوستن و تجمیع - بخش دوم
Grouping, Joining, and Aggregating – Part Two
یادگیری ماشین با Spark MLlib
Machine Learning with Spark MLlib
یادگیری ماشینی با اسپارک
Machine Learning with Spark
ساختن یک سیستم توصیه با Spark MLlib – قسمت اول
Building a Recommendation System with Spark MLlib – Part One
ساختن یک سیستم توصیه با Spark MLlib – قسمت دوم
Building a Recommendation System with Spark MLlib – Part Two
ساختن یک سیستم توصیه با Spark MLlib – قسمت سوم
Building a Recommendation System with Spark MLlib – Part Three
نهایی کردن سیستم توصیه ما
Finalizing our Recommendation System
آنچه تا کنون آموخته ایم
What We Have Learned So Far
طبقه بندی و رگرسیون
Classification and Regression
یادگیری ماشینی با اسپارک
Machine Learning with Spark
خطوط لوله یادگیری ماشین
Machine Learning Pipelines
اجرای خط لوله رگرسیون لجستیک
Running a Logistic Regression Pipeline
پارامترها، ویژگی ها و ماندگاری
Parameters, Features, and Persistence
استخراج الگوی مکرر و آمار
Frequent Pattern Mining and Statistics
تجزیه و تحلیل داده های بزرگ
Analyzing Big Data
پردازش زبان طبیعی با اسپارک
Natural Language Processing with Spark
شناسایی داده های ما
Identifying Our Data
آماده سازی و اکتشاف داده ها
Data Preparation and Exploration
ایجاد داده های آموزشی خام ما
Creating Our Raw Training Data
پردازش زبان طبیعی در اسپارک
Processing Natural Language in Spark
آماده سازی داده ها و عبارات منظم
Data Preparation and Regular Expressions
پاکسازی و تبدیل داده ها
Data Cleaning and Transformation
آموزش مدل تحلیل احساسات – بخش اول
Training a Sentiment Analysis Model – Part One
آموزش مدل تحلیل احساسات – قسمت دوم
Training a Sentiment Analysis Model – Part Two
یادگیری ماشینی در زمان واقعی
Machine Learning in Real-Time
واکشی داده ها از توییتر
Fetching Data from Twitter
جریان ساختار یافته جرقه
Spark Structured Streaming
مدیریت و تبدیل جریان ها
Managing and Converting Streams
مونتاژ راه حل جریان ML ما
Assembling Our Streaming ML Solution
رویکردی ساختاریافته به جریان ML
A Structured Approach to ML Streaming
قدرت PySpark
The Power of PySpark
Running Spark در تولید
Running Spark in Production
در حال اجرا جرقه در مقیاس
Running Spark at Scale
نکات، ترفندها، و حذفیات
Tips, Tricks, and Take-Aways
نمایش نظرات
Packtpub یک ناشر دیجیتالی کتابها و منابع آموزشی در زمینه فناوری اطلاعات و توسعه نرمافزار است. این شرکت از سال 2004 فعالیت خود را آغاز کرده و به تولید و انتشار کتابها، ویدیوها و دورههای آموزشی میپردازد که به توسعهدهندگان و متخصصان فناوری اطلاعات کمک میکند تا مهارتهای خود را ارتقا دهند. منابع آموزشی Packtpub موضوعات متنوعی از جمله برنامهنویسی، توسعه وب، دادهکاوی، امنیت سایبری و هوش مصنوعی را پوشش میدهد. محتوای این منابع به صورت کاربردی و بهروز ارائه میشود تا کاربران بتوانند دانش و تواناییهای لازم برای موفقیت در پروژههای عملی و حرفهای خود را کسب کنند.
دنی مایجر به عنوان مهندس ارشد داده در هلند برای بخش داده و تجزیه و تحلیل یک خرده فروش پیشرو کالاهای ورزشی کار می کند. او یک متخصص فرآیندهای کسب و کار، دانشمند داده های بزرگ و علاوه بر این یک مهندس داده است که ترکیبی منحصر به فرد از مهارت ها را به او می دهد - که مهمترین آنها اولین رویکرد تجاری او به علم داده و مهندسی داده است.
او بیش از 13 سال تجربه فناوری اطلاعات در حوزهها و مهارتهای مختلف از مدلسازی دادههای (بزرگ)، معماری، طراحی، و توسعه و همچنین مدیریت پروژه و فرآیند دارد. او همچنین تجربه گسترده ای در فرآیند کاوی، مهندسی داده روی داده های بزرگ و بهبود فرآیند دارد.
او به عنوان یک دانشمند معتبر داده و متخصص داده های بزرگ، راه خود را در مورد داده ها و تجزیه و تحلیل می داند و در انواع زبان های برنامه نویسی مهارت دارد. او تجربه گسترده ای با فناوری های مختلف داده های بزرگ دارد و به همه چیز مسلط است: NoSQL، Hadoop، Python و البته Spark.
دنی یک فرد رانده است که با همه داده ها و کلان داده ها انگیزه دارد. او عاشق ریاضیات و یادگیری ماشینی و مقابله با مسائل دشوار است.
نمایش نظرات