لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش PySpark [ویدئو]
Learning PySpark [Video]
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
Apache Spark یک موتور توزیع شده منبع باز برای پرس و جو و پردازش داده ها است. در این آموزش، مروری کوتاه بر Spark و پشته آن ارائه می دهیم. این آموزش تکنیک های موثر و صرفه جویی در زمان را در مورد چگونگی استفاده از قدرت پایتون و استفاده از آن در اکوسیستم اسپارک ارائه می دهد. شما با درک دقیق معماری Apache Spark و نحوه راه اندازی یک محیط Python برای Spark شروع خواهید کرد.
شما در مورد تکنیک های مختلف برای جمع آوری داده ها و تمایز بین (و درک) تکنیک های پردازش داده ها یاد خواهید گرفت. در مرحله بعد، ما یک بررسی عمیق از RDD ها ارائه می کنیم و آنها را با DataFrames مقایسه می کنیم. ما نمونه هایی از نحوه خواندن داده ها از فایل ها و از HDFS و نحوه تعیین طرحواره ها با استفاده از بازتاب یا برنامه نویسی (در مورد DataFrames) ارائه می دهیم. مفهوم اجرای تنبل توضیح داده شده است و ما تغییرات و اقدامات مختلف مخصوص RDD ها و DataFrames را بیان می کنیم.
در نهایت، ما به شما نشان می دهیم که چگونه از SQL برای تعامل با DataFrames استفاده کنید. در پایان این آموزش، نحوه پردازش داده ها با استفاده از Spark DataFrames و تسلط بر تکنیک های جمع آوری داده ها با پردازش داده های توزیع شده را خواهید آموخت.
[*]درباره Apache Spark و معماری Spark 2.0 بیاموزید.
[*] طرحواره های RDD، اجرای تنبل و تبدیل ها را درک کنید.
[*] عناصر مرتبسازی و ذخیرهسازی RDD را کاوش کنید.
[*]با استفاده از Spark SQL Spark DataFrames بسازید و با آن تعامل داشته باشید
[*]برای کار با Spark DataFrames، API های مختلف را ایجاد و کاوش کنید.
[*]با نحوه تغییر طرحواره DataFrame به صورت برنامه نویسی آشنا شوید.
[*] نحوه جمعآوری، تبدیل و مرتبسازی دادهها با DataFrames را بررسی کنید.
اگر شما یک توسعهدهنده پایتون هستید و علاقه مند به تسلط بر تکنیکهای عملی با استفاده از اکوسیستم Apache Spark 2.x به بهترین شکل ممکن هستید، این ویدیو برای شما مناسب است. انتظار می رود درک دقیق پایتون بهترین نتیجه را از این آموزش بگیرد. آشنایی با Spark نیز مفید خواهد بود. [*]تکنیکهای عملی برای کمک به شما برای ترکیب قدرت پایتون و آپاچی اسپارک برای پردازش کارآمد دادههای خود * [*]بر هر چالشی در هنگام توسعه و استقرار راهحلهای Spark کارآمد، مقیاسپذیر و بلادرنگ غلبه کنید * [*]بررسی درک استفاده از Spark با پایتون به سطح بعدی با این ویدیوی عملی *
سرفصل ها و درس ها
پرایمر مختصر در PySpark
A Brief Primer on PySpark
بررسی اجمالی دوره
The Course Overview
معرفی مختصر اسپارک
Brief Introduction to Spark
پشته اسپارک آپاچی
Apache Spark Stack
فرآیند اجرای جرقه
Spark Execution Process
جدیدترین قابلیت های PySpark 2.0+
Newest Capabilities of PySpark 2.0+
شبیه سازی مخزن GitHub
Cloning GitHub Repository
مجموعه داده های توزیع شده انعطاف پذیر
Resilient Distributed Datasets
معرفی Actions – Saving Data
Introducing Actions – Saving Data
معرفی اقدامات – آمار توصیفی
Introducing Actions – Descriptive Statistics
DataFrames و Transformations
DataFrames and Transformations
معرفی
Introduction
ایجاد DataFrame
Creating DataFrames
مشخص کردن طرحواره یک DataFrame
Specifying Schema of a DataFrame
تعامل با DataFrames
Interacting with DataFrames
تبدیل .agg(…).
The .agg(…) Transformation
تبدیل .sql(…).
The .sql(…) Transformation
ایجاد جداول موقت
Creating Temporary Tables
پیوستن به دو دیتا فریم
Joining Two DataFrames
انجام تحولات آماری
Performing Statistical Transformations
دگرگونی .distinct(…).
The .distinct(…) Transformation
پردازش داده با Spark DataFrames
Data Processing with Spark DataFrames
تغییرات طرحواره
Schema Changes
فیلتر کردن داده ها
Filtering Data
جمع آوری داده ها
Aggregating Data
انتخاب داده ها
Selecting Data
تبدیل داده ها
Transforming Data
ارائه داده ها
Presenting Data
مرتب سازی DataFrames
Sorting DataFrames
ذخیره سازی DataFrames
Saving DataFrames
مشکلات UDFs
Pitfalls of UDFs
پارتیشن بندی مجدد داده ها
Repartitioning Data
نمایش نظرات
Packtpub یک ناشر دیجیتالی کتابها و منابع آموزشی در زمینه فناوری اطلاعات و توسعه نرمافزار است. این شرکت از سال 2004 فعالیت خود را آغاز کرده و به تولید و انتشار کتابها، ویدیوها و دورههای آموزشی میپردازد که به توسعهدهندگان و متخصصان فناوری اطلاعات کمک میکند تا مهارتهای خود را ارتقا دهند. منابع آموزشی Packtpub موضوعات متنوعی از جمله برنامهنویسی، توسعه وب، دادهکاوی، امنیت سایبری و هوش مصنوعی را پوشش میدهد. محتوای این منابع به صورت کاربردی و بهروز ارائه میشود تا کاربران بتوانند دانش و تواناییهای لازم برای موفقیت در پروژههای عملی و حرفهای خود را کسب کنند.
توماس دراباس یک دانشمند داده است که برای مایکروسافت کار می کند و در حال حاضر در منطقه سیاتل زندگی می کند. او بیش از 12 سال تجربه بین المللی در تجزیه و تحلیل داده ها و علم داده در زمینه های متعددی دارد: فناوری پیشرفته، خطوط هوایی، مخابرات، امور مالی و مشاوره. توماس کار خود را در سال 2003 با شرکت هواپیمایی LOT Polish در ورشو، لهستان در حالی که مدرک کارشناسی ارشد خود را در مدیریت استراتژی به پایان رساند، آغاز کرد. در سال 2007، او به سیدنی نقل مکان کرد تا مدرک دکتری خود را در تحقیقات عملیات در دانشگاه نیو ساوت ولز، دانشکده هوانوردی ادامه دهد. تحقیقات او از مرزهای بین مدلسازی گسسته انتخاب و تحقیق در عملیات هواپیمایی عبور کرد. در طول مدت اقامت خود در سیدنی، او به عنوان تحلیلگر داده برای فراتر از تجزیه و تحلیل استرالیا و به عنوان یک تحلیلگر ارشد داده/دانشمند داده برای Vodafone Hutchison استرالیا در میان دیگران کار کرد. او همچنین مقالات علمی منتشر کرده، در کنفرانس های بین المللی شرکت کرده و به عنوان داور مجلات علمی خدمت کرده است. در سال 2015 او به سیاتل نقل مکان کرد تا کار خود را برای مایکروسافت آغاز کند. زمانی که در آنجا بود، او روی پروژه های متعددی کار کرده است که شامل حل مسائل در فضای ویژگی های با ابعاد بالا می شود.
نمایش نظرات