آموزش PySpark [ویدئو]

Learning PySpark [Video]

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: Apache Spark یک موتور توزیع شده منبع باز برای پرس و جو و پردازش داده ها است. در این آموزش، مروری کوتاه بر Spark و پشته آن ارائه می دهیم. این آموزش تکنیک های موثر و صرفه جویی در زمان را در مورد چگونگی استفاده از قدرت پایتون و استفاده از آن در اکوسیستم اسپارک ارائه می دهد. شما با درک دقیق معماری Apache Spark و نحوه راه اندازی یک محیط Python برای Spark شروع خواهید کرد. شما در مورد تکنیک های مختلف برای جمع آوری داده ها و تمایز بین (و درک) تکنیک های پردازش داده ها یاد خواهید گرفت. در مرحله بعد، ما یک بررسی عمیق از RDD ها ارائه می کنیم و آنها را با DataFrames مقایسه می کنیم. ما نمونه هایی از نحوه خواندن داده ها از فایل ها و از HDFS و نحوه تعیین طرحواره ها با استفاده از بازتاب یا برنامه نویسی (در مورد DataFrames) ارائه می دهیم. مفهوم اجرای تنبل توضیح داده شده است و ما تغییرات و اقدامات مختلف مخصوص RDD ها و DataFrames را بیان می کنیم. در نهایت، ما به شما نشان می دهیم که چگونه از SQL برای تعامل با DataFrames استفاده کنید. در پایان این آموزش، نحوه پردازش داده ها با استفاده از Spark DataFrames و تسلط بر تکنیک های جمع آوری داده ها با پردازش داده های توزیع شده را خواهید آموخت. [*]درباره Apache Spark و معماری Spark 2.0 بیاموزید. [*] طرحواره های RDD، اجرای تنبل و تبدیل ها را درک کنید. [*] عناصر مرتب‌سازی و ذخیره‌سازی RDD را کاوش کنید. [*]با استفاده از Spark SQL Spark DataFrames بسازید و با آن تعامل داشته باشید [*]برای کار با Spark DataFrames، API های مختلف را ایجاد و کاوش کنید. [*]با نحوه تغییر طرحواره DataFrame به صورت برنامه نویسی آشنا شوید. [*] نحوه جمع‌آوری، تبدیل و مرتب‌سازی داده‌ها با DataFrames را بررسی کنید. اگر شما یک توسعه‌دهنده پایتون هستید و علاقه مند به تسلط بر تکنیک‌های عملی با استفاده از اکوسیستم Apache Spark 2.x به بهترین شکل ممکن هستید، این ویدیو برای شما مناسب است. انتظار می رود درک دقیق پایتون بهترین نتیجه را از این آموزش بگیرد. آشنایی با Spark نیز مفید خواهد بود. [*]تکنیک‌های عملی برای کمک به شما برای ترکیب قدرت پایتون و آپاچی اسپارک برای پردازش کارآمد داده‌های خود * [*]بر هر چالشی در هنگام توسعه و استقرار راه‌حل‌های Spark کارآمد، مقیاس‌پذیر و بلادرنگ غلبه کنید * [*]بررسی درک استفاده از Spark با پایتون به سطح بعدی با این ویدیوی عملی *

سرفصل ها و درس ها

پرایمر مختصر در PySpark A Brief Primer on PySpark

  • بررسی اجمالی دوره The Course Overview

  • معرفی مختصر اسپارک Brief Introduction to Spark

  • پشته اسپارک آپاچی Apache Spark Stack

  • فرآیند اجرای جرقه Spark Execution Process

  • جدیدترین قابلیت های PySpark 2.0+ Newest Capabilities of PySpark 2.0+

  • شبیه سازی مخزن GitHub Cloning GitHub Repository

مجموعه داده های توزیع شده انعطاف پذیر Resilient Distributed Datasets

  • معرفی مختصر RDDs Brief Introduction to RDDs

  • ایجاد RDD Creating RDDs

  • طرحواره یک RDD Schema of an RDD

  • درک اعدام تنبل Understanding Lazy Execution

  • معرفی Transformations – .map(…) Introducing Transformations – .map(…)

  • معرفی Transformations – .filter(…) Introducing Transformations – .filter(…)

  • معرفی Transformations – .flatMap(…) Introducing Transformations – .flatMap(…)

  • معرفی تحولات – .distinct(…) Introducing Transformations – .distinct(…)

  • معرفی تبدیل ها – .sample(…) Introducing Transformations – .sample(…)

  • معرفی Transformations – .join(…) Introducing Transformations – .join(…)

  • معرفی Transformations – .repartition(…) Introducing Transformations – .repartition(…)

مجموعه داده ها و اقدامات توزیع شده انعطاف پذیر Resilient Distributed Datasets and Actions

  • معرفی اقدامات – .take(…) Introducing Actions – .take(…)

  • معرفی Actions – .collect(…) Introducing Actions – .collect(…)

  • معرفی Actions – .reduce(…) و .reduceByKey(…) Introducing Actions – .reduce(…) and .reduceByKey(…)

  • معرفی Actions – .count() Introducing Actions – .count()

  • معرفی Actions – .foreach(…) Introducing Actions – .foreach(…)

  • معرفی Actions – .aggregate(…) و .aggregateByKey(…) Introducing Actions – .aggregate(…) and .aggregateByKey(…)

  • معرفی Actions – .coalesce(…) Introducing Actions – .coalesce(…)

  • معرفی Actions – CombineByKey(…) Introducing Actions – .combineByKey(…)

  • معرفی اکشن ها – هیستوگرام (…) Introducing Actions – .histogram(…)

  • معرفی Actions – .sortBy(…) Introducing Actions – .sortBy(…)

  • معرفی Actions – Saving Data Introducing Actions – Saving Data

  • معرفی اقدامات – آمار توصیفی Introducing Actions – Descriptive Statistics

DataFrames و Transformations DataFrames and Transformations

  • معرفی Introduction

  • ایجاد DataFrame Creating DataFrames

  • مشخص کردن طرحواره یک DataFrame Specifying Schema of a DataFrame

  • تعامل با DataFrames Interacting with DataFrames

  • تبدیل .agg(…). The .agg(…) Transformation

  • تبدیل .sql(…). The .sql(…) Transformation

  • ایجاد جداول موقت Creating Temporary Tables

  • پیوستن به دو دیتا فریم Joining Two DataFrames

  • انجام تحولات آماری Performing Statistical Transformations

  • دگرگونی .distinct(…). The .distinct(…) Transformation

پردازش داده با Spark DataFrames Data Processing with Spark DataFrames

  • تغییرات طرحواره Schema Changes

  • فیلتر کردن داده ها Filtering Data

  • جمع آوری داده ها Aggregating Data

  • انتخاب داده ها Selecting Data

  • تبدیل داده ها Transforming Data

  • ارائه داده ها Presenting Data

  • مرتب سازی DataFrames Sorting DataFrames

  • ذخیره سازی DataFrames Saving DataFrames

  • مشکلات UDFs Pitfalls of UDFs

  • پارتیشن بندی مجدد داده ها Repartitioning Data

نمایش نظرات

Packtpub یک ناشر دیجیتالی کتاب‌ها و منابع آموزشی در زمینه فناوری اطلاعات و توسعه نرم‌افزار است. این شرکت از سال 2004 فعالیت خود را آغاز کرده و به تولید و انتشار کتاب‌ها، ویدیوها و دوره‌های آموزشی می‌پردازد که به توسعه‌دهندگان و متخصصان فناوری اطلاعات کمک می‌کند تا مهارت‌های خود را ارتقا دهند. منابع آموزشی Packtpub موضوعات متنوعی از جمله برنامه‌نویسی، توسعه وب، داده‌کاوی، امنیت سایبری و هوش مصنوعی را پوشش می‌دهد. محتوای این منابع به صورت کاربردی و به‌روز ارائه می‌شود تا کاربران بتوانند دانش و توانایی‌های لازم برای موفقیت در پروژه‌های عملی و حرفه‌ای خود را کسب کنند.

آموزش PySpark [ویدئو]
جزییات دوره
2 h 28 m
49
Packtpub Packtpub
(آخرین آپدیت)
از 5
ندارد
دارد
دارد
Tomasz Drabas
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Tomasz Drabas Tomasz Drabas

توماس دراباس یک دانشمند داده است که برای مایکروسافت کار می کند و در حال حاضر در منطقه سیاتل زندگی می کند. او بیش از 12 سال تجربه بین المللی در تجزیه و تحلیل داده ها و علم داده در زمینه های متعددی دارد: فناوری پیشرفته، خطوط هوایی، مخابرات، امور مالی و مشاوره. توماس کار خود را در سال 2003 با شرکت هواپیمایی LOT Polish در ورشو، لهستان در حالی که مدرک کارشناسی ارشد خود را در مدیریت استراتژی به پایان رساند، آغاز کرد. در سال 2007، او به سیدنی نقل مکان کرد تا مدرک دکتری خود را در تحقیقات عملیات در دانشگاه نیو ساوت ولز، دانشکده هوانوردی ادامه دهد. تحقیقات او از مرزهای بین مدلسازی گسسته انتخاب و تحقیق در عملیات هواپیمایی عبور کرد. در طول مدت اقامت خود در سیدنی، او به عنوان تحلیلگر داده برای فراتر از تجزیه و تحلیل استرالیا و به عنوان یک تحلیلگر ارشد داده/دانشمند داده برای Vodafone Hutchison استرالیا در میان دیگران کار کرد. او همچنین مقالات علمی منتشر کرده، در کنفرانس های بین المللی شرکت کرده و به عنوان داور مجلات علمی خدمت کرده است. در سال 2015 او به سیاتل نقل مکان کرد تا کار خود را برای مایکروسافت آغاز کند. زمانی که در آنجا بود، او روی پروژه های متعددی کار کرده است که شامل حل مسائل در فضای ویژگی های با ابعاد بالا می شود.