Apache Spark با Python - Big Data با PySpark و Spark [ویدئو]

Apache Spark with Python - Big Data with PySpark and Spark [Video]

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: این دوره آموزشی تمام اصول Apache Spark با پایتون را پوشش می‌دهد و هر آنچه را که باید در مورد توسعه برنامه‌های Spark با استفاده از PySpark، Python API برای Spark بدانید، به شما آموزش می‌دهد. در پایان این دوره، دانش عمیقی در مورد Apache Spark و مهارت های کلی تجزیه و تحلیل و دستکاری کلان داده کسب خواهید کرد تا به شرکت خود کمک کنید تا Apache Spark را برای ساخت خط لوله پردازش داده های بزرگ و برنامه های کاربردی تجزیه و تحلیل داده اتخاذ کند. این دوره بیش از 10 نمونه داده های بزرگ را پوشش می دهد. شما دانش ارزشمندی در مورد نحوه قالب بندی مسائل تجزیه و تحلیل داده ها به عنوان مسائل Spark خواهید آموخت. با هم نمونه هایی مانند جمع آوری وبلاگ های آپاچی ناسا از منابع مختلف را یاد خواهیم گرفت. ما روند قیمت را با نگاهی به داده های املاک در کالیفرنیا بررسی خواهیم کرد. ما برنامه‌های Spark را می‌نویسیم تا از طریق داده‌های نظرسنجی Stack Overflow، میانگین دستمزد توسعه‌دهندگان در کشورهای مختلف را بفهمیم. ما سیستمی را برای تجزیه و تحلیل چگونگی توزیع فضاهای سازنده در مناطق مختلف بریتانیا توسعه خواهیم داد. و خیلی خیلی بیشتر. - مروری بر معماری آپاچی اسپارک. - برنامه های Apache Spark 2.0 را با استفاده از تبدیل ها و اقدامات RDD و Spark SQL توسعه دهید. - برای پردازش و تجزیه و تحلیل مجموعه داده‌های بزرگ، با مجموعه داده‌های توزیع‌شده (RDD) انتزاعی اولیه Apache Spark کار کنید. - داده های ساختار یافته و نیمه ساختار یافته را با استفاده از DataFrames تجزیه و تحلیل کنید و درک کاملی در مورد Spark SQL ایجاد کنید. - تکنیک های پیشرفته برای بهینه سازی و تنظیم کارهای Apache Spark با پارتیشن بندی، کش کردن و ماندگاری RDD ها. - برنامه های Spark را در یک خوشه Hadoop YARN از طریق سرویس Elastic MapReduce آمازون افزایش دهید. - اطلاعات را در میان گره های مختلف در یک خوشه اسپارک آپاچی توسط متغیرهای پخش و انباشته ها به اشتراک بگذارید. - برنامه های Spark را با استفاده از Python API بنویسید - PySpark هر کسی که می خواهد به طور کامل نحوه عملکرد فناوری Apache Spark را درک کند و یاد بگیرد که چگونه Apache Spark در این زمینه استفاده می شود. مهندسان نرم‌افزاری که می‌خواهند برنامه‌های Apache Spark 2.0 را با استفاده از دانشمندان Spark Core و Spark SQL.Data توسعه دهند یا مهندسان داده‌ای که می‌خواهند با بهبود مهارت‌های پردازش داده‌های بزرگ، شغل خود را ارتقا دهند. - Apache Spark به ما توانایی نامحدودی برای ساخت برنامه های کاربردی پیشرفته می دهد. همچنین یکی از قانع‌کننده‌ترین فناوری‌های دهه گذشته از نظر اختلال در دنیای کلان داده است. * - Spark محاسبات خوشه ای در حافظه را فراهم می کند که سرعت الگوریتم های تکراری و وظایف داده کاوی تعاملی را تا حد زیادی افزایش می دهد.

سرفصل ها و درس ها

با آپاچی اسپارک شروع کنید Get Started with Apache Spark

  • بررسی اجمالی دوره Course Overview

  • مقدمه ای بر اسپارک Introduction to Spark

  • جاوا و گیت را نصب کنید Install Java and Git

  • Spark را راه اندازی کنید Set up Spark

  • اولین کار Spark ما را اجرا کنید Run our first Spark job

RDD RDD

  • مبانی RDD RDD Basics

  • RDD ها را ایجاد کنید Create RDDs

  • تبدیل نقشه و فیلتر Map and Filter Transformation

  • راه حل مسئله فرودگاه ها بر اساس عرض جغرافیایی Solution to Airports by Latitude Problem

  • تبدیل FlatMap FlatMap Transformation

  • تنظیم عملیات Set Operations

  • راه حل برای مشکل همان هاست Solution for the Same Hosts Problem

  • اقدامات Actions

  • حل مسئله جمع اعداد Solution to Sum of Numbers Problem

  • جنبه های مهم در مورد RDD Important Aspects about RDD

  • خلاصه ای از عملیات RDD Summary of RDD Operations

  • ذخیره سازی و ماندگاری Caching and Persistance

معماری اسپارک و اجزای سازنده Spark Architecture and Components

  • معماری جرقه Spark Architecture

  • اجزای جرقه Spark Components

RDD را جفت کنید Pair RDD

  • مقدمه ای بر جفت RDD Introduction to Pair RDD

  • ایجاد جفت RDD Create Pair RDDs

  • تبدیل‌های فیلتر و MapValue در جفت RDD Filter and MapValue Transformations on Pair RDD

  • کاهش با تجمع کلید Reduce By Key Aggregation

  • راه حل برای مشکل خانه متوسط Solution for the Average House Problem

  • گروه با تبدیل کلید Group By Key Transformation

  • مرتب سازی بر اساس تبدیل کلید Sort By Key Transformation

  • راه حلی برای مشکل شمارش کلمات مرتب شده Solution for the Sorted Word Count Problem

  • پارتیشن بندی داده ها Data Partitioning

  • به عملیات بپیوندید Join Operations

موضوعات پیشرفته Spark Advanced Spark Topics

  • آکومولاتورها Accumulators

  • راه حل مشکل پیگیری StackOverflow Survey Solution to StackOverflow Survey Follow-up Problem

  • متغیرهای پخش Broadcast Variables

Spark SQL Spark SQL

  • مقدمه ای بر Spark SQL Introduction to Spark SQL

  • Spark SQL در عمل Spark SQL in Action

  • عمل Spark SQL: مشکل قیمت خانه Spark SQL practice: House Price Problem

  • Spark SQL Joins Spark SQL Joins

  • Dataframe یا RDD Dataframe or RDD

  • Dataframe و تبدیل RDD Dataframe and RDD Conversion

  • تنظیم عملکرد Spark SQL Performance Tuning of Spark SQL

در حال اجرا جرقه در یک خوشه Running Spark in a Cluster

  • مقدمه ای بر Running Spark in a Cluster Introduction to Running Spark in a Cluster

  • Spark-Submit Spark-submit

  • برنامه Spark را در خوشه آمازون EMR (ElasticMapReduce) اجرا کنید Run Spark Application on Amazon EMR (ElasticMapReduce) cluster

نمایش نظرات

Apache Spark با Python - Big Data با PySpark و Spark [ویدئو]
جزییات دوره
3 h 18 m
42
Packtpub Packtpub
(آخرین آپدیت)
از 5
ندارد
دارد
دارد
James Lee
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

James Lee James Lee

مهندس نرم افزار سیلیکون ولی