PySpark و AWS: Master Big Data با PySpark و AWS [ویدئو]

PySpark and AWS: Master Big Data with PySpark and AWS [Video]

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: داغ ترین کلمات در صنعت تجزیه و تحلیل داده های بزرگ پایتون و آپاچی اسپارک هستند. PySpark از همکاری Python و Apache Spark پشتیبانی می کند. در این دوره، شما از اصول اولیه شروع کرده و به سطوح پیشرفته تجزیه و تحلیل داده ها می پردازید. از تمیز کردن داده‌ها تا ساخت ویژگی‌ها و پیاده‌سازی مدل‌های یادگیری ماشینی (ML)، نحوه اجرای گردش‌های کاری سرتاسر با استفاده از PySpark را خواهید آموخت. در طول دوره، شما از PySpark برای انجام تجزیه و تحلیل داده ها استفاده خواهید کرد. شما Spark RDD ها، Dataframes و کمی پرس و جوهای Spark SQL را بررسی خواهید کرد. همچنین، تغییرات و اقداماتی را که می‌توان روی داده‌ها با استفاده از Spark RDD و Dataframes انجام داد، کاوش خواهید کرد. شما همچنین اکوسیستم Spark و Hadoop و معماری زیربنایی آنها را کشف خواهید کرد. شما از محیط Databricks برای اجرای اسکریپت های Spark و کاوش در آن استفاده خواهید کرد. در نهایت، طعم Spark با ابر AWS را خواهید چشید. خواهید دید که چگونه می‌توانیم از حافظه‌های ذخیره‌سازی، پایگاه‌های داده، محاسبات AWS استفاده کنیم و چگونه Spark می‌تواند با سرویس‌های مختلف AWS ارتباط برقرار کند و داده‌های مورد نیاز خود را دریافت کند. در پایان این دوره، شما قادر خواهید بود مفاهیم PySpark و AWS را برای حل مشکلات دنیای واقعی درک و پیاده سازی کنید. بسته‌های کد در اینجا موجود است: https://github.com/PacktPublishing/PySpark-and-AWS-Master-Big-Data-with-PySpark-and-AWS اهمیت داده‌های بزرگ را بیاموزید معماری و اکوسیستم Spark و Hadoop را کاوش کنید درباره PySpark Dataframes و عملکرد PySpark DataFrames بیاموزید از تبدیل های PySpark DataFrames استفاده کنید اعمال فیلترینگ مشترک برای توسعه یک سیستم توصیه با استفاده از مدل های ALS این دوره به تجربه برنامه نویسی پایتون به عنوان پیش نیاز نیاز دارد. مفاهیم و جنبه های عملی Spark و AWS را با مشکلات دنیای واقعی مرتبط کنید * هر پروژه ای را که به دانش PySpark نیاز دارد از ابتدا اجرا کنید * جنبه های تئوری و عملی PySpark و AWS را بدانید

سرفصل ها و درس ها

معرفی Introduction

  • چرا داده های بزرگ Why Big Data

  • کاربردهای PySpark Applications of PySpark

  • معرفی مربی Introduction to Instructor

  • مقدمه دوره Introduction to Course

  • بررسی اجمالی پروژه ها Projects Overview

مقدمه ای بر هادوپ، اکوسیستم ها و معماری های اسپارک Introduction to Hadoop, Spark Ecosystems and Architectures

  • چرا اسپارک Why Spark

  • اکوسیستم هادوپ Hadoop Ecosystem

  • معماری و اکوسیستم اسپارک Spark Architecture and Ecosystem

  • Databricks ثبت نام کنید Databricks Sign Up

  • ایجاد دفترچه Databricks Create Databricks Notebook

  • دانلود Spark and Dependencies Download Spark and Dependencies

  • راه اندازی جاوا Java Setup

  • راه اندازی پایتون Python Setup

  • راه اندازی جرقه Spark Setup

  • راه اندازی Hadoop Hadoop Setup

  • در حال اجرا اسپارک Running Spark

RDD های جرقه ای Spark RDDs

  • RDD های جرقه ای Spark RDDs

  • ایجاد Spark RDD Creating Spark RDD

  • اجرای Spark Code به صورت محلی Running Spark Code Locally

  • نقشه RDD (لامبدا) RDD Map (Lambda)

  • نقشه RDD (عملکرد ساده) RDD Map (Simple Function)

  • مسابقه (نقشه) Quiz (Map)

  • راه حل 1 (نقشه) Solution 1 (Map)

  • راه حل 2 (نقشه) Solution 2 (Map)

  • RDD FlatMap RDD FlatMap

  • فیلتر RDD RDD Filter

  • امتحان (فیلتر) Quiz (Filter)

  • راه حل (فیلتر) Solution (Filter)

  • RDD متمایز RDD Distinct

  • RDD GroupByKey RDD GroupByKey

  • RDD ReduceByKey RDD ReduceByKey

  • آزمون (شمارش کلمات) Quiz (Word Count)

  • راه حل (شمارش کلمات) Solution (Word Count)

  • RDD (Count and CountByValue) RDD (Count and CountByValue)

  • RDD (saveAsTextFile) RDD (saveAsTextFile)

  • RDD (پارتیشن) RDD (Partition)

  • یافتن میانگین-1 Finding Average-1

  • یافتن میانگین-2 Finding Average-2

  • آزمون (متوسط) Quiz (Average)

  • راه حل (متوسط) Solution (Average)

  • یافتن حداقل و حداکثر Finding Min and Max

  • آزمون (حداقل و حداکثر) Quiz (Min and Max)

  • راه حل (حداقل و حداکثر) Solution (Min and Max)

  • بررسی اجمالی پروژه Project Overview

  • کل دانش آموزان Total Students

  • مجموع نمرات دانش آموز دختر و پسر Total Marks by Male and Female Student

  • کل دانش آموزان قبول شده و رد شده Total Passed and Failed Students

  • کل ثبت نام در هر دوره Total Enrollments per Course

  • مجموع امتیازات در هر دوره Total Marks per Course

  • میانگین نمره در هر دوره Average Marks per Course

  • پیدا کردن حداقل و حداکثر علامت Finding Minimum and Maximum Marks

  • میانگین سنی دانشجویان دختر و پسر Average Age of Male and Female Students

اسپارک دی اف ها Spark DFs

  • مقدمه ای بر Spark DFs Introduction to Spark DFs

  • ایجاد Spark DF Creating Spark DFs

  • طرحواره استنتاج جرقه Spark Infer Schema

  • طرحواره ارائه جرقه Spark Provide Schema

  • ایجاد DF از RDD Create DF from RDD

  • اصلاح خطا Rectifying the Error

  • ستون DF را انتخاب کنید Select DF Columns

  • جرقه DF با ستون Spark DF with Column

  • Spark DF با تغییر نام ستون و نام مستعار Spark DF with Column Renamed and Alias

  • ردیف های فیلتر Spark DF Spark DF Filter Rows

  • امتحان (انتخاب، با ستون، فیلتر) Quiz (Select, Withcolumn, Filter)

  • راه حل (انتخاب، با ستون، فیلتر) Solution (Select, Withcolumn, Filter)

  • Spark DF (تعداد، متمایز، تکراری) Spark DF (Count, Distinct, Duplicate)

  • آزمون (مشخص، تکراری) Quiz (Distinct, Duplicate)

  • راه حل (متمایز، تکراری) Solution (Distinct, Duplicate)

  • Spark DF (مرتب سازی، ترتیب بر اساس) Spark DF (Sort, OrderBy)

  • امتحان (مرتب سازی، ترتیب بر اساس) Quiz (Sort, OrderBy)

  • راه حل (مرتب سازی، ترتیب بر اساس) Solution (Sort, OrderBy)

  • Spark DF (گروه بر اساس) Spark DF (Group By)

  • Spark DF (گروه بر اساس - چندین ستون و تجمع) Spark DF (Group By - Multiple Columns and Aggregations)

  • Spark DF (گروه با تجسم) Spark DF (Group By -Visualization)

  • Spark DF (گروه بر اساس - فیلتر) Spark DF (Group By - Filtering)

  • آزمون (گروهی) Quiz (Group By)

  • راه حل (گروه بر اساس) Solution (Group By)

  • آزمون (شمارش کلمات) Quiz (Word Count)

  • راه حل (شمارش کلمات) Solution (Word Count)

  • Spark DF (UDF) Spark DF (UDFs)

  • آزمون (UDF) Quiz (UDFs)

  • راه حل (UDF) Solution (UDFs)

  • راه حل (Cache و Persist) Solution (Cache and Persist)

  • Spark DF (DF به RDD) Spark DF (DF to RDD)

  • Spark DF (Spark SQL) Spark DF (Spark SQL)

  • Spark DF (Write DF) Spark DF (Write DF)

  • بررسی اجمالی پروژه Project Overview

  • پروژه (شمارش و انتخاب) Project (Count and Select)

  • پروژه (گروهی) Project (Group By)

  • پروژه (گروه بر اساس، تجمیع و سفارش بر اساس) Project (Group By, Aggregations and Order By)

  • پروژه (فیلتر کردن) Project (Filtering)

  • پروژه (UDF و WithColumn) Project (UDF and WithColumn)

  • پروژه (نوشتن) Project (Write)

فیلتر مشارکتی Collaborative Filtering

  • فیلتر مشارکتی Collaborative Filtering

  • ماتریس سودمند Utility Matrix

  • رتبه بندی صریح و ضمنی Explicit and Implicit Ratings

  • نتایج مورد انتظار Expected Results

  • مجموعه داده Dataset

  • پیوستن به Dataframes Joining Dataframes

  • داده های آموزش و آزمایش Train and Test Data

  • مدل ALS ALS Model

  • تنظیم فراپارامتر و اعتبارسنجی متقاطع Hyperparameter Tuning and Cross Validation

  • بهترین مدل و ارزیابی پیش بینی ها Best Model and Evaluate Predictions

  • توصیه ها Recommendations

جریان جرقه Spark Streaming

  • مقدمه ای بر جریان اسپارک Introduction to Spark Streaming

  • جریان جرقه با RDD Spark Streaming with RDD

  • زمینه جریان جرقه Spark Streaming Context

  • Spark Streaming Reading Data Spark Streaming Reading Data

  • Spark Streaming Cluster Restart مجدد Spark Streaming Cluster Restart

  • تبدیل جرقه جریان RDD Spark Streaming RDD Transformations

  • اسپارک استریم دی اف Spark Streaming DF

  • نمایش جریان جرقه Spark Streaming Display

  • Spark Streaming DF Aggregations Spark Streaming DF Aggregations

خط لوله ETL ETL Pipeline

  • مقدمه ای بر ETL Introduction to ETL

  • جریان خط لوله ETL ETL Pipeline Flow

  • مجموعه داده ها Data Set

  • استخراج داده ها Extracting Data

  • تبدیل داده ها Transforming Data

  • بارگیری داده ها (ایجاد RDS-I) Loading Data (Creating RDS-I)

  • بارگذاری داده (ایجاد RDS-II) Load data (Creating RDS-II)

  • شبکه RDS RDS Networking

  • در حال دانلود Postgres Downloading Postgres

  • نصب Postgres Installing Postgres

  • از طریق PGAdmin به RDS متصل شوید Connect to RDS Through PGAdmin

  • در حال بارگیری داده ها Loading Data

پروژه - تغییر ضبط داده/تکرار در حال انجام است Project - Change Data Capture / Replication Ongoing

  • مقدمه ای بر پروژه Introduction to Project

  • معماری پروژه Project Architecture

  • ایجاد نمونه RDS MySQL Creating RDS MySQL Instance

  • ایجاد سطل S3 Creating S3 Bucket

  • ایجاد نقطه پایانی منبع DMS Creating DMS Source Endpoint

  • ایجاد نقطه پایانی مقصد DMS Creating DMS Destination Endpoint

  • ایجاد نمونه DMS Creating DMS Instance

  • MySQL WorkBench MySQL WorkBench

  • اتصال با RDS و Dumping Data Connecting with RDS and Dumping Data

  • درخواست RDS Querying RDS

  • بارگذاری کامل DMS DMS Full Load

  • تکرار DMS در حال انجام است DMS Replication Ongoing

  • موارد توقف Stopping Instances

  • کار چسب (بار کامل) Glue Job (Full Load)

  • کار چسب (تغییر عکس) Glue Job (Change Capture)

  • کار چسب (CDC) Glue Job (CDC)

  • ایجاد تابع Lambda و اضافه کردن Trigger Creating Lambda Function and Adding Trigger

  • بررسی ماشه Checking Trigger

  • دریافت نام فایل S3 در لامبدا Getting S3 File Name in Lambda

  • ایجاد کار چسب Creating Glue Job

  • افزودن Invoke برای Glue Job Adding Invoke for Glue Job

  • فراخوانی آزمایشی Testing Invoke

  • نوشتن کار چسب چسب Writing Glue Shell Job

  • خط لوله با بار کامل Full Load Pipeline

  • خط لوله ضبط داده را تغییر دهید Change Data Capture Pipeline

نمایش نظرات

PySpark و AWS: Master Big Data با PySpark و AWS [ویدئو]
جزییات دوره
16 h 10 m
149
Packtpub Packtpub
(آخرین آپدیت)
از 5
ندارد
دارد
دارد
AI Sciences
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

AI Sciences AI Sciences

کارشناسان هوش مصنوعی و دانشمندان داده | رتبه ۴+ | 168+ کشور