آموزش پروژه Big Data Hadoop and Spark برای مبتدیان مطلق

A Big Data Hadoop and Spark project for absolute beginners

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: مهندسی داده‌ها Spark Hive Python PySpark Scala Quading Framework Testing IntelliJ Maven Glue Databricks Delta Lake Big Data، Hadoop و Spark از ابتدا با حل یک مورد استفاده در دنیای واقعی با استفاده از چارچوب کدگذاری دنیای واقعی Python و Scala Spark Scala و PySpark. بهترین شیوه های برنامه نویسی در دنیای واقعی، ورود به سیستم، مدیریت خطا، مدیریت پیکربندی با استفاده از اسکالا و پایتون. راه حل کلان داده بدون سرور با استفاده از چسب AWS، Athena و S3 پیش نیازها:دانشجویان باید مقداری پیشینه برنامه نویسی و مقداری دانش از پرس و جوهای SQL داشته باشند.

این دوره شما را برای نقش مهندس داده در دنیای واقعی آماده می کند!


مهندسی داده یکی از مؤلفه‌های حیاتی سازمان‌های مبتنی بر داده است، زیرا شامل پردازش، مدیریت و تجزیه و تحلیل مجموعه‌های داده در مقیاس بزرگ است که برای رقابتی ماندن ضروری است.


این دوره فرصتی را برای شروع سریع با Big Data از طریق استفاده از خوشه های ابری رایگان و حل یک مورد استفاده عملی فراهم می کند.


شما مفاهیم اساسی Hadoop، Hive و Spark را با استفاده از Python و Scala خواهید آموخت. هدف از این دوره، توسعه توانایی‌های Spark Scala و PySpark شما برای برنامه‌نویسی حرفه‌ای است، و شما را با شیوه‌های کدنویسی استاندارد صنعتی مانند ثبت گزارش، مدیریت خطا، و مدیریت پیکربندی آشنا می‌کند.


علاوه بر این، پلتفرم Databricks Lakehouse را درک خواهید کرد و نحوه انجام تجزیه و تحلیل با استفاده از پایتون و اسکالا با Spark، اعمال Spark SQL و Databricks SQL را برای تجزیه و تحلیل، توسعه خط لوله داده با Apache Spark و مدیریت جدول دلتا با دسترسی به نسخه یاد خواهید گرفت. تاریخچه، بازیابی داده ها، و استفاده از ویژگی های سفر در زمان. همچنین نحوه بهینه سازی عملکرد پرس و جو را با استفاده از Delta Cache، کار با Delta Tables و Databricks File System، و به دست آوردن بینش در مورد سناریوهای دنیای واقعی از مربی مجرب ما یاد خواهید گرفت.


آنچه خواهید آموخت:


  • داده های بزرگ، مفاهیم Hadoop

  • نحوه ایجاد یک خوشه Hadoop و Spark رایگان با استفاده از Google Dataproc

  • Hadoop hands-on - HDFS، Hive

  • اصول پایتون

  • PySpark RDD - عملی

  • PySpark SQL، DataFrame - عملی

  • کار پروژه با استفاده از PySpark و Hive

  • اصول اسکالا

  • Spark Scala DataFrame

  • کار پروژه با استفاده از Spark Scala

  • توسعه درک عملی از مفاهیم Databricks Delta Lake Lakehouse از طریق تجربه عملی

  • آموزش کار با جدول دلتا با دسترسی به تاریخچه نسخه، بازیابی داده ها و استفاده از قابلیت سفر در زمان

  • چارچوب و توسعه برنامه‌نویسی دنیای واقعی Spark Scala با استفاده از Winutil، Maven و IntelliJ.

  • فریم ورک کدنویسی و توسعه Python Spark Hadoop Hive با استفاده از PyCharm

  • ساخت خط لوله داده با استفاده از Hive، PostgreSQL، Spark

  • گزارش، مدیریت خطا و تست واحد برنامه های PySpark و Spark Scala

  • جریان سازی ساختار یافته Spark Scala

  • اعمال تبدیل جرقه بر روی داده های ذخیره شده در AWS S3 با استفاده از چسب و مشاهده داده ها با استفاده از Athena

  • چگونه با استفاده از ChatGPT به یک مهندس داده مولد تبدیل شوید


پیش نیازها:


این دوره برای مبتدیان مهندسی داده بدون نیاز به دانش قبلی در مورد Python و Scala طراحی شده است. اما برای موفقیت در این دوره، آشنایی با پایگاه های داده و SQL ضروری است. پس از تکمیل، مهارت ها و دانش لازم برای موفقیت در نقش مهندس داده در دنیای واقعی را خواهید داشت.


سرفصل ها و درس ها

معرفی Introduction

معرفی Introduction

  • معرفی Introduction

  • اضافه شده جدید - Databricks Delta Lake Lakehouse New addition - Databricks Delta Lake Lakehouse

مفاهیم Big Data Hadoop و عملی Big Data Hadoop concepts and hands-on

مفاهیم Big Data Hadoop و عملی Big Data Hadoop concepts and hands-on

  • مفاهیم کلان داده Big Data concepts

  • مفاهیم هدوپ Hadoop concepts

  • سیستم فایل توزیع شده Hadoop (HDFS) Hadoop Distributed File System (HDFS)

  • آشنایی با Google Cloud (GCP) Dataproc Understanding Google Cloud (GCP) Dataproc

  • ثبت نام برای استفاده آزمایشی رایگان Google Cloud Signing up for a Google Cloud free trial

  • ذخیره فایل در HDFS Storing a file in HDFS

  • MapReduce و YARN MapReduce and YARN

  • کندو Hive

  • جستجوی داده های HDFS با استفاده از Hive Querying HDFS data using Hive

  • حذف خوشه Deleting the Cluster

  • تجزیه و تحلیل یک میلیارد رکورد با Hive Analyzing a billion records with Hive

  • پرس و جوهای سریع با پارتیشن بندی Hive Fast queries with Hive Partitioning

  • پرس و جوهای سریع با Hive Bucketing Fast queries with Hive Bucketing

مفاهیم جرقه و عملی Spark concepts and hands-on

مفاهیم جرقه و عملی Spark concepts and hands-on

  • اسپارک چیست؟ What is Spark?

  • Spark Hello World در Dataproc Spark Hello World on Dataproc

  • اجرای Python Spark 3 در Google Colab Running Python Spark 3 on Google Colab

  • جرقه ای برای تبدیل داده ها Spark for data transformation

  • DataFrame چیست؟ What is a DataFrame?

  • RDDs - بلوک اصلی ساختمان RDDs - The fundamental building block

  • اصول اولیه پایتون Python basics

  • PySpark - ایجاد RDD PySpark - Creating RDDs

  • توابع پایتون و عبارات لامبدا Python functions and lambda expressions

  • RDD - تحول و اقدام RDD - Transformation & Action

  • PySpark - SparkSQL و DataFrame PySpark - SparkSQL and DataFrame

پروژه - بانک با استفاده از Hadoop و Spark پاکسازی داده های بازاریابی بالقوه را انجام می دهد Project - Bank prospects marketing data cleansing using Hadoop and Spark

پروژه - بانک با استفاده از Hadoop و Spark پاکسازی داده های بازاریابی بالقوه را انجام می دهد Project - Bank prospects marketing data cleansing using Hadoop and Spark

  • بیان مشکل پروژه Project problem statement

  • راه حل پروژه با استفاده از PySpark در Colab Project solution using PySpark on Colab

  • راه حل پروژه با استفاده از PySpark در یک خوشه Dataproc Project solution using PySpark on a Dataproc cluster

  • بازبینی سریع - مفاهیم کلان داده، Hadoop و Spark Rapid Revision - Big Data, Hadoop and Spark concepts

اجرای پروژه در اسکالا Running the project in Scala

اجرای پروژه در اسکالا Running the project in Scala

  • اصول اولیه اسکالا Scala basics

  • Spark SQL DataFrame با استفاده از Scala Spark SQL DataFrame using Scala

  • پروژه بازاریابی چشم انداز بانک در اسکالا Bank prospects marketing project in Scala

آموزش Apache Spark در Databricks Learning Apache Spark on Databricks

آموزش Apache Spark در Databricks Learning Apache Spark on Databricks

  • Databricks چیست؟ What is Databricks

  • ایجاد یک حساب کاربری Databricks Community Edition برای تمرین Spark Creating a Databricks Community Edition account to practice Spark

  • ذخیره داده ها در جداول Databricks DBFS و Delta Saving data to Databricks DBFS and Delta tables

  • صادرات و واردات نوت بوک Exporting and importing Notebooks

  • تبدیل نمونه بر روی Databricks با استفاده از PySpark Sample transformations on Databricks using PySpark

  • تبدیل نمونه بر روی Databricks با استفاده از Spark Scala Sample transformations on Databricks using Spark Scala

  • توابع تعریف شده توسط کاربر اسپارک (UDF) Spark User defined functions (UDF)

  • پیوستن به مجموعه داده ها با استفاده از DataFrame API و Spark SQL Joining Datasets using DataFrame APIs and Spark SQL

  • عملیات پیوستن بیشتر با استفاده از Spark More join operations using Spark

شیرجه عمیق به پلتفرم دیتابریکس دلتا لیک هاوس Deep dive into Databricks Delta Lake Lakehouse Platform

شیرجه عمیق به پلتفرم دیتابریکس دلتا لیک هاوس Deep dive into Databricks Delta Lake Lakehouse Platform

  • آشنایی با Data Warehouse، Data Lake و Data Lakehouse Understanding Data Warehouse, Data Lake and Data Lakehouse

  • Databricks Lakehouse Architecture و Delta Lake Databricks Lakehouse Architecture and Delta Lake

  • جداول دلتا Delta tables

  • ذخیره داده ها در جدول دلتا، Databricks SQL و سفر در زمان Storing data in a Delta table, Databricks SQL and time travel

  • Databricks SQL در مقابل Spark SQL Databricks SQL vs Spark SQL

  • ذخیره سازی جداول دلتا Delta Table caching

  • پارتیشن بندی جدول دلتا Delta Table partitioning

  • ترتیب جدول دلتا Z Delta Table Z-ordering

یک مهندس داده سازنده با ChatGPT باشید Being a productive Data Engineer with ChatGPT

یک مهندس داده سازنده با ChatGPT باشید Being a productive Data Engineer with ChatGPT

  • استفاده از ChatGPT برای توسعه سریعتر Leveraging ChatGPT for faster development

  • تنظیم عملکرد Spark با استفاده از Spark Submit با استفاده از ChatGPT Spark Performance tuning using Spark Submit leveraging ChatGPT

چارچوب برنامه نویسی دنیای واقعی Spark Scala و بهترین شیوه ها Spark Scala real world coding framework and best practices

چارچوب برنامه نویسی دنیای واقعی Spark Scala و بهترین شیوه ها Spark Scala real world coding framework and best practices

  • معرفی برنامه نویسی دنیای واقعی Spark Scala Spark Scala real world coding introduction

  • نصب JDK 11 بر روی دستگاه ویندوز Installing JDK 11 on a Windows Machine

  • نصب برنامه نویسی IntelliJ و Winutils برای Spark Scala Hive در ویندوز Installing IntelliJ and Winutils for Spark Scala Hive programming on Windows

  • برای کاربران مک - نصب JDK، IntelliJ و Spark Scala Hive Hello World For Mac users - JDK , IntelliJ installation and Spark Scala Hive Hello World

  • مبانی اسکالا با استفاده از IntelliJ Scala basics using IntelliJ

  • نصب PostgreSQL Installing PostgreSQL

  • رابط خط فرمان psql برای PostgreSQL psql command line interface for PostgreSQL

  • واکشی داده های PostgresSQL به Spark DataFrame Fetching PostgresSQL data to a Spark DataFrame

  • وارد کردن پروژه به IntelliJ Importing a project into IntelliJ

  • سازماندهی کد با اشیاء و روش ها Organizing code with Objects and Methods

  • پیاده سازی Log4j SLf4j Logging Implementing Log4j SLf4j Logging

  • Exception Handling با try، catch، Option، Some و None Exception Handling with try, catch, Option, Some and None

خط لوله داده با Spark Scala Hadoop PostgreSQL A Data Pipeline with Spark Scala Hadoop PostgreSQL

خط لوله داده با Spark Scala Hadoop PostgreSQL A Data Pipeline with Spark Scala Hadoop PostgreSQL

  • خواندن از Hive و Writing تا Postgres Reading from Hive and Writing to Postgres

  • خواندن پیکربندی از JSON با استفاده از Typesafe Reading Configuration from JSON using Typesafe

  • خواندن آرگومان های خط فرمان و اشکال زدایی در InjtelliJ Reading command-line arguments and debugging in InjtelliJ

  • نوشتن داده ها در جدول Hive Writing data to a Hive Table

  • مدیریت پارامترهای ورودی با استفاده از Scala Case Class Managing input parameters using a Scala Case Class

  • نکات عیب یابی Intellij Maven Intellij Maven troubleshooting tips

تست واحد Spark Scala با استفاده از ScalaTest Spark Scala Unit Testing using ScalaTest

تست واحد Spark Scala با استفاده از ScalaTest Spark Scala Unit Testing using ScalaTest

  • تست واحد اسکالا با استفاده از JUnit و ScalaTest Scala Unit Testing using JUnit & ScalaTest

  • تست واحد تبدیل جرقه با استفاده از ScalaTest Spark Transformation unit testing using ScalaTest

  • تست واحد برای گرفتن یک استثنا Unit testing to catch an Exception

  • گرفتن استثنا با استفاده از assertThrows Catching Exception using assertThrows

  • پرتاب خطای سفارشی و رهگیری پیام خطا Throwing Custom Error and Intercepting Error Message

  • تست با assertResult Testing with assertResult

  • تست با Matchers Testing with Matchers

  • عدم موفقیت در آزمون های عمدی Failing tests intentionally

  • به اشتراک گذاری وسایل Sharing fixtures

صادرات پروژه و Spark Submit Exporting the Project and Spark Submit

صادرات پروژه و Spark Submit Exporting the Project and Spark Submit

  • در حال صادرات پروژه به Uber jar Exporting the project to an uber jar

  • انجام spark-submit به صورت محلی Doing spark-submit locally

Spark Scala - جریان ساخت یافته Spark Scala - Structured Streaming

Spark Scala - جریان ساخت یافته Spark Scala - Structured Streaming

  • مفاهیم جریان ساخت یافته Structured Streaming concepts

  • پخش جریانی داده ها از فایل ها Streaming data from files

  • کد دسته ای در مقابل جریان Batch Vs Streaming code

  • نوشتن داده های جریانی در جدول Hive Writing streaming data to a Hive table

  • تجمع جریان Streaming Aggregation

  • فیلتر کردن جریان Filtering Stream

  • افزودن مهر زمانی به داده های جریانی Adding timestamp to streaming data

  • تجمیع در یک پنجره زمانی Aggregation in a time window

  • پنجره غلتشی و پنجره کشویی Tumbling window and Sliding window

ایجاد یک چارچوب کدنویسی دنیای واقعی PySpark Creating a PySpark real world coding framework

ایجاد یک چارچوب کدنویسی دنیای واقعی PySpark Creating a PySpark real world coding framework

  • محیط توسعه PySpark Hadoop Hive با استفاده از PyCharm و Winutils PySpark Hadoop Hive development environment using PyCharm and Winutils

  • دستورالعمل برای کاربران مک Instructions for Mac users

  • ایجاد پروژه در محیط اصلی پایتون Creating a project in the main Python environment

  • ساختار کد با کلاس ها و متدها Structuring code with classes and methods

  • اسپارک چگونه کار می کند؟ How Spark works?

  • ایجاد و استفاده مجدد از SparkSession Creating and reusing SparkSession

  • Spark DataFrame Spark DataFrame

  • نکات سریع - مجوز winutil Quick tips - winutil permission

  • جدا کردن کد بلع، تبدیل و ماندگاری Separating out Ingestion, Transformation and Persistence code

ورود به سیستم PySpark و مدیریت خطا PySpark Logging and Error Handling

ورود به سیستم PySpark و مدیریت خطا PySpark Logging and Error Handling

  • ثبت پایتون Python Logging

  • مدیریت سطح گزارش از طریق یک فایل پیکربندی Managing log level through a configuration file

  • داشتن لاگر سفارشی برای هر کلاس پایتون Having custom logger for each Python class

  • رسیدگی به خطا با تلاش به جز و افزایش Error Handling with try except and raise

  • ثبت با استفاده از بسته های log4p و log4python Logging using log4p and log4python packages

ایجاد خط لوله داده با Hadoop PySpark و PostgreSQL Creating a Data Pipeline with Hadoop PySpark and PostgreSQL

ایجاد خط لوله داده با Hadoop PySpark و PostgreSQL Creating a Data Pipeline with Hadoop PySpark and PostgreSQL

  • بلع داده ها از Hive Ingesting data from Hive

  • تبدیل داده های دریافت شده Transforming ingested data

  • نصب PostgreSQL Installing PostgreSQL

  • تعامل PySpark PostgreSQL با آداپتور Psycopg2 PySpark PostgreSQL interaction with Psycopg2 adapter

  • تعامل Spark PostgreSQL با درایور JDBC Spark PostgreSQL interaction with JDBC driver

  • داده های تبدیل شده پایدار در PostgreSQL Persisting transformed data in PostgreSQL

PySpark - خواندن پیکربندی از فایل خواص PySpark - Reading Configuration from properties file

PySpark - خواندن پیکربندی از فایل خواص PySpark - Reading Configuration from properties file

  • کد سازماندهی بیشتر Organizing code further

  • خواندن پیکربندی از یک فایل ویژگی Reading configuration from a property file

واحد تست برنامه PySpark و spark-submit Unit testing PySpark application and spark-submit

واحد تست برنامه PySpark و spark-submit Unit testing PySpark application and spark-submit

  • چارچوب واحد تست پایتون Python unittest framework

  • واحد تست منطق تبدیل PySpark Unit testing PySpark transformation logic

  • یک خطا در تست واحد Unit testing an error

  • PySpark - ارسال جرقه PySpark - spark submit

بانک با استفاده از AWS S3، Glue و Athena تبدیل داده‌ها را در نظر گرفته است Bank prospects data transformation using AWS S3, Glue and Athena

بانک با استفاده از AWS S3، Glue و Athena تبدیل داده‌ها را در نظر گرفته است Bank prospects data transformation using AWS S3, Glue and Athena

  • مقدمه ای بر مورد استفاده از دریاچه داده AWS Introduction to AWS data lake use case

  • ثبت نام برای خدمات وب آمازون (AWS) Signing up for Amazon web services (AWS)

  • دریاچه داده با AWS S3 A Data Lake with AWS S3

  • کاتالوگ داده با چسب AWS A data catalog with AWS Glue

  • جستجوی داده ها با استفاده از آمازون آتنا Querying data using Amazon Athena

  • اجرای کارهای تبدیل Spark در چسب AWS Running Spark transformation jobs on AWS Glue

  • خط لوله داده خودکار با استفاده از Lambda، S3 و Glue An automated data pipeline using Lambda, S3 and Glue

  • بانک راه حل تبدیل داده ها را با استفاده از PySpark، Glue، S3 و Athena ارائه می کند Bank prospects data transformation solution using PySpark , Glue, S3 and Athena

نمایش نظرات

آموزش پروژه Big Data Hadoop and Spark برای مبتدیان مطلق
جزییات دوره
12.5 hours
124
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
12,675
4.2 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

FutureX Skills FutureX Skills

توانمندسازی مهندسان داده و دانشمندان داده