لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش پروژه Big Data Hadoop and Spark برای مبتدیان مطلق
A Big Data Hadoop and Spark project for absolute beginners
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
مهندسی دادهها Spark Hive Python PySpark Scala Quading Framework Testing IntelliJ Maven Glue Databricks Delta Lake Big Data، Hadoop و Spark از ابتدا با حل یک مورد استفاده در دنیای واقعی با استفاده از چارچوب کدگذاری دنیای واقعی Python و Scala Spark Scala و PySpark. بهترین شیوه های برنامه نویسی در دنیای واقعی، ورود به سیستم، مدیریت خطا، مدیریت پیکربندی با استفاده از اسکالا و پایتون. راه حل کلان داده بدون سرور با استفاده از چسب AWS، Athena و S3 پیش نیازها:دانشجویان باید مقداری پیشینه برنامه نویسی و مقداری دانش از پرس و جوهای SQL داشته باشند.
این دوره شما را برای نقش مهندس داده در دنیای واقعی آماده می کند!
مهندسی داده یکی از مؤلفههای حیاتی سازمانهای مبتنی بر داده است، زیرا شامل پردازش، مدیریت و تجزیه و تحلیل مجموعههای داده در مقیاس بزرگ است که برای رقابتی ماندن ضروری است.
این دوره فرصتی را برای شروع سریع با Big Data از طریق استفاده از خوشه های ابری رایگان و حل یک مورد استفاده عملی فراهم می کند.
شما مفاهیم اساسی Hadoop، Hive و Spark را با استفاده از Python و Scala خواهید آموخت. هدف از این دوره، توسعه تواناییهای Spark Scala و PySpark شما برای برنامهنویسی حرفهای است، و شما را با شیوههای کدنویسی استاندارد صنعتی مانند ثبت گزارش، مدیریت خطا، و مدیریت پیکربندی آشنا میکند.
علاوه بر این، پلتفرم Databricks Lakehouse را درک خواهید کرد و نحوه انجام تجزیه و تحلیل با استفاده از پایتون و اسکالا با Spark، اعمال Spark SQL و Databricks SQL را برای تجزیه و تحلیل، توسعه خط لوله داده با Apache Spark و مدیریت جدول دلتا با دسترسی به نسخه یاد خواهید گرفت. تاریخچه، بازیابی داده ها، و استفاده از ویژگی های سفر در زمان. همچنین نحوه بهینه سازی عملکرد پرس و جو را با استفاده از Delta Cache، کار با Delta Tables و Databricks File System، و به دست آوردن بینش در مورد سناریوهای دنیای واقعی از مربی مجرب ما یاد خواهید گرفت.
آنچه خواهید آموخت:
داده های بزرگ، مفاهیم Hadoop
نحوه ایجاد یک خوشه Hadoop و Spark رایگان با استفاده از Google Dataproc
Hadoop hands-on - HDFS، Hive
اصول پایتون
PySpark RDD - عملی
PySpark SQL، DataFrame - عملی
کار پروژه با استفاده از PySpark و Hive
اصول اسکالا
Spark Scala DataFrame
کار پروژه با استفاده از Spark Scala
توسعه درک عملی از مفاهیم Databricks Delta Lake Lakehouse از طریق تجربه عملی
آموزش کار با جدول دلتا با دسترسی به تاریخچه نسخه، بازیابی داده ها و استفاده از قابلیت سفر در زمان
چارچوب و توسعه برنامهنویسی دنیای واقعی Spark Scala با استفاده از Winutil، Maven و IntelliJ.
فریم ورک کدنویسی و توسعه Python Spark Hadoop Hive با استفاده از PyCharm
ساخت خط لوله داده با استفاده از Hive، PostgreSQL، Spark
گزارش، مدیریت خطا و تست واحد برنامه های PySpark و Spark Scala
جریان سازی ساختار یافته Spark Scala
اعمال تبدیل جرقه بر روی داده های ذخیره شده در AWS S3 با استفاده از چسب و مشاهده داده ها با استفاده از Athena
چگونه با استفاده از ChatGPT به یک مهندس داده مولد تبدیل شوید
پیش نیازها:
این دوره برای مبتدیان مهندسی داده بدون نیاز به دانش قبلی در مورد Python و Scala طراحی شده است. اما برای موفقیت در این دوره، آشنایی با پایگاه های داده و SQL ضروری است. پس از تکمیل، مهارت ها و دانش لازم برای موفقیت در نقش مهندس داده در دنیای واقعی را خواهید داشت.
سرفصل ها و درس ها
معرفی
Introduction
معرفی
Introduction
معرفی
Introduction
اضافه شده جدید - Databricks Delta Lake Lakehouse
New addition - Databricks Delta Lake Lakehouse
مفاهیم Big Data Hadoop و عملی
Big Data Hadoop concepts and hands-on
مفاهیم Big Data Hadoop و عملی
Big Data Hadoop concepts and hands-on
مفاهیم کلان داده
Big Data concepts
مفاهیم هدوپ
Hadoop concepts
سیستم فایل توزیع شده Hadoop (HDFS)
Hadoop Distributed File System (HDFS)
آشنایی با Google Cloud (GCP) Dataproc
Understanding Google Cloud (GCP) Dataproc
ثبت نام برای استفاده آزمایشی رایگان Google Cloud
Signing up for a Google Cloud free trial
ذخیره فایل در HDFS
Storing a file in HDFS
MapReduce و YARN
MapReduce and YARN
کندو
Hive
جستجوی داده های HDFS با استفاده از Hive
Querying HDFS data using Hive
حذف خوشه
Deleting the Cluster
تجزیه و تحلیل یک میلیارد رکورد با Hive
Analyzing a billion records with Hive
پرس و جوهای سریع با پارتیشن بندی Hive
Fast queries with Hive Partitioning
پرس و جوهای سریع با Hive Bucketing
Fast queries with Hive Bucketing
مفاهیم جرقه و عملی
Spark concepts and hands-on
مفاهیم جرقه و عملی
Spark concepts and hands-on
اسپارک چیست؟
What is Spark?
Spark Hello World در Dataproc
Spark Hello World on Dataproc
اجرای Python Spark 3 در Google Colab
Running Python Spark 3 on Google Colab
جرقه ای برای تبدیل داده ها
Spark for data transformation
DataFrame چیست؟
What is a DataFrame?
RDDs - بلوک اصلی ساختمان
RDDs - The fundamental building block
اصول اولیه پایتون
Python basics
PySpark - ایجاد RDD
PySpark - Creating RDDs
توابع پایتون و عبارات لامبدا
Python functions and lambda expressions
RDD - تحول و اقدام
RDD - Transformation & Action
PySpark - SparkSQL و DataFrame
PySpark - SparkSQL and DataFrame
پروژه - بانک با استفاده از Hadoop و Spark پاکسازی داده های بازاریابی بالقوه را انجام می دهد
Project - Bank prospects marketing data cleansing using Hadoop and Spark
پروژه - بانک با استفاده از Hadoop و Spark پاکسازی داده های بازاریابی بالقوه را انجام می دهد
Project - Bank prospects marketing data cleansing using Hadoop and Spark
بیان مشکل پروژه
Project problem statement
راه حل پروژه با استفاده از PySpark در Colab
Project solution using PySpark on Colab
راه حل پروژه با استفاده از PySpark در یک خوشه Dataproc
Project solution using PySpark on a Dataproc cluster
بازبینی سریع - مفاهیم کلان داده، Hadoop و Spark
Rapid Revision - Big Data, Hadoop and Spark concepts
اجرای پروژه در اسکالا
Running the project in Scala
اجرای پروژه در اسکالا
Running the project in Scala
اصول اولیه اسکالا
Scala basics
Spark SQL DataFrame با استفاده از Scala
Spark SQL DataFrame using Scala
پروژه بازاریابی چشم انداز بانک در اسکالا
Bank prospects marketing project in Scala
آموزش Apache Spark در Databricks
Learning Apache Spark on Databricks
آموزش Apache Spark در Databricks
Learning Apache Spark on Databricks
Databricks چیست؟
What is Databricks
ایجاد یک حساب کاربری Databricks Community Edition برای تمرین Spark
Creating a Databricks Community Edition account to practice Spark
ذخیره داده ها در جداول Databricks DBFS و Delta
Saving data to Databricks DBFS and Delta tables
صادرات و واردات نوت بوک
Exporting and importing Notebooks
تبدیل نمونه بر روی Databricks با استفاده از PySpark
Sample transformations on Databricks using PySpark
تبدیل نمونه بر روی Databricks با استفاده از Spark Scala
Sample transformations on Databricks using Spark Scala
توابع تعریف شده توسط کاربر اسپارک (UDF)
Spark User defined functions (UDF)
پیوستن به مجموعه داده ها با استفاده از DataFrame API و Spark SQL
Joining Datasets using DataFrame APIs and Spark SQL
عملیات پیوستن بیشتر با استفاده از Spark
More join operations using Spark
شیرجه عمیق به پلتفرم دیتابریکس دلتا لیک هاوس
Deep dive into Databricks Delta Lake Lakehouse Platform
شیرجه عمیق به پلتفرم دیتابریکس دلتا لیک هاوس
Deep dive into Databricks Delta Lake Lakehouse Platform
آشنایی با Data Warehouse، Data Lake و Data Lakehouse
Understanding Data Warehouse, Data Lake and Data Lakehouse
Databricks Lakehouse Architecture و Delta Lake
Databricks Lakehouse Architecture and Delta Lake
جداول دلتا
Delta tables
ذخیره داده ها در جدول دلتا، Databricks SQL و سفر در زمان
Storing data in a Delta table, Databricks SQL and time travel
Databricks SQL در مقابل Spark SQL
Databricks SQL vs Spark SQL
ذخیره سازی جداول دلتا
Delta Table caching
پارتیشن بندی جدول دلتا
Delta Table partitioning
ترتیب جدول دلتا Z
Delta Table Z-ordering
یک مهندس داده سازنده با ChatGPT باشید
Being a productive Data Engineer with ChatGPT
یک مهندس داده سازنده با ChatGPT باشید
Being a productive Data Engineer with ChatGPT
استفاده از ChatGPT برای توسعه سریعتر
Leveraging ChatGPT for faster development
تنظیم عملکرد Spark با استفاده از Spark Submit با استفاده از ChatGPT
Spark Performance tuning using Spark Submit leveraging ChatGPT
چارچوب برنامه نویسی دنیای واقعی Spark Scala و بهترین شیوه ها
Spark Scala real world coding framework and best practices
چارچوب برنامه نویسی دنیای واقعی Spark Scala و بهترین شیوه ها
Spark Scala real world coding framework and best practices
معرفی برنامه نویسی دنیای واقعی Spark Scala
Spark Scala real world coding introduction
نصب JDK 11 بر روی دستگاه ویندوز
Installing JDK 11 on a Windows Machine
نصب برنامه نویسی IntelliJ و Winutils برای Spark Scala Hive در ویندوز
Installing IntelliJ and Winutils for Spark Scala Hive programming on Windows
برای کاربران مک - نصب JDK، IntelliJ و Spark Scala Hive Hello World
For Mac users - JDK , IntelliJ installation and Spark Scala Hive Hello World
مبانی اسکالا با استفاده از IntelliJ
Scala basics using IntelliJ
نصب PostgreSQL
Installing PostgreSQL
رابط خط فرمان psql برای PostgreSQL
psql command line interface for PostgreSQL
واکشی داده های PostgresSQL به Spark DataFrame
Fetching PostgresSQL data to a Spark DataFrame
وارد کردن پروژه به IntelliJ
Importing a project into IntelliJ
سازماندهی کد با اشیاء و روش ها
Organizing code with Objects and Methods
پیاده سازی Log4j SLf4j Logging
Implementing Log4j SLf4j Logging
Exception Handling با try، catch، Option، Some و None
Exception Handling with try, catch, Option, Some and None
خط لوله داده با Spark Scala Hadoop PostgreSQL
A Data Pipeline with Spark Scala Hadoop PostgreSQL
خط لوله داده با Spark Scala Hadoop PostgreSQL
A Data Pipeline with Spark Scala Hadoop PostgreSQL
خواندن از Hive و Writing تا Postgres
Reading from Hive and Writing to Postgres
خواندن پیکربندی از JSON با استفاده از Typesafe
Reading Configuration from JSON using Typesafe
خواندن آرگومان های خط فرمان و اشکال زدایی در InjtelliJ
Reading command-line arguments and debugging in InjtelliJ
نوشتن داده ها در جدول Hive
Writing data to a Hive Table
مدیریت پارامترهای ورودی با استفاده از Scala Case Class
Managing input parameters using a Scala Case Class
جدا کردن کد بلع، تبدیل و ماندگاری
Separating out Ingestion, Transformation and Persistence code
ورود به سیستم PySpark و مدیریت خطا
PySpark Logging and Error Handling
ورود به سیستم PySpark و مدیریت خطا
PySpark Logging and Error Handling
ثبت پایتون
Python Logging
مدیریت سطح گزارش از طریق یک فایل پیکربندی
Managing log level through a configuration file
داشتن لاگر سفارشی برای هر کلاس پایتون
Having custom logger for each Python class
رسیدگی به خطا با تلاش به جز و افزایش
Error Handling with try except and raise
ثبت با استفاده از بسته های log4p و log4python
Logging using log4p and log4python packages
ایجاد خط لوله داده با Hadoop PySpark و PostgreSQL
Creating a Data Pipeline with Hadoop PySpark and PostgreSQL
ایجاد خط لوله داده با Hadoop PySpark و PostgreSQL
Creating a Data Pipeline with Hadoop PySpark and PostgreSQL
بلع داده ها از Hive
Ingesting data from Hive
تبدیل داده های دریافت شده
Transforming ingested data
نصب PostgreSQL
Installing PostgreSQL
تعامل PySpark PostgreSQL با آداپتور Psycopg2
PySpark PostgreSQL interaction with Psycopg2 adapter
تعامل Spark PostgreSQL با درایور JDBC
Spark PostgreSQL interaction with JDBC driver
داده های تبدیل شده پایدار در PostgreSQL
Persisting transformed data in PostgreSQL
PySpark - خواندن پیکربندی از فایل خواص
PySpark - Reading Configuration from properties file
PySpark - خواندن پیکربندی از فایل خواص
PySpark - Reading Configuration from properties file
کد سازماندهی بیشتر
Organizing code further
خواندن پیکربندی از یک فایل ویژگی
Reading configuration from a property file
واحد تست برنامه PySpark و spark-submit
Unit testing PySpark application and spark-submit
واحد تست برنامه PySpark و spark-submit
Unit testing PySpark application and spark-submit
چارچوب واحد تست پایتون
Python unittest framework
واحد تست منطق تبدیل PySpark
Unit testing PySpark transformation logic
یک خطا در تست واحد
Unit testing an error
PySpark - ارسال جرقه
PySpark - spark submit
بانک با استفاده از AWS S3، Glue و Athena تبدیل دادهها را در نظر گرفته است
Bank prospects data transformation using AWS S3, Glue and Athena
بانک با استفاده از AWS S3، Glue و Athena تبدیل دادهها را در نظر گرفته است
Bank prospects data transformation using AWS S3, Glue and Athena
مقدمه ای بر مورد استفاده از دریاچه داده AWS
Introduction to AWS data lake use case
ثبت نام برای خدمات وب آمازون (AWS)
Signing up for Amazon web services (AWS)
دریاچه داده با AWS S3
A Data Lake with AWS S3
کاتالوگ داده با چسب AWS
A data catalog with AWS Glue
جستجوی داده ها با استفاده از آمازون آتنا
Querying data using Amazon Athena
اجرای کارهای تبدیل Spark در چسب AWS
Running Spark transformation jobs on AWS Glue
خط لوله داده خودکار با استفاده از Lambda، S3 و Glue
An automated data pipeline using Lambda, S3 and Glue
بانک راه حل تبدیل داده ها را با استفاده از PySpark، Glue، S3 و Athena ارائه می کند
Bank prospects data transformation solution using PySpark , Glue, S3 and Athena
نمایش نظرات