آموزش ملزومات مهندسی داده - SQL ، Python و Spark

Data Engineering Essentials - SQL, Python and Spark

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
توضیحات دوره: با استفاده از SQL ، Python و Spark خطوط لوله مهندسی داده بسازید

آنچه خواهید آموخت

  • محیط توسعه را در GCP تنظیم کنید
  • ملزومات پایگاه داده با استفاده از Postgres
  • برنامه نویسی ملزومات با استفاده از پایتون
  • مهندسی داده با استفاده از Spark Dataframe API
  • مهندسی داده با استفاده از Spark SQL

به عنوان بخشی از این دوره، شما تمام ملزومات مهندسی داده های مربوط به ساخت خطوط لوله داده ها را با استفاده از SQL، پایتون و همچنین جرقه یاد خواهید گرفت.

درباره مهندسی داده

مهندسی داده چیزی نیست جز پردازش داده ها بسته به نیازهای پایین دستی ما. ما به عنوان بخشی از مهندسی داده ها ، باید خطوط لوله مختلفی مانند خطوط لوله بچ ، خطوط جریان و غیره بسازیم. تمام نقش های مربوط به پردازش داده ها تحت مهندسی داده تلفیق می شوند. به طور معمول ، آنها به عنوان ETL Development ، Data Warehouse Development و غیره شناخته می شوند

جزئیات دوره

به عنوان بخشی از این دوره ، موارد ضروری مهندسی داده مانند SQL ، برنامه نویسی با استفاده از Python و Spark را فرا خواهید گرفت. در اینجا دستورالعمل دقیق این دوره وجود دارد.

  • ملزومات پایگاه داده - SQL با استفاده از Postgres

    • شروع با Postgres

    • عملیات پایه بانک اطلاعاتی (CRUD یا درج ، به روزرسانی ، حذف)

    • نوشتن سeriesالات اساسی SQL (فیلتر کردن ، پیوستن ها و تجمیع ها)

    • ایجاد جدول ها و فهرست ها

    • جداول و شاخص های پارتیشن بندی

    • توابع از پیش تعریف شده (دستکاری رشته ، دستکاری تاریخ و سایر توابع)

    • نوشتن سeriesالات پیشرفته SQL

  • موارد ضروری برنامه نویسی با استفاده از پایتون

    • انجام عملیات پایگاه داده

    • شروع با پایتون

    • سازه های برنامه نویسی اساسی

    • توابع از پیش تعریف شده

    • بررسی اجمالی مجموعه ها - لیست و تنظیم کنید

    • مرور کلی مجموعه ها - داکت و tuple

    • دستکاری مجموعه ها با استفاده از حلقه ها

    • درک نقشه برای کاهش کتابخانه ها

    • بررسی اجمالی کتابخانه های Pandas

    • برنامه نویسی پایگاه داده - عملیات CRUD

    • برنامه نویسی پایگاه داده - عملیات دسته ای

  • تنظیم خوشه تک گره برای تمرین

    • تنظیم خوشه Hadoop تک گره

    • تنظیمات Hive و Spark on Single Node Cluster

  • مقدمه ای بر اکوسیستم Hadoop

    • نمای کلی دستورات HDFS

  • مهندسی داده با استفاده از Spark SQL

    • شروع با Spark SQL

    • تغییرات اساسی

    • مدیریت جداول - DDL و DML پایه

    • مدیریت جداول - DML و پارتیشن بندی

    • بررسی اجمالی توابع Spark SQL

    • توابع پنجره

  • مهندسی داده با استفاده از Spark Data Frame API

    • بررسی اجمالی پردازش داده ها

    • پردازش داده های ستون

    • تغییرات اساسی - فیلتر کردن، جمع آوری، و مرتب سازی

    • پیوستن به مجموعه داده ها

    • توابع پنجره سازی - تجمیع ، رتبه بندی و توابع تحلیلی

    • پایگاه داده ها و جداول Spark Metastore

مخاطب مورد نظر

در اینجا مخاطبان مورد نظر برای این دوره وجود دارد.

  • دانشجویان دانشگاه و متخصصان سطح ابتدایی برای دستیابی به تخصص عملی در مورد مهندسی داده ها. این دوره مهارت کافی برای مواجهه با مصاحبه را برای مهندسان سطح ورود به سطح فراهم می کند.

  • توسعه دهندگان برنامه های باتجربه برای به دست آوردن تخصص مربوط به مهندسی داده.

  • توسعه دهندگان متداول انبار داده ، توسعه دهندگان ETL ، توسعه دهندگان پایگاه داده ، توسعه دهندگان PL/SQL برای به دست آوردن مهارت کافی برای انتقال به یک مهندس داده موفق.

  • آزمایش کنندگان برای بهبود قابلیت های تست مربوط به برنامه های مهندسی داده.

  • هر حرفه ای IT دیگری که می خواهد درمورد مهندسی داده با تمرین عملی دانش کسب کند.

پیش نیازها

  • تدارکات

    • رایانه با پیکربندی مناسب (حداقل 4 گیگابایت RAM ، با این حال 8 گیگابایت RAM بسیار مطلوب است)

    • دو هسته ای مورد نیاز است و چهار هسته ای بسیار مورد نظر است

    • مرورگر Chrome

    • اینترنت پرسرعت

  • پس زمینه مورد نظر

    • مدرک مهندسی یا علوم

    • امکان استفاده از رایانه

    • دانش یا تجربه کار با پایگاه داده و هر زبان برنامه نویسی بسیار مطلوب است

رویکرد آموزش

در اینجا جزئیات مربوط به رویکرد آموزش آورده شده است.

  • با مواد مرجع ، قطعه کد و ویدیوهایی که به عنوان بخشی از Udemy ارائه می شوند ، خود گام برمی دارد.

  • می توان از محیط ارائه شده توسط ما استفاده کرد و یا محیط خود را با استفاده از Docker در AWS یا GCP یا بستر دلخواه خود راه اندازی کرد.

  • توصیه می کنیم هر هفته 2 ماژول را با صرف 4 تا 5 ساعت در هفته تکمیل کنید.

  • توصیه می شود در پایان مراقبت از تمرینات را انجام دهید تا اطمینان حاصل کنید که قادر به رسیدن به تمام اهداف کلیدی برای هر واحد هستید.

  • پشتیبانی از طریق Udemy Q A. ارائه خواهد شد.

دوره به گونه ای طراحی شده است که فرد می تواند از طریق دوره ارزیابی خود را انجام داده و تأیید کند که مهارت کسب شده است.

  • در اینجا روشی است که شما برای گذراندن این دوره به شما توصیه می کنیم.

    • این دوره با هزاران وظیفه عملی است ، باید هنگام گذراندن دوره تمرین کنید.

    • همچنین باید وقت خود را صرف درک مفاهیم کنید. اگر این مفهوم را نمی فهمید ، توصیه می کنم ادامه دهید و بعداً به موضوع بازگردید.

    • تمرینات تلفیقی را مرور کنید و ببینید آیا قادر به حل مشکلات هستید یا خیر.

    • مطابق نظمی که به عنوان بخشی از دوره تعریف کرده ایم ، پیروی کنید.

    • بعد از هر بخش یا ماژول ، تمرینات را حل کنید. ما اطلاعات کافی برای تأیید اعتبار خروجی فراهم کرده ایم.

  • در پایان دوره ، می توانید به این نتیجه برسید که قادر به تسلط بر مهارت های اساسی مربوط به SQL ، Python و Spark هستید.

این دوره برای چه کسانی است:

  • دانشجویان علوم کامپیوتر یا دانشجویان IT یا سایر فارغ التحصیلان با اشتیاق برای ورود به فناوری اطلاعات
  • توسعه دهندگان انبار داده که می خواهند به نقش مهندسی داده
  • منتقل شوند توسعه دهندگان ETL که می خواهند به نقش های مهندسی داده
  • منتقل شوند توسعه دهندگان پایگاه داده یا PL/SQL که می خواهند به نقش های مهندسی داده
  • منتقل شوند توسعه دهندگان BI که می خواهند به نقش های مهندسی داده
  • منتقل شوند مهندسان QA برای کسب اطلاعات در مورد مهندسی داده
  • توسعه دهندگان برنامه برای به دست آوردن مهارت های مهندسی داده

سرفصل ها و درس ها

مقدمه ای در مورد دوره Introduction about the course

  • مقدمه ای در مورد دوره Introduction about course

  • مخاطبان دلخواه Desired Audience

  • پیش نیازها Pre-requisites

  • رویکرد آموزش Training Approach

  • بررسی اجمالی محیط برای تمرین دست (باید تماشا کنید) Overview of Environments for Hands on Practice (Must Watch)

تنظیم محیط با استفاده از AWS Cloud9 Setting up Environment using AWS Cloud9

  • شروع کار با Cloud9 Getting Started with Cloud9

  • ایجاد محیط Cloud9 Creating Cloud9 Environment

  • گرم شدن با Cloud9 IDE Warming up with Cloud9 IDE

  • جزئیات مربوط به مواد برای راه اندازی پایگاه داده postgres با استفاده از docker Details about material to setup postgres database using docker

  • بررسی اجمالی EC2 مربوط به Cloud9 Overview of EC2 related to Cloud9

  • باز کردن درگاه های Cloud9 Instance Opening ports for Cloud9 Instance

  • مرتبط کردن IP های الاستیک با Cloud9 Instance Associating Elastic IPs to Cloud9 Instance

  • افزایش حجم حجم EBS از Cloud9 Instance Increase EBS Volume Size of Cloud9 Instance

  • آزمایشگاه Jupyter را در Cloud9 راه اندازی کنید Setup Jupyter Lab on Cloud9

  • [دستورات] Jupyter Lab را در Cloud9 تنظیم کنید [Commands] Setup Jupyter Lab on Cloud9

تنظیم محیط - مروری بر GCP و Provision Ubuntu VM Setting up Environment - Overview of GCP and Provision Ubuntu VM

  • ثبت نام در GCP Signing up for GCP

  • نمای کلی کنسول وب GCP Overview of GCP Web Console

  • بررسی اجمالی قیمت گذاری GCP Overview of GCP Pricing

  • Ubuntu VM را از GCP تهیه کنید Provision Ubuntu VM from GCP

  • Docker را تنظیم کنید Setup Docker

  • اعتبارسنجی پایتون Validating Python

  • آزمایشگاه Jupyter را راه اندازی کنید Setup Jupyter Lab

تنظیم محیط - پایگاه داده Postgres را در Ubuntu VM تنظیم کنید Setting up Environment - Setup Postgres Database on Ubuntu VM

  • مقدمه - پایگاه داده Setup Postgres Introduction - Setup Postgres Database

  • Postgres را با استفاده از Docker تنظیم کنید Setup Postgres using Docker

  • ورق تقلب داکر Docker Cheat Sheet

  • دسترسی به Postgres با استفاده از Docker CLI Accessing Postgres using Docker CLI

  • پایگاه داده و کاربر ایجاد کنید Create Database and User

  • اسکریپت های SQL را اجرا کنید Execute SQL Scripts

  • میز کار SQL و Postgres SQL Workbench and Postgres

  • Jupyter Lab و Postgresql در سیستم های محلی مانند Mac Jupyter Lab and Postgresql on local systems such as Mac

  • آزمایشگاه Jupyter و Postgresql با استفاده از Ubuntu VM Jupyter Lab and Postgresql using Ubuntu VM

ملزومات پایگاه داده - شروع به کار Database Essentials - Getting Started

  • اتصال به پایگاه داده Connecting to Database

  • با استفاده از psql Using psql

  • Postgres را با استفاده از Docker تنظیم کنید Setup Postgres using Docker

  • راه اندازی SQL Workbench Setup SQL Workbench

  • میز کار SQL و Postgres SQL Workbench and Postgres

  • ویژگی های میز کار SQL SQL Workbench Features

  • برنامه های بارگیری داده Data Loading Utilities

  • در حال بارگیری داده ها - Docker Loading Data - Docker

ملزومات پایگاه داده - عملیات پایگاه داده Database Essentials - Database Operations

  • عملیات پایگاه داده - بررسی اجمالی Database Operations - Overview

  • عملیات CRUD CRUD Operations

  • ایجاد جدول Creating Table

  • درج داده Inserting Data

  • به روز رسانی داده ها Updating Data

  • حذف داده ها Deleting Data

  • بررسی اجمالی معاملات Overview of Transactions

  • ورزش - عملیات پایگاه داده Exercise - Database Operations

ملزومات پایگاه داده - نوشتن س Basicالات اساسی SQL Database Essentials - Writing Basic SQL Queries

  • تحولات استاندارد Standard Transformations

  • بررسی اجمالی مدل داده Overview of Data Model

  • بیان مسئله را تعریف کنید Define Problem Statement

  • تهیه جدول ها Preparing Tables

  • انتخاب یا پروجکشن داده ها Selecting or Projecting Data

  • فیلتر کردن داده ها Filtering Data

  • پیوستن به جداول - داخلی Joining Tables - Inner

  • پیوستن به جداول - بیرونی Joining Tables - Outer

  • انجام تجمعات Performing Aggregations

  • مرتب سازی داده ها Sorting Data

  • راه حل - درآمد روزانه محصول Solution - Daily Product Revenue

  • تمرینات - نوشتن س Basicالات اساسی SQL Exercises - Writing Basic SQL Queries

ملزومات پایگاه داده - ایجاد جداول و فهرست ها Database Essentials - Creating Tables and Indexes

  • DDL - زبان تعریف داده DDL - Data Definition Language

  • نمای کلی انواع داده ها Overview of Data Types

  • افزودن یا اصلاح ستون ها Adding or Modifying Columns

  • انواع مختلف محدودیت ها Different Type of Constraints

  • مدیریت محدودیت ها Managing Constraints

  • فهرست ها در جدول ها Indexes on Tables

  • فهرست برای محدودیت ها Indexes for Constraints

  • مروری بر توالی ها Overview of Sequences

  • جدا کردن جداول Truncating Tables

  • انداختن جداول Dropping Tables

ملزومات پایگاه داده - جداول و شاخص های پارتیشن بندی Database Essentials - Partitioning Tables and Indexes

  • بررسی اجمالی پارتیشن بندی Overview of Partitioning

  • لیست پارتیشن بندی List Partitioning

  • مدیریت پارتیشن ها - لیست Managing Partitions - List

  • دستکاری داده ها Manipulating Data

  • محدوده بندی پارتیشن بندی Range Partitioning

  • مدیریت پارتیشن ها - محدوده Managing Partitions - Range

  • تقسیم مجدد - محدوده Repartitioning - Range

  • پارتیشن بندی هاش Hash Partitioning

  • مدیریت پارتیشن ها - هاش Managing Partitions - Hash

  • سناریوهای استفاده Usage Scenarios

  • زیر پارتیشن بندی Sub Partitioning

  • ورزش - جداول تقسیم شده Exercise - Partitioned Tables

ملزومات پایگاه داده - توابع از پیش تعریف شده Database Essentials - Predefined Functions

  • بررسی اجمالی توابع Overview of Functions

  • توابع دستکاری رشته String Manipulation Functions

  • تبدیل و طول مورد Case Conversion and Length

  • استخراج داده ها - استفاده از substr و split_part Extracting Data - Using substr and split_part

  • استفاده از موقعیت یا strpos Using position or strpos

  • توابع پیرایش و پر کردن Trimming and Padding Functions

  • چند رشته را معکوس کرده و بهم بپیچانید Reverse and Concatenate Multiple Strings

  • جایگزینی رشته String Replacement

  • توابع دستکاری تاریخ Date Manipulation Functions

  • دریافت تاریخ یا زمان علامت فعلی Getting Current Date or Timestamp

  • تاریخ حساب Date Arithmetic

  • شروع تاریخ یا زمان با استفاده از date_trunc Beginning Date or Time using date_trunc

  • استفاده از to_char و to_date Using to_char and to_date

  • استخراج اطلاعات با استفاده از عصاره Extracting Information using extract

  • برخورد با یونیکس Timestamp یا epoch Dealing with Unix Timestamp or epoch

  • بررسی اجمالی توابع عددی Overview of Numeric Functions

  • تبدیل نوع داده Data Type Conversion

  • مدیریت مقادیر NULL Handling NULL Values

  • با استفاده از CASE و WHEN Using CASE and WHEN

ملزومات پایگاه داده - نوشتن سeriesالات پیشرفته SQL Database Essentials - Writing Advanced SQL Queries

  • نمای کلی بازدیدها Overview of Views

  • بررسی اجمالی س Namالات نامگذاری شده Overview of Named Queries

  • بررسی اجمالی پرسشهای فرعی Overview of Sub Queries

  • CTAS - جدول را به عنوان انتخاب ایجاد کنید CTAS - Create Table As Select

  • عملیات پیشرفته DML Advanced DML Operations

  • ادغام یا درج اطلاعات Merging or Upserting Data

  • ردیف های ردیابی به ستون ها Pivoting Rows into Columns

  • بررسی اجمالی توابع تحلیلی Overview of Analytic Functions

  • توابع تحلیلی - جمع آوری Analytic Functions - Aggregations

  • تجمعات تجمعی یا متحرک Cumulative or Moving Aggregations

  • توابع تحلیلی - پنجره سازی Analytic Functions - Windowing

  • توابع تحلیلی - رتبه بندی Analytic Functions - Ranking

  • توابع تحلیلی - فیلتر کردن Analytic Functions - Filtering

  • رتبه بندی و فیلتر کردن - خلاصه Ranking and Filtering - Recap

برنامه نویسی ملزومات با استفاده از پایتون - انجام عملیات پایگاه داده Programming Essentials using Python - Perform Database Operations

  • مقدمه - انجام عملیات پایگاه داده Introduction - Perform Database Operations

  • مروری بر SQL Overview of SQL

  • ایجاد پایگاه داده و جدول کاربران Create Database and Users Table

  • DDL - زبان تعریف داده DDL - Data Definition Language

  • DML - زبان دستکاری داده ها DML - Data Manipulation Language

  • DQL - زبان پرس و جو داده DQL - Data Query Language

  • عملیات CRUD - DML و DQL CRUD Operations - DML and DQL

  • TCL - زبان کنترل تراکنش TCL - Transaction Control Language

  • مثال - مهندسی داده Example - Data Engineering

  • مثال - برنامه وب Example - Web Application

  • ورزش - عملیات پایگاه داده Exercise - Database Operations

برنامه نویسی ملزومات با استفاده از پایتون - شروع کار با پایتون Programming Essentials using Python - Getting Started with Python

  • نصب پایتون روی ویندوز Installing Python on Windows

  • بررسی اجمالی آناکوندا Overview of Anaconda

  • Python CLI و Jupyter Notebook Python CLI and Jupyter Notebook

  • بررسی اجمالی آزمایشگاه Jupyter Overview of Jupyter Lab

  • با استفاده از IDE - Pycharm Using IDEs - Pycharm

  • با استفاده از کد ویژوال استودیو Using Visual Studio Code

  • با استفاده از آزمایشگاه های ITVersity Using ITVersity Labs

  • استفاده از Google Colab Leveraging Google Colab

ملزومات برنامه نویسی با استفاده از Python - ساختارهای برنامه نویسی پایه Programming Essentials using Python - Basic Programming Constructs

  • کمک گرفتن Getting Help

  • متغیرها و اشیا Variables and Objects

  • نوع داده - معمولاً مورد استفاده قرار می گیرد Data Type - Commonly Used

  • اپراتورها در پایتون Operators in Python

  • وظایف - انواع داده ها و اپراتورها Tasks - Data Types and Operators

  • مشروط Conditionals

  • همه چیز در مورد حلقه ها All about for loops

  • اجرای دستورات os Running os commands

برنامه نویسی ملزومات با استفاده از پایتون - توابع از پیش تعریف شده Programming Essentials using Python - Predefined Functions

  • بررسی اجمالی توابع از پیش تعریف شده Overview of Predefined Functions

  • توابع عددی Numeric Functions

  • نمای کلی رشته ها Overview of Strings

  • توابع دستکاری رشته String Manipulation Functions

  • قالب بندی رشته ها Formatting Strings

  • توابع چاپ و ورودی Print and Input Functions

  • توابع دستکاری تاریخ Date Manipulation Functions

برنامه نویسی ملزومات با استفاده از پایتون - توابع تعریف شده توسط کاربر Programming Essentials using Python - User Defined Functions

  • مقدمه Introduction

  • تعریف توابع Defining Functions

  • رشته های Doc Doc Strings

  • بازگرداندن متغیرها Returning Variables

  • پارامترهای عملکرد و آرگومان ها Function Parameters and Arguments

  • بحثهای مختلف Varying Arguments

  • استدلال های کلمه کلیدی Keyword Arguments

  • جمع بندی توابع تعریف شده توسط کاربر Recap of User Defined Functions

  • عبور توابع به عنوان آرگومان Passing Functions as Arguments

  • توابع لامبدا Lambda Functions

  • استفاده از توابع لامبدا Usage of Lambda Functions

  • ورزش - توابع تعریف شده توسط کاربر Exercise - User Defined Functions

ملزومات برنامه نویسی با استفاده از Python - Overview of Collections - فهرست و تنظیم Programming Essentials using Python - Overview of Collections - list and set

  • نمای کلی از لیست و مجموعه Overview of list and set

  • عملیات مشترک Common Operations

  • دسترسی به عناصر از لیست Accessing elements from list

  • افزودن عناصر به لیست Adding elements to list

  • به روزرسانی و حذف عناصر - لیست Updating and Deleting elements -list

  • سایر عملیات لیست Other list operations

  • افزودن و حذف عناصر - تنظیم کنید Adding and Deleting elements - set

  • عملیات مجموعه ای معمولی Typical set operations

  • اعتبارسنجی مجموعه ها Validating sets

  • لیست و تنظیم - استفاده list and set - Usage

برنامه نویسی ملزومات با استفاده از Python - نمای کلی مجموعه ها - dict و tuple Programming Essentials using Python - Overview of Collections - dict and tuple

  • مروری بر دیکت و تاپل Overview of dict and tuple

  • عملیات مشترک - دیکتوم و تاپل Common Operations - dict and tuple

  • دسترسی به عناصر - tuples Accessing Elements - tuples

  • دسترسی به عناصر - حکم کنید Accessing Elements - dict

  • دستکاری حکم Manipulating dict

  • مثالهای رایج - حکم کنید Common Examples - dict

  • لیست تاپل ها List of Tuples

  • لیست حکم List of dicts

برنامه نویسی ملزومات با استفاده از پایتون - دستکاری مجموعه ها با استفاده از حلقه ها Programming Essentials using Python - Manipulating Collections using loops

  • خواندن فایلها در مجموعه ها Reading Files into Collections

  • بررسی اجمالی تحولات استاندارد Overview of Standard Transformations

  • تحولات سطح ردیف Row Level Transformations

  • دریافت عناصر منحصر به فرد Getting Unique Elements

  • فیلتر کردن داده ها Filtering Data

  • آماده سازی مجموعه داده ها Preparing Data Sets

  • بازخوانی سریع عملیات دیکت Quick recap of dict operations

  • انجام مجموع جمع ها Performing Total Aggregations

  • پیوستن به مجموعه داده ها Joining Data Sets

  • محدودیت های استفاده از حلقه ها Limitations of using loops

برنامه نویسی موارد ضروری با استفاده از پایتون - درک نقشه برای کاهش کتابخانه ها Programming Essentials using Python - Understanding Map Reduce Libraries

  • آماده سازی مجموعه داده ها Preparing Data Sets

  • فیلتر کردن داده ها با استفاده از فیلتر Filtering Data using filter

  • پیش بینی داده ها با استفاده از نقشه Projecting data using map

  • تحولات سطح ردیف با استفاده از نقشه Row Level Transformations using map

برنامه نویسی ملزومات با استفاده از پایتون - مروری بر کتابخانه های Pandas Programming Essentials using Python - Overview of Pandas Libraries

  • ساختارهای داده Pandas Pandas Data Structures

  • نمای کلی سریال ها Overview of series

  • ایجاد فریم های داده از لیست ها Creating Data Frames from lists

  • فریم های داده - عملیات اساسی Data Frames - Basic Operations

  • فریم های داده CSV به Pandas CSV to Pandas Data Frames

  • پروژه و فیلتر کردن Projecting and Filtering

  • انجام مجموع جمع ها Performing Total Aggregations

  • انجام تجمعات گروهی Performing Grouped Aggregations

  • نوشتن فریم های داده در پرونده ها Writing Data Frames to Files

  • پیوستن به فریم های داده Joining Data Frames

موارد ضروری برنامه نویسی با استفاده از پایتون - برنامه نویسی پایگاه داده - عملیات CRUD Programming Essentials using Python - Database Programming - CRUD Operations

  • بررسی اجمالی برنامه نویسی داده ها Overview of Data Programming

  • خلاصه ای از مفاهیم RDBMS Recap of RDBMS Concepts

  • کتابخانه های مشتری پایگاه داده را تنظیم کنید Setup Database Client Libraries

  • عملکرد دریافت اتصال پایگاه داده Function Get Database Connection

  • جدول پایگاه داده ایجاد کنید Create Database Table

  • درج داده در جدول Inserting Data into Table

  • به روزرسانی داده های جدول موجود Updating Existing Table Data

  • حذف داده ها از جدول Deleting Data From Table

  • پرس و جو از داده ها از جدول Querying Data From Table

  • خلاصه کردن - عملیات CRUD Recap - CRUD Operations

ملزومات برنامه نویسی با استفاده از پایتون - برنامه نویسی پایگاه داده - عملیات دسته ای Programming Essentials using Python - Database Programming - Batch Operations

  • خلاصه درج Recap of Insert

  • آماده سازی بانک اطلاعات Preparing Database

  • خواندن داده ها از پرونده Reading Data From File

  • بارگذاری دسته ای داده ها Batch Loading of Data

  • در حال بارگذاری دسته ای بهترین روش ها Best Practices Batch Loading

Hadoop را روی خوشه Single Node تنظیم کنید Setup Hadoop on Single Node Cluster

  • مقدمه ای بر خوشه تک گره Hadoop Introduction to Single Node Hadoop Cluster

  • پیش نیازها Setup Prerequisties

  • ورود به سیستم رمز ورود کمتر Setup Password less login

  • Hadoop را بارگیری و نصب کنید Download and Install Hadoop

  • پیکربندی Hadoop HDFS Configure Hadoop HDFS

  • شروع و اعتبارسنجی HDFS Start and Validate HDFS

  • تنظیم Hadoop YARN Configure Hadoop YARN

  • YARN را شروع کرده و اعتبار سنجی کنید Start and Validate YARN

  • مدیریت گره گره hadoop Managing Single Node Hadoop

راه اندازی کندو و جرقه بر روی خوشه تک گره Setup Hive and Spark on Single Node Cluster

  • مجموعه داده ها را برای تمرین تنظیم کنید Setup Data Sets for Practice

  • Hive را بارگیری و نصب کنید Download and Install Hive

  • پایگاه داده راه اندازی برای Hive Metastore Setup Database for Hive Metastore

  • پیکربندی و راه اندازی Hive Metastore Configure and Setup Hive Metastore

  • Hive را راه اندازی و تأیید کنید Launch and Validate Hive

  • اسکریپت ها برای مدیریت خوشه تک گره Scripts to Manage Single Node Cluster

  • Spark 2 را بارگیری و نصب کنید Download and Install Spark 2

  • Spark 2 را پیکربندی کنید Configure Spark 2

  • Validate Spark 2 با استفاده از CLIS Validate Spark 2 using CLIs

  • اعتبار سنجی آزمایشگاه Jupyter را تأیید کنید Validate Jupyter Lab Setup

  • Spark 2 را با Jupyterlab ادغام کنید Intergrate Spark 2 with Jupyter Lab

  • Spark 3 را بارگیری و نصب کنید Download and Install Spark 3

  • Spark 3 را پیکربندی کنید Configure Spark 3

  • Spark 3 را با استفاده از CLI تأیید کنید Validate Spark 3 using CLIs

  • Spark 3 را با آزمایشگاه Jupyter ادغام کنید Intergrate Spark 3 with Jupyter Lab

مقدمه ای بر سیستم اکو Hadoop - بررسی اجمالی HDFS Introduction to Hadoop eco system - Overview of HDFS

  • دریافت کمک یا استفاده Getting help or usage

  • لیست کردن پرونده های HDFS Listing HDFS Files

  • مدیریت فهرست های HDFS Managing HDFS Directories

  • کپی کردن پرونده ها از محلی به HDFS Copying files from local to HDFS

  • کپی کردن فایل ها از HDFS به محلی Copying files from HDFS to local

  • دریافت فراداده پرونده ها Getting Files Metadata

  • پیش نمایش داده ها در پرونده های HDFS Previewing Data in HDFS Files

  • اندازه بلوک HDFS HDFS Block Size

  • فاکتور تکرار HDFS HDFS Replication Factor

  • دریافت کاربرد ذخیره سازی HDFS Getting HDFS Storage Usage

  • استفاده از دستورات HDFS Stat USing HDFS Stat Commands

  • مجوزهای پرونده HDFS HDFS File Permissions

  • ویژگی های برتر Overriding Properties

مهندسی داده ها با استفاده از SPARK SQL - شروع به کار Data Engineering using Spark SQL - Getting Started

  • شروع کار - بررسی اجمالی Getting Started - Overview

  • مروری بر مستندات جرقه ای Overview of Spark Documentation

  • راه اندازی و استفاده از Spark SQL CLI Launching and using Spark SQL CLI

  • بررسی اجمالی خصوصیات Spark SQL Overview of Spark SQL Properties

  • اجرای دستورات سیستم عامل با استفاده از Spark SQL Running OS Commands using Spark SQL

  • درک فهرست انبار Understanding Warehouse Directory

  • مدیریت پایگاه داده Spark Metastore Managing Spark Metastore Databases

  • مدیریت جداول Spark Metastore Managing Spark Metastore Tables

  • فراداده جداول را بازیابی کنید Retrieve Metadata of Tables

  • نقش متاستور جرقه یا متاستور هوی Role of Spark Metastore or Hive Metastore

  • ورزش - شروع کار با Spark SQL Exercise - Getting Started with Spark SQL

مهندسی داده با استفاده از Spark SQL - تحولات اساسی Data Engineering using Spark SQL - Basic Transformations

  • تحولات اساسی - مقدمه Basic Transformations - Introduction

  • Spark SQL - بررسی اجمالی Spark SQL - Overview

  • بیان مسئله را تعریف کنید Define Problem Statement

  • جداول را آماده کنید Prepare Tables

  • داده های پروژه Projecting Data

  • فیلتر کردن داده ها Filtering Data

  • پیوستن به جداول - داخلی Joining Tables - Inner

  • پیوستن به جداول - بیرونی Joining Tables - Outer

  • داده های جمع Aggregation Data

  • مرتب سازی داده ها Sorting Data

  • نتیجه گیری - راه حل نهایی Conclusion - Final Solution

مهندسی داده با استفاده از Spark SQL - جداول مدیریتی - پایه DDL و DML Data Engineering using Spark SQL - Managing Tables - Basic DDL and DML

  • مقدمه Introduction

  • جداول Spark Metastore ایجاد کنید Create Spark Metastore Tables

  • مرور کلی از انواع داده ها Overview of Data Types

  • افزودن نظرات Adding Comments

  • بارگذاری داده ها در جداول - محلی Loading Data Into Tables - Local

  • بارگذاری داده ها در جداول - HDFS Loading Data Into Tables - HDFS

  • در حال بارگیری داده ها - ضمیمه و بازنویسی کنید Loading Data - Append and Overwrite

  • ایجاد جداول خارجی Creating External Tables

  • جداول مدیریت شده در مقابل جداول خارجی Managed Tables vs External Tables

  • مروری بر فرمت های فایل Overview of File Formats

  • جداول و پایگاه داده ها را رها کنید Drop Tables and Databases

  • جدا کردن جداول Truncating Tables

  • ورزش - جداول مدیریت شده Exercise - Managed Tables

مهندسی داده با استفاده از Spark SQL - جداول مدیریتی - DML و پارتیشن بندی Data Engineering using Spark SQL - Managing Tables - DML and Partitioning

  • مقدمه - مدیریت جداول - DML و پارتیشن بندی Introduction - Managing Tables - DML and Partitioning

  • مقدمه ای بر پارتیشن بندی Introduction to Partitioning

  • ایجاد جدول با استفاده از پارکت Creating Tables using Parquet

  • بار در مقابل درج Load vs Insert

  • درج داده با استفاده از جدول مرحله Inserting Data using Stage Table

  • ایجاد جداول جدا شده Creating Partitioned Tables

  • افزودن پارتیشن به جداول Adding Partitions to Tables

  • بارگیری داده ها در جداول تقسیم شده Loading Data into Partitioned Tables

  • درج داده در پارتیشن ها Inserting Data into Partitions

  • با استفاده از حالت پارتیشن پویا Using Dynamic Partition Mode

  • ورزش - جداول تقسیم شده Exercise - Partitioned Tables

مهندسی داده با استفاده از Spark SQL - بررسی اجمالی توابع Spark SQL Data Engineering using Spark SQL - Overview of Spark SQL Functions

  • مقدمه - بررسی اجمالی توابع Spark SQL Introduction - Overview of Spark SQL Functions

  • بررسی اجمالی توابع Overview of Functions

  • اعتبارسنجی توابع Validating Functions

  • توابع دستکاری رشته String Manipulation Functions

  • توابع دستکاری تاریخ Date Manipulation Functions

  • بررسی اجمالی توابع عددی Overview of Numeric Functions

  • تبدیل نوع داده Data Type Conversion

  • برخورد با نال ها Dealing with Nulls

  • استفاده از مورد و زمانی که Using CASE and WHEN

  • مثال پرس و جو - تعداد کلمات Query Example - Word Count

مهندسی داده با استفاده از Spark SQL - توابع پنجره Data Engineering using Spark SQL - Windowing Functions

  • مقدمه - توابع پنجره سازی Introduction - Windowing Functions

  • پایگاه داده منابع انسانی را آماده کنید Prepare HR Database

  • بررسی اجمالی عملکردهای پنجره سازی Overview of Windowing Functions

  • تجمع با استفاده از توابع پنجره Aggregations using Windowing Functions

  • با استفاده از LEAD یا LAG Using LEAD or LAG

  • گرفتن مقادیر اول و آخر Getting first and last values

  • رتبه بندی با استفاده از توابع Windowing Ranking using Windowing Functions

  • ترتیب اجرای SQL.cmproj Order of execution of SQL.cmproj

  • بررسی اجمالی زیرمجموعه ها Overview of Subqueries

  • فیلتر کردن نتایج عملکرد پنجره Filtering Windowing Function Results

Apache Spark با استفاده از پایتون - بررسی اجمالی پردازش داده ها Apache Spark using Python - Data Processing Overview

  • شروع Spark Context - pyspark Starting Spark Context - pyspark

  • بررسی اجمالی API های Spark Read Overview of Spark Read APIs

  • درک داده های شرکت های هواپیمایی Understanding airlines data

  • استناد به طرح واره Inferring Schema

  • پیش نمایش داده های شرکت های هواپیمایی Previewing Airlines Data

  • بررسی اجمالی API های Data Frame Overview of Data Frame APIs

  • بررسی اجمالی توابع Overview of Functions

  • بررسی اجمالی API های Spark Write Overview of Spark Write APIs

Apache Spark با استفاده از Python - پردازش داده های ستون Apache Spark using Python - Processing Column Data

  • بررسی اجمالی توابع از پیش تعریف شده در Spark Overview of Predefined Functions in Spark

  • قاب داده ساختگی ایجاد کنید Create Dummy Data Frame

  • دسته بندی توابع Categories of Functions

  • توابع ویژه - رنگی و روشن Special Functions - col and lit

  • توابع مشترک دستکاری رشته Common String Manipulation Functions

  • استخراج رشته ها با استفاده از زیر رشته Extracting Strings using substring

  • استخراج رشته ها با استفاده از split Extracting Strings using split

  • شخصیت های Padding در اطراف رشته ها Padding Characters around Strings

  • کاراکترهای پیمایش از رشته ها Trimming Characters from Strings

  • توابع دستکاری تاریخ و زمان Date and Time Manipulation Functions

  • حساب تاریخ و زمان Date and Time Arithmetic

  • استفاده از توابع تاریخ و زمان Using Date and Time Trunc Functions

  • توابع استخراج تاریخ و زمان Date and Time Extract Functions

  • استفاده از to_date و to_timestamp Using to_date and to_timestamp

  • با استفاده از تابع date_format Using date_format Function

  • برخورد با یونیکس Timestamp Dealing with Unix Timestamp

  • برخورد با نال ها Dealing with Nulls

  • با استفاده از CASE و WHEN Using CASE and WHEN

Apache Spark با استفاده از پایتون - تحولات اساسی Apache Spark using Python - Basic Transformations

  • بررسی اجمالی تحولات اساسی Overview of Basic Transformations

  • فریم های داده برای تحولات اساسی Data Frames for basic transformations

  • فیلتر کردن پایه داده ها Basic Filtering of Data

  • فیلتر کردن نمونه با استفاده از تاریخ Filtering Example using dates

  • اپراتورهای بولی Boolean Operators

  • استفاده از عملکرد IN یا اپراتور isin Using IN Operator or isin Function

  • با استفاده از LIKE Operator یا مانند عملکرد Using LIKE Operator or like Function

  • با استفاده از اپراتور BETWEEN Using BETWEEN Operator

  • برخورد با Nulls هنگام فیلتر کردن Dealing with Nulls while Filtering

  • جمع کل Total Aggregations

  • جمع آوری داده ها با استفاده از groupBy Aggregate data using groupBy

  • داده ها را با استفاده از جمع آوری جمع کنید Aggregate data using rollup

  • داده ها را با استفاده از cube.cmproj جمع کنید Aggregate data using cube.cmproj

  • مروری بر مرتب سازی فریم های داده Overview of Sorting Data Frames

  • راه حل - مسئله 1 - جمع کل جمع آوری ها Solution - Problem 1 - Get Total Aggregations

  • راه حل - مسئله 2 - جمع آوری مجموع مطالب را با استفاده از FlightDate دریافت کنید Solution - Problem 2 - Get Total Aggregations By FlightDate

Apache Spark - پیوستن به مجموعه داده ها Apache Spark - Joining Data Sets

  • مجموعه داده ها را برای پیوستن آماده کنید Prepare Datasets for Joins

  • تجزیه و تحلیل مجموعه داده ها برای پیوستن ها Analyze Datasets for Joins

  • بیانیه های مسئله برای پیوستن ها Problem Statements for Joins

  • مروری بر پیوستن ها Overview of Joins

  • با استفاده از Inner Joins Using Inner Joins

  • چپ یا راست بیرونی بپیوندید Left or Right Outer Join

  • راه حل - تعداد پروازها را در هر فرودگاه ایالات متحده دریافت کنید Solution - Get Flight Count Per US Airport

  • راه حل - تعداد پروازها را در هر ایالت آمریکا دریافت کنید Solution - Get Flight Count Per US State

  • راه حل - فرودگاه های خاموش ایالات متحده را دریافت کنید Solution - Get Dormant US Airports

  • راه حل - بدون داده های اصلی منبع را دریافت کنید Solution - Get Origins without master data

  • راه حل - تعداد پروازها را بدون داده های اصلی دریافت کنید Solution - Get Count of Flights without master data

  • راه حل - تعداد پروازهای هر فرودگاه را بدون داده های اصلی دریافت کنید Solution - Get Count of Flights per Airport without master data

  • راه حل - درآمد روزانه دریافت کنید Solution - Get Daily Revenue

  • راه حل - دریافت درآمد روزانه تا سالانه Solution - Get Daily Revenue rolled up till Yearly

Apache Spark - Spark Metastore Apache Spark - Spark Metastore

  • بررسی اجمالی Spark Metastore Overview of Spark Metastore

  • کاوش کاتالوگ جرقه Exploring Spark Catalog

  • ایجاد جدول های متاستور با استفاده از کاتالوگ Creating Metastore Tables using catalog

  • استنباط طرح برای جداول Inferring Schema for Tables

  • با استفاده از StructType طرحواره را برای جداول تعریف کنید Define Schema for Tables using StructType

  • درج در جداول موجود Inserting into Existing Tables

  • داده های جداول Metastore را بخوانید و پردازش کنید Read and Process data from Metastore Tables

  • جداول پارتیشن بندی شده ایجاد کنید Create Partitioned Tables

  • ذخیره به عنوان جدول تقسیم شده Saving as Partitioned Table

  • ایجاد نمایش های موقت Creating Temporary Views

  • با استفاده از Spark SQL Using Spark SQL

Apache Spark - چرخه زندگی توسعه با استفاده از پایتون Apache Spark - Development Life Cycle using Python

  • محیط مجازی را تنظیم کنید و Pyspark را نصب کنید Setup Virtual Environment and Install Pyspark

  • شروع کار با Pycharm Getting Started with Pycharm

  • گذراندن استدلال زمان اجرا Passing Run Time Arguments

  • دسترسی به متغیرهای محیط OS Accessing OS Environment Variables

  • شروع با Spark Getting Started with Spark

  • ایجاد عملکرد برای Spark Session Create Function for Spark Session

  • داده های نمونه را تنظیم کنید Setup Sample Data

  • داده ها را از Files بخوانید Read Data from Files

  • پردازش داده ها با استفاده از API های Spark Process Data using Spark APIs

  • نوشتن داده در پرونده ها Write Data to Files

  • تأیید اعتبار نوشتن داده ها در پرونده ها Validating Writing Data to Files

  • تولید کد Productionizing the Code

  • تنظیم داده ها برای اعتبار سنجی تولید Setting up Data for Production Validation

  • اجرای برنامه با استفاده از YARN Running Application using YARN

  • اعتبار سنجی دقیق برنامه Detailed Validation of the Application

نمایش نظرات

نظری ارسال نشده است.

آموزش ملزومات مهندسی داده - SQL ، Python و Spark

این دوره غیر فعال شده است.

جزییات دوره
38h 52m
402
Udemy (یودمی) udemy-small
12 فروردین 1400 (آخرین آپدیت رو دریافت می‌کنید، حتی اگر این تاریخ بروز نباشد.)
26,508
4.6 از 5
ندارد
ندارد
ندارد

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Durga Viswanatha Raju Gadiraju Durga Viswanatha Raju Gadiraju

مشاور فناوری و Evangelist 13 سال تجربه در اجرای پروژه های پیچیده با استفاده از مجموعه گسترده ای از فناوری ها از جمله Big Data و Cloud. Iversity، llc - یک شرکت مستقر در ایالات متحده برای ارائه آموزش با کیفیت برای متخصصان فناوری اطلاعات و کارکنان و همچنین راه حل های مشاوره ای برای مشتریان سازمانی ، پیدا کردم. من هزاران نفر از متخصصان فناوری اطلاعات را در زمینه فن آوری های زیادی از جمله Big Data و Cloud آموزش داده ام. ایجاد حرفه ای فناوری اطلاعات برای افراد و ارائه خدمات با کیفیت به مشتریان از اهمیت بالاتری در سازمان ما برخوردار است. به عنوان یک استراتژی ورود ، ارائه آموزش با کیفیت در زمینه های ABCD خواهد بود * توسعه برنامه * داده های بزرگ و هوش تجاری * ابر * پایگاه داده ، پایگاه داده

Annapurna Chinta Annapurna Chinta

مهندس نرم افزار در ITVersity 3 سال تجربه فناوری اطلاعات در زمینه های پایتون ، بیگ دیتا ، لینوکس ، SQL با استفاده از هرگونه RDBMS ، جاوا اسکریپت ، HTML/CSS و غیره دوره های آموزشی. ITVersity، Inc. - سازمانی مستقر در ایالات متحده برای ارائه آموزش های با کیفیت برای متخصصان فناوری اطلاعات و ما سابقه آموزش صدها هزار متخصص در سطح جهان را داریم. ایجاد حرفه ای فناوری اطلاعات برای افرادی که دارای ابزارهای مورد نیاز مانند مواد با کیفیت بالا ، آزمایشگاه ها ، پشتیبانی زنده و غیره هستند تا مهارت و مهارت متقابل در سازمان ما از اهمیت بالاتری برخوردار باشد. در حال حاضر پیشنهادات آموزشی ما در زمینه های زیر متمرکز شده است: * توسعه برنامه با استفاده از Python و SQL * داده های بزرگ و هوش تجاری * ابر

Vamsi Penmetsa Vamsi Penmetsa

بازاریاب دیجیتال ، نویسنده محتوا و مهندس نرم افزار 2 سال تجربه در زمینه Azure cloud ، Automation و SQL. Passionate Digital Creator ، Digital Illustrator و بازاریاب اجتماعی. من در درجه اول محتوا را برای دوره های itversity ایجاد و منتشر می کنم. ITVersity، Inc. - سازمانی مستقر در ایالات متحده برای ارائه آموزش های با کیفیت برای متخصصان فناوری اطلاعات و ما سابقه آموزش صدها هزار متخصص در سطح جهان را داریم. ایجاد حرفه ای فناوری اطلاعات برای افرادی که دارای ابزارهای مورد نیاز مانند مواد با کیفیت بالا ، آزمایشگاه ها ، پشتیبانی زنده و غیره برای مهارت های بالقوه و مهارت های برتر هستند ، برای سازمان ما مهم است. در حال حاضر پیشنهادات آموزشی ما در زمینه های زیر متمرکز شده است: * توسعه برنامه با استفاده از Python و SQL * داده های بزرگ و هوش تجاری * ابر

Udemy (یودمی)

یودمی یکی از بزرگ‌ترین پلتفرم‌های آموزشی آنلاین است که به میلیون‌ها کاربر در سراسر جهان امکان دسترسی به دوره‌های متنوع و کاربردی را فراهم می‌کند. این پلتفرم امکان آموزش در زمینه‌های مختلف از فناوری اطلاعات و برنامه‌نویسی گرفته تا زبان‌های خارجی، مدیریت، و هنر را به کاربران ارائه می‌دهد. با استفاده از یودمی، کاربران می‌توانند به صورت انعطاف‌پذیر و بهینه، مهارت‌های جدیدی را یاد بگیرند و خود را برای بازار کار آماده کنند.

یکی از ویژگی‌های برجسته یودمی، کیفیت بالای دوره‌ها و حضور استادان مجرب و با تجربه در هر حوزه است. این امر به کاربران اعتماد می‌دهد که در حال دریافت آموزش از منابع قابل اعتماد و معتبر هستند و می‌توانند به بهترین شکل ممکن از آموزش‌ها بهره ببرند. به طور خلاصه، یودمی به عنوان یکی از معتبرترین و موثرترین پلتفرم‌های آموزشی آنلاین، به افراد امکان می‌دهد تا به راحتی و با کیفیت، مهارت‌های مورد نیاز خود را ارتقا دهند و به دنبال رشد و پیشرفت شغلی خود باشند.