لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش Apache Spark 3 برای مهندسی داده و تجزیه و تحلیل با پایتون [ویدئو]
Apache Spark 3 for Data Engineering and Analytics with Python [Video]
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
Apache Spark 3 یک موتور توزیع شده منبع باز برای پرس و جو و پردازش داده ها است. این دوره به شما درک دقیقی از PySpark و پشته آن ارائه می دهد. این دوره با دقت توسعه و طراحی شده است تا شما را در فرآیند تجزیه و تحلیل داده ها با استفاده از Python Spark راهنمایی کند. نویسنده از یک رویکرد تعاملی در توضیح مفاهیم کلیدی PySpark مانند معماری Spark، اجرای Spark، تبدیل ها و اقدامات با استفاده از API ساخت یافته و موارد دیگر استفاده می کند. شما قادر خواهید بود از قدرت پایتون، جاوا و SQL استفاده کنید و آن را در اکوسیستم Spark استفاده کنید.
شما با درک دقیق معماری Apache Spark و نحوه راه اندازی یک محیط Python برای Spark شروع خواهید کرد. با ایجاد داشبورد در Databricks، تکنیکهای جمعآوری، تمیز کردن و تجسم دادهها را دنبال میکنید. شما یاد خواهید گرفت که چگونه از SQL برای تعامل با DataFrames استفاده کنید. نویسنده بررسی عمیقی از RDD ها ارائه می دهد و آنها را با DataFrames مقایسه می کند.
چالش های متعدد مشکلی در فواصل دوره ارائه می شود تا درک محکمی از مفاهیم تدریس شده در دوره داشته باشید.
بسته کد این دوره در اینجا موجود است: https://github.com/PacktPublishing/Apache-Spark-3-for-Data-Engineering-and-Analytics-with-Python- Learn Spark معماری، تبدیل ها و اقدامات با استفاده از API ساختار یافته
یاد بگیرید که محیط PySpark محلی خود را راه اندازی کنید
یاد بگیرید که DAG (Directed Acyclic Graph) را برای اجرای Spark تفسیر کنید
یاد بگیرید که Spark web UI را تفسیر کنید
API RDD (Resilient Distributed Datasets) را یاد بگیرید
آموزش تجسم (نمودار و داشبورد) داده ها در Databricks این دوره برای توسعه دهندگان پایتون طراحی شده است که مایلند نحوه استفاده از این زبان را برای مهندسی داده و تجزیه و تحلیل با PySpark بیاموزند. هر متخصص مشتاق مهندسی داده و تجزیه و تحلیل. دانشمندان/تحلیلگران داده که مایل به یادگیری یک استراتژی پردازش تحلیلی هستند که می تواند در یک خوشه داده بزرگ مستقر شود. مدیران داده که می خواهند درک عمیق تری از مدیریت داده ها در یک خوشه به دست آورند. از مفاهیم PySpark و SQL برای تجزیه و تحلیل داده ها استفاده کنید * رابط Databricks را درک کنید و از Spark در Databricks استفاده کنید * تغییرات و اقدامات Spark را با استفاده از API RDD (Resilient Distributed Datasets) یاد بگیرید.
سرفصل ها و درس ها
مقدمه ای بر Spark و نصب
Introduction to Spark and Installation
معرفی
Introduction
معماری جرقه
The Spark Architecture
Spark Unified Stack
The Spark Unified Stack
نصب جاوا
Java Installation
نصب Hadoop
Hadoop Installation
نصب پایتون
Python Installation
نصب PySpark
PySpark Installation
Microsoft Build Tools را نصب کنید
Install Microsoft Build Tools
آماده سازی پوشه پروژه
Preparing the Project Folder
PySpark DataFrame، Schema و DataTypes
PySpark DataFrame, Schema, and DataTypes
DataFrame Reader و Writer
DataFrame Reader and Writer
چالش قسمت 1 - مختصر
Challenge Part 1 – Brief
چالش قسمت 1 - آماده سازی داده ها
Challenge Part 1 - Data Preparation
کار با عملیات ساختاریافته
Working with Structured Operations
مدیریت خطاهای عملکرد
Managing Performance Errors
خواندن یک فایل JSON
Reading a JSON File
ستون ها و عبارات
Columns and Expressions
شرایط فیلتر و مکان
Filter and Where Conditions
رها کردن متمایز تکراری ترتیب بر اساس
Distinct Drop Duplicates Order By
ردیف و اتحاد
Rows and Union
اضافه کردن، تغییر نام، و حذف ستون ها
Adding, Renaming, and Dropping Columns
کار با داده های گم شده یا بد
Working with Missing or Bad Data
کار با توابع تعریف شده توسط کاربر
Working with User-Defined Functions
چالش قسمت 2 - مختصر
Challenge Part 2 – Brief
چالش قسمت 2 - حذف ردیف پوچ و رکوردهای بد
Challenge Part 2 - Remove Null Row and Bad Records
چالش قسمت 2 - شهر و ایالت را بدست آورید
Challenge Part 2 - Get the City and State
چالش قسمت 2 - طرحواره را دوباره مرتب کنید
Challenge Part 2 - Rearrange the Schema
چالش قسمت 2 - DataFrame پارتیشن بندی شده را در پارکت بنویسید
Challenge Part 2 - Write Partitioned DataFrame to Parquet
تجمعات
Aggregations
تجمعات - تنظیم داده های خلاصه پرواز
Aggregations - Setting Up Flight Summary Data
تجمعات - تعداد و شمارش متمایز
Aggregations - Count and Count Distinct
تجمعات - حداقل حداکثر مجموع SumDistinct AVG
Aggregations - Min Max Sum SumDistinct AVG
تجمیع با گروه بندی
Aggregations with Grouping
چالش قسمت 3 - مختصر
Challenge Part 3 – Brief
چالش قسمت 3 - داده های 2019 را آماده کنید
Challenge Part 3 - Prepare 2019 Data
چالش قسمت 3 - Q1 بهترین ماه فروش را دریافت کنید
Challenge Part 3 - Q1 Get the Best Sales Month
چالش قسمت 3 - Q2 شهری که بیشترین محصولات را فروخته است را دریافت کنید
Challenge Part 3 - Q2 Get the City that Sold the Most Products
چالش قسمت 3 - Q3 چه زمانی باید تبلیغ کرد
Challenge Part 3 - Q3 When to Advertise
چالش قسمت 3 - محصولات Q4 با هم خریداری شده اند
Challenge Part 3 - Q4 Products Bought Together
مقدمه ای بر Spark SQL و Databricks
Introduction to Spark SQL and Databricks
مقدمه ای بر DataBricks
Introduction to DataBricks
معرفی Spark SQL
Spark SQL Introduction
ثبت حساب در Databricks
Register Account on Databricks
یک خوشه Databricks ایجاد کنید
Create a Databricks Cluster
ایجاد 2 اولین نوت بوک Databricks ما
Creating our First 2 Databricks Notebooks
خواندن فایلهای CSV در DataFrame
Reading CSV Files into DataFrame
ایجاد پایگاه داده و جدول
Creating a Database and Table
درج رکوردها در جدول
Inserting Records into a Table
افشای سوابق بد
Exposing Bad Records
کشف نحوه حذف سوابق بد
Figuring out How to Remove Bad Records
شهر و ایالت را استخراج کنید
Extract the City and State
درج رکوردها در جدول فروش نهایی
Inserting Records to Final Sales Table
بهترین ماه در فروش چه بود؟
What was the Best Month in Sales?
شهری که بیشترین محصولات را فروخته است را دریافت کنید
Get the City that Sold the Most Products
زمان مناسب برای تبلیغات را بدست آورید
Get the Right Time to Advertise
بیشترین محصولات فروخته شده را با هم دریافت کنید
Get the Most Products Sold Together
داشبورد ایجاد کنید
Create a Dashboard
خلاصه
Summary
نمایش نظرات
Packtpub یک ناشر دیجیتالی کتابها و منابع آموزشی در زمینه فناوری اطلاعات و توسعه نرمافزار است. این شرکت از سال 2004 فعالیت خود را آغاز کرده و به تولید و انتشار کتابها، ویدیوها و دورههای آموزشی میپردازد که به توسعهدهندگان و متخصصان فناوری اطلاعات کمک میکند تا مهارتهای خود را ارتقا دهند. منابع آموزشی Packtpub موضوعات متنوعی از جمله برنامهنویسی، توسعه وب، دادهکاوی، امنیت سایبری و هوش مصنوعی را پوشش میدهد. محتوای این منابع به صورت کاربردی و بهروز ارائه میشود تا کاربران بتوانند دانش و تواناییهای لازم برای موفقیت در پروژههای عملی و حرفهای خود را کسب کنند.
دیوید منگادی یک حرفه ای مدیریت داده است که تحت تأثیر قدرت داده ها در زندگی ما قرار دارد و به چندین شرکت کمک کرده است تا برای به دست آوردن مزیت رقابتی و همچنین برآورده کردن الزامات قانونی، داده محورتر شوند. در 15 سال گذشته، او لذت طراحی و پیاده سازی راه حل های انبار داده در صنایع خرده فروشی، مخابراتی و بانکی و اخیراً در پیاده سازی های بیشتر دریاچه داده های بزرگ را داشته است. او علاقه زیادی به فناوری و آموزش برنامه نویسی آنلاین دارد.
نمایش نظرات