نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره:
Hive یک انبار داده است که در بالای چارچوب محاسبات توزیع شده Hadoop اجرا می شود. این مجموعه در مجموعه داده های عظیمی کار می کند ، بنابراین این دوره برای درک ویژگی های آن مفید است ، بنابراین می توانید پرس و جوهای کارآمد ، سریع و بهینه بنویسید. انبار داده Hive از پردازش تحلیلی پشتیبانی می کند ، به طور کلی کارهای طولانی مدت را پردازش می کند که مقدار زیادی داده را خرد می کند. با درک آنچه که در پشت صحنه Hive رخ می دهد ، می توانید درخواست های Hive خود را به گونه ای تنظیم کنید که بهینه و کارآمد باشد ، بنابراین تجزیه و تحلیل داده های خود را بسیار کارآمد می کنید. در این دوره ، نوشتن س Quالات تحلیلی پیچیده با Hive ، خواهید فهمید که چگونه می توانید تصمیمات طراحی بگیرید و چگونه داده ها را در جداول Hive خود بچینید. در ابتدا ، شما به تقسیم بندی و سطل سازی می روید ، که روش هایی برای کاهش داده های پردازش یک پرس و جو هستند. هنگام تنظیم جداول ، نحوه و زمان استفاده از پارتیشن بندی ، سطل سازی یا هر دو را پوشش خواهید داد. در مرحله بعدی ، شما با عملیات join همراه با پوشش نحوه برخورد با جداول بزرگ ، و اجرای و بهینه سازی join-maps آشنا خواهید شد. سرانجام ، شما توابع پنجره سازی را یاد می گیرید ، که به شما امکان می دهد پرسشهای پیچیده را به راحتی و بدون جداول متوسط بنویسید. یک بهینه سازی مهم با مجموعه داده های بزرگ. با پایان این دوره ، درک جزئیات کمی را ایجاد می کنید که نوشتن س quالات پیچیده را آسان تر و سریع تر می کند.
سرفصل ها و درس ها
بررسی اجمالی دوره
Course Overview
-
بررسی اجمالی دوره
Course Overview
استفاده از کندو برای س Quالات تحلیلی
Using Hive for Analytical Queries
-
مقدمه و پیش نیازهای این دوره
Introduction and Pre-requisites for This Course
-
یک انبار داده برای پردازش تحلیلی
A Data Warehouse for Analytical Processing
-
کندو به عنوان انبار داده
Hive as a Data Warehouse
-
مدیریت مجموعه داده های عظیم و نوشتن پرسش های سریعتر
Managing Huge Datasets and Writing Faster Queries
-
معرفی مختصر: سطل زنی و پارتیشن بندی
A Brief Introduction: Bucketing and Partitioning
-
معرفی مختصر: به بهینه سازی ها بپیوندید
A Brief Introduction: Join Optimizations
-
معرفی مختصر: توابع پنجره
A Brief Introduction: Window Functions
جداول پارتیشن بندی برای پرس و جوهای سریعتر
Partitioning Tables for Faster Queries
-
پارتیشن بندی: معادل منطقی شاخص ها
Partitioning: The Logical Equivalent of Indexes
-
سازمان داده با پارتیشن
Data Organization with Partitions
-
کار با یک جدول پارتیشن بندی شده مدیریت شده
Working with a Managed Partitioned Table
-
چه زمانی از پارتیشن استفاده می کنید؟
When Would You Use Partitions?
-
بارگیری از پرونده ها در یک جدول پارتیشن بندی شده
Loading from Files into a Partitioned Table
-
تقسیم جدول خارجی
Partitioning an External Table
-
تقسیم کردن معاملات
Partitioning Trade-offs
-
مقدمه ای بر پارتیشن بندی پویا
Introduction to Dynamic Partitioning
-
اجرای پارتیشن بندی پویا
Implementing Dynamic Partitioning
-
پارتیشن بندی چند ستونی
Multi-column Partitioning
ستون های سطل سازی برای پیوستن سریعتر
Bucketing Columns for Faster Joins
-
Bucketing: معادل منطقی جدول های Hash
Bucketing: The Logical Equivalent of Hash Tables
-
اپراتور Modulo به عنوان یک عملکرد هش کردن
The Modulo Operator as a Hashing Function
-
کار با میزهای سطلی
Working with Bucketed Tables
-
سطل سازی در مقابل پارتیشن بندی
Bucketing vs. Partitioning
-
اجرای یک جدول پارتیشن بندی شده و سطل دار
Implementing a Partitioned, Bucketed Table
-
مزایای سطل زنی
Advantages of Bucketing
-
مرتب سازی سوابق درون سطل
Sorting Records Within a Bucket
-
داده برداری از جدول کندو
Sampling Data from a Hive Table
-
نمونه گیری سطل در جداول کندو
Bucket Sampling on Hive Tables
بهینه سازی کندو می پیوندد
Optimizing Hive Joins
-
پشت صحنه: مقدمه ای برای MapReduce
Behind the Scenes: An Introduction to MapReduce
-
بهینه سازی پیوستن: به ستون ها و مشاغل MapReduce بپیوندید
Optimizing Joins: Join Columns and MapReduce Jobs
-
اجرای عملیات پیوستن
Implementing a Join Operation
-
بهینه سازی پیوستن: پخش بزرگترین جدول
Optimizing Joins: Streaming the Largest Table
-
بهینه سازی پیوستن: سطل و پارتیشن بندی در ستون های عضویت
Optimizing Joins: Bucketing and Partitioning on the Join Columns
-
Left Semi-join Operator
The Left Semi-join Operator
-
پشت صحنه: جریان داده MapReduce
Behind the Scenes: The MapReduce Data Flow
-
پشت صحنه: MapReduce برای پیوستن به عملیات
Behind the Scenes: MapReduce for Join Operations
-
Joins only Map: The Inner Join
Map-only Joins: The Inner Join
-
Joins only Map: Join the Left Outer
Map-only Joins: The Left Outer Join
-
پیوستن به نقشه فقط: پیوستن به سمت راست
Map-only Joins: The Right Outer Join
-
پیوستن به نقشه فقط: پیوستن کامل به بیرون
Map-only Joins: The Full Outer Join
-
به نقشه سطل بپیوندید
The Bucket Map Join
توابع پنجره سازی
Windowing Functions
-
مقدمه ای بر عملکردهای پنجره
Introduction to Window Functions
-
کل اجرای و در حال اجرا میانگین
The Running Total and Running Average Implementations
-
توابع پنجره با پارتیشن ها
Window Functions with Partitions
-
محاسبه میانگین متحرک
Calculating Moving Averages
-
محاسبه درصد مشارکت ها
Calculating Percentage Contributions
-
توابع پنجره Row Number و Rank
The Row Number and Rank Window Functions
-
محاسبه Quantiles
Calculating Quantiles
نمایش نظرات