آموزش نوشتن سeriesالات تحلیلی پیچیده با کندو

Writing Complex Analytical Queries with Hive

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیویی برای نمایش وجود ندارد.
توضیحات دوره: Hive یک انبار داده است که در بالای چارچوب محاسبات توزیع شده Hadoop اجرا می شود. این مجموعه در مجموعه داده های عظیمی کار می کند ، بنابراین این دوره برای درک ویژگی های آن مفید است ، بنابراین می توانید پرس و جوهای کارآمد ، سریع و بهینه بنویسید. انبار داده Hive از پردازش تحلیلی پشتیبانی می کند ، به طور کلی کارهای طولانی مدت را پردازش می کند که مقدار زیادی داده را خرد می کند. با درک آنچه که در پشت صحنه Hive رخ می دهد ، می توانید درخواست های Hive خود را به گونه ای تنظیم کنید که بهینه و کارآمد باشد ، بنابراین تجزیه و تحلیل داده های خود را بسیار کارآمد می کنید. در این دوره ، نوشتن س Quالات تحلیلی پیچیده با Hive ، خواهید فهمید که چگونه می توانید تصمیمات طراحی بگیرید و چگونه داده ها را در جداول Hive خود بچینید. در ابتدا ، شما به تقسیم بندی و سطل سازی می روید ، که روش هایی برای کاهش داده های پردازش یک پرس و جو هستند. هنگام تنظیم جداول ، نحوه و زمان استفاده از پارتیشن بندی ، سطل سازی یا هر دو را پوشش خواهید داد. در مرحله بعدی ، شما با عملیات join همراه با پوشش نحوه برخورد با جداول بزرگ ، و اجرای و بهینه سازی join-maps آشنا خواهید شد. سرانجام ، شما توابع پنجره سازی را یاد می گیرید ، که به شما امکان می دهد پرسشهای پیچیده را به راحتی و بدون جداول متوسط بنویسید. یک بهینه سازی مهم با مجموعه داده های بزرگ. با پایان این دوره ، درک جزئیات کمی را ایجاد می کنید که نوشتن س quالات پیچیده را آسان تر و سریع تر می کند.

سرفصل ها و درس ها

بررسی اجمالی دوره Course Overview

  • بررسی اجمالی دوره Course Overview

استفاده از کندو برای س Quالات تحلیلی Using Hive for Analytical Queries

  • مقدمه و پیش نیازهای این دوره Introduction and Pre-requisites for This Course

  • یک انبار داده برای پردازش تحلیلی A Data Warehouse for Analytical Processing

  • کندو به عنوان انبار داده Hive as a Data Warehouse

  • مدیریت مجموعه داده های عظیم و نوشتن پرسش های سریعتر Managing Huge Datasets and Writing Faster Queries

  • معرفی مختصر: سطل زنی و پارتیشن بندی A Brief Introduction: Bucketing and Partitioning

  • معرفی مختصر: به بهینه سازی ها بپیوندید A Brief Introduction: Join Optimizations

  • معرفی مختصر: توابع پنجره A Brief Introduction: Window Functions

جداول پارتیشن بندی برای پرس و جوهای سریعتر Partitioning Tables for Faster Queries

  • پارتیشن بندی: معادل منطقی شاخص ها Partitioning: The Logical Equivalent of Indexes

  • سازمان داده با پارتیشن Data Organization with Partitions

  • کار با یک جدول پارتیشن بندی شده مدیریت شده Working with a Managed Partitioned Table

  • چه زمانی از پارتیشن استفاده می کنید؟ When Would You Use Partitions?

  • بارگیری از پرونده ها در یک جدول پارتیشن بندی شده Loading from Files into a Partitioned Table

  • تقسیم جدول خارجی Partitioning an External Table

  • تقسیم کردن معاملات Partitioning Trade-offs

  • مقدمه ای بر پارتیشن بندی پویا Introduction to Dynamic Partitioning

  • اجرای پارتیشن بندی پویا Implementing Dynamic Partitioning

  • پارتیشن بندی چند ستونی Multi-column Partitioning

ستون های سطل سازی برای پیوستن سریعتر Bucketing Columns for Faster Joins

  • Bucketing: معادل منطقی جدول های Hash Bucketing: The Logical Equivalent of Hash Tables

  • اپراتور Modulo به عنوان یک عملکرد هش کردن The Modulo Operator as a Hashing Function

  • کار با میزهای سطلی Working with Bucketed Tables

  • سطل سازی در مقابل پارتیشن بندی Bucketing vs. Partitioning

  • اجرای یک جدول پارتیشن بندی شده و سطل دار Implementing a Partitioned, Bucketed Table

  • مزایای سطل زنی Advantages of Bucketing

  • مرتب سازی سوابق درون سطل Sorting Records Within a Bucket

  • داده برداری از جدول کندو Sampling Data from a Hive Table

  • نمونه گیری سطل در جداول کندو Bucket Sampling on Hive Tables

بهینه سازی کندو می پیوندد Optimizing Hive Joins

  • پشت صحنه: مقدمه ای برای MapReduce Behind the Scenes: An Introduction to MapReduce

  • بهینه سازی پیوستن: به ستون ها و مشاغل MapReduce بپیوندید Optimizing Joins: Join Columns and MapReduce Jobs

  • اجرای عملیات پیوستن Implementing a Join Operation

  • بهینه سازی پیوستن: پخش بزرگترین جدول Optimizing Joins: Streaming the Largest Table

  • بهینه سازی پیوستن: سطل و پارتیشن بندی در ستون های عضویت Optimizing Joins: Bucketing and Partitioning on the Join Columns

  • Left Semi-join Operator The Left Semi-join Operator

  • پشت صحنه: جریان داده MapReduce Behind the Scenes: The MapReduce Data Flow

  • پشت صحنه: MapReduce برای پیوستن به عملیات Behind the Scenes: MapReduce for Join Operations

  • Joins only Map: The Inner Join Map-only Joins: The Inner Join

  • Joins only Map: Join the Left Outer Map-only Joins: The Left Outer Join

  • پیوستن به نقشه فقط: پیوستن به سمت راست Map-only Joins: The Right Outer Join

  • پیوستن به نقشه فقط: پیوستن کامل به بیرون Map-only Joins: The Full Outer Join

  • به نقشه سطل بپیوندید The Bucket Map Join

توابع پنجره سازی Windowing Functions

  • مقدمه ای بر عملکردهای پنجره Introduction to Window Functions

  • کل اجرای و در حال اجرا میانگین The Running Total and Running Average Implementations

  • توابع پنجره با پارتیشن ها Window Functions with Partitions

  • محاسبه میانگین متحرک Calculating Moving Averages

  • محاسبه درصد مشارکت ها Calculating Percentage Contributions

  • توابع پنجره Row Number و Rank The Row Number and Rank Window Functions

  • محاسبه Quantiles Calculating Quantiles

نمایش نظرات

آموزش نوشتن سeriesالات تحلیلی پیچیده با کندو
جزییات دوره
3h 2m
47
Pluralsight (پلورال سایت) Pluralsight (پلورال سایت)
(آخرین آپدیت)
58
4.8 از 5
دارد
دارد
دارد
Janani Ravi
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Janani Ravi Janani Ravi

معمار و مهندس داده خبره Google Cloud

Janani Ravi یک معمار و مهندس داده خبره Google cloud است.

جنانی مدرک کارشناسی ارشد خود را در رشته مهندسی برق از دانشگاه استنفورد دریافت کرد و برای مایکروسافت، گوگل و فلیپ کارت کار کرده است. او یکی از بنیانگذاران Loonycorn است، یک استودیوی محتوا که بر ارائه محتوای با کیفیت بالا برای توسعه مهارت های فنی متمرکز است، جایی که او عشق خود را به فناوری با اشتیاق خود به تدریس ترکیب می کند.