آموزش Sqoop، Hive و Impala برای تحلیلگران داده (CCA 159 سابق)

Sqoop, Hive and Impala for Data Analysts (Formerly CCA 159)

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: Hands on Sqoop، Hive و Impala برای تحلیلگران داده بررسی اجمالی اکوسیستم Big Data مانند Hadoop HDFS، YARN، Map Reduce، Sqoop، Hive و غیره نمای کلی از دستورات HDFS مانند put یا copyFromLocal، get یا copyToLocal، cat و غیره همراه با مفاهیم مانند اندازه بلوک، ضریب تکرار، و غیره مدیریت جداول در Hive Metastore با استفاده از دستورات DDL بارگذاری یا درج داده ها در جداول Hive Metastore با استفاده از دستوراتی مانند LOAD و INSERT نمای کلی توابع در Hive برای دستکاری رشته ها، تاریخ ها و غیره نوشتن پرس و جوهای پایه Hive QL با استفاده از WHERE، JOIN، GROUP BY، و غیره توابع تحلیلی یا پنجره‌سازی در Hive بررسی اجمالی Impala و درک شباهت‌ها و تفاوت‌های Hive و Impala شروع کار با Sqoop با بررسی اسناد رسمی و همچنین کاوش در دستوراتی مانند Sqoop eval Importing Data از جداول RDBMS به HDFS با استفاده از Sqoop Import وارد کردن داده ها از جداول RDBMS به جداول Hive با استفاده از Sqoop Import صادرات داده ها از جداول Hive یا HDFS به RDBMS با استفاده از Sqoop Export Increm ental Imports با استفاده از Sqoop Import به HDFS یا Hive Tables پیش نیازها: یک رایانه 64 بیتی با حداقل 8 گیگابایت رم بسیار مطلوب است دسترسی به Multinode Cluster یا ITVersity Labs ما (اشتراک پولی مورد نیاز است) راه اندازی Cloudera QuickStart VM در لپ تاپ های سطح بالا (16 گیگابایت) RAM و Quad Core) - دستورالعمل‌های ارائه شده اما پشتیبانی نمی‌شود مهارت‌های اولیه رایانه توانایی نوشتن پرس‌وجوهای SQL مبتنی بر و استفاده از محیط مبتنی بر لینوکس

به عنوان بخشی از Sqoop، Hive، و Impala برای تحلیلگران داده (CCA 159 سابق)، شما مهارت های کلیدی مانند Sqoop، Hive و Impala را خواهید آموخت.

این دوره جامع همه جنبه‌های گواهینامه را با نمونه‌های واقعی و مجموعه داده‌ها پوشش می‌دهد.

نمای کلی از اکوسیستم کلان داده

  • نمای کلی توزیع ها و ابزارهای مدیریت

  • پرونده‌های ویژگی‌ها و ویژگی‌ها - دستورالعمل‌های عمومی

  • سیستم فایل توزیع شده Hadoop

  • YARN و Map Reduce2

  • ارسال Map ReduceJob

  • تعیین تعداد نقشه‌بردارها و کاهش‌دهنده‌ها

  • آشنایی با ویژگی های پیکربندی YARN و Map Reduce

  • ویژگی‌های شغلی را بررسی و لغو کنید

  • بازبینی نقشه کاهش گزارش کار

  • Map Reduce Job Counter

  • نمای کلی Hive

  • پایگاه های داده و موتورهای جستجو

  • مشاهده اجمالی مصرف داده در کلان داده

  • پردازش داده با استفاده از Spark

دستورات HDFS برای مدیریت فایل ها

  • معرفی HDFS برای امتحانات گواهینامه

  • نمای کلی HDFS و PropertiesFiles

  • نمای کلی Hadoop CLI

  • فهرست کردن فایل ها در HDFS

  • فضاهای کاربری یا فهرست راهنمای اصلی در HDFS

  • ایجاد فهرست راهنماها در HDFS

  • کپی کردن فایل ها و فهرست ها در HDFS

  • نمای کلی مجوزهای فایل و فهرست

  • دریافت فایل ها و فهرست ها از HDFS

  • پیش نمایش فایل های متنی در HDFS

  • کپی کردن یا انتقال فایل‌ها و فهرست‌ها در HDFS

  • درک اندازه فایل سیستم و فایل ها

  • نمای کلی اندازه بلوک و ReplicationFactor

  • دریافت فراداده فایل با استفاده از hdfs fsck

  • منابع و تمرینات

شروع به کار Hive

  • نمای کلی راهنمای زبان Hive

  • راه اندازی و استفاده از Hive CLI

  • نمای کلی از ویژگی های کندو

  • Hive CLI History and hiverc

  • اجرای دستورات HDFS در Hive CLI

  • آشنایی با فهرست انبار

  • ایجاد و استفاده از پایگاه داده Hive

  • ایجاد و توصیف جداول Hive

  • متاداده جداول را با استفاده از DESCRIBE بازیابی کنید

  • نقش پایگاه داده Hive Metastore

  • نمای کلی beeline

  • اجرای دستورات و پرسش‌های Hive با استفاده از beeline

ایجاد جداول در Hive با استفاده از Hive QL

  • ایجاد جداول در Hive - سفارشات

  • نمای کلی انواع داده های پایه در Hive

  • افزودن نظرات به ستون ها و جداول

  • بارگیری داده ها در جداول Hive از سیستم فایل محلی

  • بارگیری داده ها در جداول Hive از HDFS

  • بارگیری داده ها - بازنویسی در مقابل الحاق

  • ایجاد جداول خارجی در Hive

  • مشخص کردن مکان برای جداول Hive

  • تفاوت بین جدول مدیریت شده و جدول خارجی

  • جداکننده‌های پیش‌فرض در جداول Hive با استفاده از فایل متنی

  • نمای کلی فرمت‌های فایل در Hive

  • تفاوت‌های Hive و RDBMS

  • جداول را در Hive کوتاه و رها کنید

  • منابع و تمرینات

بارگیری/درج داده ها در جداول Hive با استفاده از Hive QL

  • مقدمه ای بر پارتیشن بندی و سطل بندی

  • ایجاد جداول با استفاده از قالب Orc - order_items

  • درج داده ها در جداول با استفاده از Stage Tables

  • بارگیری در مقابل درج در Hive

  • ایجاد جداول پارتیشن بندی شده در Hive

  • افزودن پارتیشن ها به جداول در Hive

  • در حال بارگیری در پارتیشن ها در جداول Hive

  • درج داده ها در پارتیشن ها در جداول Hive

  • درج با استفاده از حالت پارتیشن پویا

  • ایجاد جداول سطلی در Hive

  • درج داده ها در جداول سطلی

  • سطوبندی با مرتب سازی

  • نمای کلی تراکنش‌های ACID

  • جدول هایی برای تراکنش ها ایجاد کنید

  • درج رکوردهای فردی در جداول Hive

  • به‌روزرسانی و حذف داده‌ها در جداول Hive

نمای کلی توابع در Hive

  • نمای کلی توابع

  • توابع اعتبارسنجی

  • دستکاری رشته - تبدیل مورد و طول

  • دستکاری رشته - substr و split

  • دستکاری رشته - توابع برش و لایه برداری

  • دستکاری رشته - معکوس و الحاق چند رشته

  • دستکاری تاریخ - تاریخ و مهر زمانی فعلی

  • دستکاری تاریخ - حساب تاریخ

  • دستکاری تاریخ - trunc

  • دستکاری تاریخ - با استفاده از قالب تاریخ

  • دستکاری تاریخ - توابع استخراج

  • دستکاری تاریخ - برخورد با مهر زمانی یونیکس

  • نمای کلی توابع عددی

  • تبدیل نوع داده با استفاده از Cast

  • بررسی مقادیر پوچ

  • مثال پرس و جو - دریافت تعداد کلمات

نوشتن پرس و جوهای اساسی در Hive

  • نمای کلی SQL یا Hive QL

  • چرخه عمر اجرای Query Hive

  • مرور گزارش‌های جستجوهای Hive

  • پروژه‌گذاری داده‌ها با استفاده از انتخاب و نمای کلی از

  • مقادیر شرطی را با استفاده از CASE و WHEN استخراج کنید

  • ارائه ارزش‌های متمایز

  • فیلتر کردن داده ها با استفاده از بند Where

  • عملیات بولی در بند Where

  • Bolean OR vs IN Operator

  • فیلتر کردن داده ها با استفاده از اپراتور LIKE

  • انجام تجمیع پایه با استفاده از توابع جمع

  • انجام تجمیع با استفاده از GROUP BY

  • فیلتر کردن داده های انبوه با استفاده از HAVING

  • مرتب‌سازی جهانی با استفاده از ORDER BY

  • نمای کلی DISTRIBUTE BY

  • مرتب‌سازی داده‌ها در گروه‌ها با استفاده از SORT BY

  • استفاده از CLUSTERED BY

پیوستن به مجموعه داده ها و تنظیم عملیات در Hive

  • نمای کلی از جستارهای فرعی تودرتو

  • پرسمان‌های فرعی تودرتو - با استفاده از اپراتور IN

  • پرسمان‌های فرعی تودرتو - با استفاده از اپراتور EXISTS

  • نمای کلی Joins در Hive

  • اجرای اتصالات داخلی با استفاده از Hive

  • اجرای اتصالات بیرونی با استفاده از Hive

  • اجرای اتصالات بیرونی کامل با استفاده از Hive

  • Map Side Join و Reduce Side Join در Hive

  • پیوستن به Hive با استفاده از Legacy Syntax

  • پیوستن متقاطع در Hive

  • نمای کلی از مجموعه عملیات در Hive

  • Set Union را بین دو نتیجه Hive Query انجام دهید

  • تنظیم عملیات - تقاطع و منهای پشتیبانی نمی شود

عملکردهای Windowing یا Analytics در Hive

  • پایگاه داده منابع انسانی را در Hive با جدول کارکنان آماده کنید

  • نمای کلی عملکردهای Analytics یا Windowing در Hive

  • انجام تجمیع با استفاده از Hive Queries

  • برای دریافت درآمد روزانه با استفاده از CTAS در Hive جداول ایجاد کنید

  • دریافت لید و تاخیر با استفاده از توابع پنجره در Hive

  • دریافت اولین و آخرین مقادیر با استفاده از توابع Windowing در Hive

  • اعمال رتبه با استفاده از توابع Windowing در Hive

  • اعمال رتبه متراکم با استفاده از توابع پنجره در Hive

  • اعمال شماره ردیف با استفاده از توابع پنجره در Hive

  • تفاوت بین رتبه، رتبه_ متراکم، و شماره_ردیف در Hive

  • درک ترتیب اجرای Hive Queries

  • نمای کلی از جستارهای فرعی تودرتو در Hive

  • فیلتر کردن داده ها در عملکردهای بالای پنجره در Hive

  • دریافت 5 محصول برتر بر اساس درآمد برای هر روز با استفاده از عملکردهای پنجره در Hive - Recap

اجرای پرس و جوها با استفاده از Impala

  • معرفی ایمپالا

  • نقش ایمپالا دیمون

  • فروشگاه ایالتی ایمپالا و سرور کاتالوگ

  • نمای کلی Impala Shell

  • رابطه بین Hive و Impala

  • نمای کلی ایجاد پایگاه‌های داده و جداول با استفاده از Impala

  • بارگیری و درج داده ها در جداول با استفاده از Impala

  • اجرای پرس و جوها با استفاده از Impala Shell

  • مرور گزارش‌های جستجوهای ایمپالا

  • همگام سازی Hive و Impala - با استفاده از فراداده نامعتبر

  • اجرای اسکریپت ها با استفاده از Impala Shell

  • تکالیف - با استفاده از داده های NYSE

  • تکالیف - راه حل

شروع به کار با Sqoop

  • معرفی Sqoop

  • پایگاه داده منبع را تأیید کنید - MySQL

  • JDBC Jar را برای اتصال به MySQL مرور کنید

  • دریافت راهنمایی با استفاده از Sqoop CLI

  • نمای کلی راهنمای کاربر Sqoop

  • تأیید اعتبار ادغام Sqoop و MySQL با استفاده از پایگاه داده Sqoop List

  • فهرست کردن جداول در پایگاه داده با استفاده از Sqoop

  • پرس و جوها را در MySQL با استفاده از Sqoop Eval اجرا کنید

  • درک گزارش‌ها در Sqoop

  • تغییر مسیر Sqoop Job Logs به Log Files

وارد کردن داده از MySQL به HDFS با استفاده از Sqoop Import

  • نمای کلی از فرمان واردات Sqoop

  • سفارش‌ها را با استفاده از target-dir وارد کنید

  • وارد کردن اقلام سفارش با استفاده از warehouse-dir

  • مدیریت فهرست‌های راهنمای HDFS

  • جریان اجرای واردات Sqoop

  • مرور گزارش‌های Sqoop Import

  • Sqoop Import تعیین تعداد Mappers

  • فایل های خروجی تولید شده توسط Sqoop Import را مرور کنید

  • ورود قالب‌های فایل پشتیبانی‌شده Sqoop

  • تأیید اعتبار فایل‌های avro با استفاده از ابزار Avro

  • وارد کردن Sqoop با استفاده از فشرده سازی

Apache Sqoop - وارد کردن داده به HDFS - سفارشی کردن

  • مقدمه ای بر سفارشی سازی Sqoop Import

  • وارد کردن با تعیین ستون‌ها

  • وارد کردن Sqoop با استفاده از Boundary Query

  • هنگام فیلتر کردن داده‌های غیرضروری وارد کردن را انجام دهید

  • Sqoop Import با استفاده از Split By برای توزیع واردات با استفاده از ستون غیر پیش‌فرض

  • دریافت نتایج جستجو با استفاده از Sqoop eval

  • برخورد با جداول با کلیدهای ترکیبی هنگام استفاده از Sqoop Import

  • برخورد با جداول دارای فیلدهای کلید غیر عددی در حین استفاده از Sqoop Import

  • برخورد با جداول بدون فیلدهای کلیدی هنگام استفاده از Sqoop Import

  • استفاده از تنظیم خودکار به یک نگاشت برای استفاده از تنها یک نگاشت هنگام وارد کردن داده ها با استفاده از Sqoop از جداول بدون فیلد کلیدی

  • جداکننده‌های پیش‌فرض استفاده شده توسط Sqoop Import برای قالب فایل متنی

  • تعیین جداکننده برای Sqoop Import با استفاده از قالب فایل متنی

  • برخورد با مقادیر پوچ با استفاده از Sqoop Import

  • Tables Multiple را از پایگاه داده منبع با استفاده از Sqoop Import وارد کنید

وارد کردن داده از MySQL به جداول Hive با استفاده از Sqoop Import

  • نمای کلی سریع Hive

  • پایگاه داده Hive را برای Sqoop Import ایجاد کنید

  • برای Sqoop Import جدول خالی Hive ایجاد کنید

  • داده ها را با استفاده از Sqoop Import از جدول پایگاه داده منبع به Hive Table وارد کنید

  • مدیریت Hive Tables هنگام وارد کردن داده با استفاده از Sqoop Import با استفاده از Overwrite

  • مدیریت جداول Hive هنگام وارد کردن داده‌ها با استفاده از Sqoop Import - اگر جدول از قبل وجود داشته باشد خطاها وجود دارد

  • درک جریان اجرای Sqoop Import در جداول Hive

  • بازبینی فایل‌های تولید شده توسط Sqoop Import در Hive Tables

  • Sqoop Delimiters در مقابل Hive Delimiters

  • فرمت های مختلف فایل پشتیبانی شده توسط Sqoop Import هنگام وارد کردن به جداول Hive

  • Sqoop وارد کردن همه جداول به Hive از پایگاه داده منبع

صادرات داده از HDFS/Hive به MySQL با استفاده از Sqoop Export

  • مقدمه ای بر صادرات Sqoop

  • داده ها را برای Sqoop Export آماده کنید

  • جدول در MySQL برای Sqoop Export ایجاد کنید

  • صادرات ساده Sqoop را از جدول HDFS به MySQL انجام دهید

  • درک جریان اجرای Sqoop Export

  • تعیین تعداد Mapperها برای Sqoop Export

  • عیب یابی مشکلات مربوط به Sqoop Export

  • ادغام یا اضافه کردن داده ها با استفاده از Sqoop Export - نمای کلی

  • نمای کلی سریع MySQL - Upsert با استفاده از Sqoop Export

  • داده ها را با استفاده از کلید Update با استفاده از Sqoop Export به روز کنید

  • ادغام داده ها با استفاده از allowInsert در Sqoop Export

  • تعیین ستون ها با استفاده از Sqoop Export

  • تعیین جداکننده ها با استفاده از Sqoop Export

  • استفاده از Stage Table برای Sqoop Export

ارسال مشاغل Sqoop و واردات افزایشی Sqoop

  • مقدمه ای بر Sqoop Jobs

  • افزودن فایل رمز عبور برای Sqoop Jobs

  • ایجاد شغل Sqoop

  • اجرای Sqoop Job

  • نمای کلی بارهای افزایشی با استفاده از Sqoop

  • وارد کردن افزایشی Sqoop - با استفاده از Where

  • وارد کردن افزایشی Sqoop - با استفاده از حالت افزودن

  • وارد کردن افزایشی Sqoop - ایجاد جدول

  • وارد کردن افزایشی Sqoop - ایجاد کار Sqoop

  • واردات افزایشی Sqoop - اجرای کار

  • واردات افزایشی Sqoop - افزودن داده های اضافی

  • واردات افزایشی Sqoop - اجرای مجدد کار

  • وارد کردن افزایشی Sqoop - با استفاده از آخرین تغییر

در اینجا اهداف این دوره آمده است.

ساختار را برای داده ها ارائه دهید

از عبارات زبان تعریف داده (DDL) برای ایجاد یا تغییر ساختارها در متاستور برای استفاده توسط Hive و Impala استفاده کنید.

  • جدول‌ها را با استفاده از انواع داده‌ها، جداکننده‌ها و قالب‌های فایل ایجاد کنید

  • جدول جدید را با استفاده از جداول موجود برای تعریف طرحواره ایجاد کنید

  • با ایجاد جداول پارتیشن بندی شده در متاستور، عملکرد پرس و جو را بهبود بخشید

  • جدولها را برای اصلاح طرح موجود تغییر دهید

  • نماها را به منظور ساده کردن پرس و جوها ایجاد کنید

تجزیه و تحلیل داده ها

از عبارات Query Language (QL) در Hive و Impala برای تجزیه و تحلیل داده‌ها در خوشه استفاده کنید.

  • گزارش‌ها را با استفاده از دستورات SELECT از جمله اتحادیه‌ها و پرسش‌های فرعی تهیه کنید

  • محاسبه آمار کل، مانند مجموع و میانگین، در طول یک پرس و جو

  • با استفاده از دستورات پیوستن، پرس و جوهایی را در برابر چندین منبع داده ایجاد کنید

  • با استفاده از توابع داخلی قالب خروجی پرس و جوها را تغییر دهید

  • پرسش‌ها را در گروهی از ردیف‌ها با استفاده از توابع پنجره‌سازی انجام دهید

تمرین‌هایی برای داشتن تمرین کافی برای بهتر شدن در Sqoop و همچنین نوشتن عبارت‌های جستجو با استفاده از Hive و Impala ارائه می‌شود.

همه نسخه‌های نمایشی در کلاستر Big Data پیشرفته ما ارائه می‌شوند. اگر خوشه چند گره ندارید، می توانید در آزمایشگاه های ما ثبت نام کنید و در خوشه چند گره ما تمرین کنید. می‌توانید Sqoop و Hive را در خوشه تمرین کنید.


سرفصل ها و درس ها

معرفی Introduction

  • آزمون گواهینامه CCA 159 - بررسی اجمالی CCA 159 Certification Exam - Overview

  • ابزار آماده سازی Tools for preparation

  • دریافت جزئیات در مورد آزمون Getting Details about the Exam

  • ثبت نام در آزمون Signing up for the Exam

با استفاده از Cloudera QuickStart VM Using Cloudera QuickStart VM

  • Virtual Box را دانلود و نصب کنید Download and Install Virtual Box

  • راه اندازی Cloudera QuickStart VM Setup Cloudera QuickStart VM

  • نمای کلی Cloudera QuickStart VM Overview of Cloudera QuickStart VM

  • مروری بر پایگاه های داده MySQL Overview of MySQL Databases

  • راه اندازی پایگاه داده NYSE در MySQL Setup NYSE Database in MySQL

  • مروری بر HDFS و مجموعه داده های راه اندازی Overview of HDFS and Setup Datasets

  • نمای کلی Hive و ایجاد جدول خارجی Overview of Hive and Create External Table

  • اعتبارسنجی Sqoop Validate Sqoop

با استفاده از آزمایشگاه های ITVersity Using ITVersity labs

  • ثبت نام در آزمایشگاه ها Signing up for the labs

  • اتصال به گره دروازه خوشه Connecting to the gateway node of the cluster

  • مروری بر HDFS در خوشه Overview of HDFS in the cluster

  • استفاده از Hive در خوشه Using Hive in the cluster

  • درک MySQL در کلاستر Understanding MySQL in the cluster

  • اجرای دستورات Sqoop در کلاستر Running Sqoop Commands in the cluster

نمای کلی سیستم زیست محیطی Big Data Overview of Big Data eco system

  • مروری بر توزیع ها و ابزارهای مدیریتی مانند آمبری Overview of Distributions and Management Tools such as Ambari

  • فایل‌های ویژگی‌ها و ویژگی‌های ابزارهای داده بزرگ - دستورالعمل‌های عمومی Properties and Properties Files of Big Data Tools - General Guidelines

  • سیستم فایل توزیع شده Hadoop - بررسی اجمالی سریع Hadoop Distributed File System - Quick Overview

  • محاسبات توزیع شده با استفاده از YARN و Map Reduce 2 - بررسی اجمالی سریع Distributed Computing using YARN and Map Reduce 2 - Quick Overview

  • ارسال نقشه کاهش کار در چارچوب YARN Submitting Map Reduce Job in YARN Framework

  • تعیین تعداد نقشه کش ها و کاهش دهنده ها Determining Number of Mappers and Reducers

  • آشنایی با ویژگی های پیکربندی YARN و Map Reduce Understanding YARN and Map Reduce Configuration Properties

  • بررسی و نادیده گرفتن نقشه ویژگی‌های زمان اجرای کار را کاهش می‌دهد Reviewing and Overriding Map Reduce Job Run Time Properties

  • بررسی Map Reduce Job Logs - با استفاده از Resource Manager و Job History Server UI Reviewing Map Reduce Job Logs - using Resource Manager and Job History Server UI

  • نقشه کاهش کار شمار Map Reduce Job Counters

  • نمای کلی کندو Overview of Hive

  • پایگاه های داده در Big Data و Query Engines Databases in Big Data and Query Engines

  • مروری بر ابزارهای جذب داده در داده های بزرگ Overview of Data Ingestion Tools in Big Data

مروری بر دستورات HDFS Overview of HDFS Commands

  • مقدمه ای بر HDFS برای آزمون های صدور گواهینامه Introduction to HDFS for Certification Exams

  • بررسی اجمالی فایل های HDFS و Properties Overview of HDFS and Properties Files

  • نمای کلی دستور "hadoop fs" یا "hdfs dfs". Overview of "hadoop fs" or "hdfs dfs" command

  • لیست کردن فایل ها در HDFS Listing Files in HDFS

  • فضاهای کاربری یا فهرست های اصلی در HDFS User Spaces or Home Directories in HDFS

  • ایجاد دایرکتوری در HDFS Creating Directory in HDFS

  • کپی کردن فایل ها و دایرکتوری ها در HDFS Copying Files and Directories into HDFS

  • بررسی اجمالی مجوزهای فایل و دایرکتوری File and Directory Permissions Overview

  • دریافت فایل ها و دایرکتوری ها از HDFS Getting Files and Directories from HDFS

  • پیش نمایش فایل های متنی در HDFS - cat and tail Previewing Text Files in HDFS - cat and tail

  • کپی یا انتقال فایل ها از یک مکان HDFS به مکان HDFS دیگر Copying or Moving Files from one HDFS location to other HDFS location

  • درک اندازه فایل سیستم و مجموعه داده - با استفاده از df و du Understanding Size of the File System and Data Sets - using df and du

  • مروری بر اندازه بلوک و ضریب تکرار Overview of Block Size and Replication Factor

  • دریافت ابرداده فایل ها با استفاده از "hdfs fsck" Getting metadata of files using "hdfs fsck"

  • منابع و تمرینات Resources and Exercises

Apache Hive - شروع به کار Apache Hive - Getting Started

  • مروری بر راهنمای زبان Hive Overview of Hive Language Manual

  • راه اندازی و استفاده از Hive CLI Launching and Using Hive CLI

  • بررسی اجمالی ویژگی های کندو - SET و hiverc Overview of Hive Properties - SET and .hiverc

  • Hive CLI History و .hiverc Hive CLI History and .hiverc

  • اجرای دستورات HDFS با استفاده از Hive CLI Running HDFS Commands using Hive CLI

  • آشنایی با فهرست انبار Understanding Warehouse Directory

  • ایجاد پایگاه داده در Hive و جابجایی به پایگاه داده Creating Database in Hive and Switching to the Database

  • ایجاد First Table در Hive و فهرست کردن جداول Creating First Table in Hive and list the tables

  • بازیابی فراداده جداول Hive با استفاده از DESCRIBE (EXTENDED و FORMATTED) Retrieve metadata of Hive Tables using DESCRIBE (EXTENDED and FORMATTED)

  • نقش Hive Metastore Role of Hive Metastore

  • بررسی اجمالی beeline - جایگزین Hive CLI Overview of beeline - Alternative to Hive CLI

  • اجرای Hive Queries با استفاده از Beeline Running Hive Queries using Beeline

Apache Hive - مدیریت جداول در Hive Apache Hive - Managing Tables in Hive

  • ایجاد جداول در Hive - orders Create tables in Hive - orders

  • مروری بر انواع داده ها در Hive Overview of Data Types in Hive

  • اضافه کردن نظرات به ستون ها و جداول Adding Comments to Columns and Tables

  • بارگیری داده ها در جداول Hive از سیستم فایل محلی Loading Data into Hive Tables from Local File System

  • بارگیری داده ها در جداول Hive از محل HDFS Loading Data into Hive Tables from HDFS Location

  • بارگیری داده ها در جداول Hive - بازنویسی در مقابل الحاق Loading Data into Hive Tables - Overwrite vs. Append

  • ایجاد جداول خارجی در Hive Creating External Tables in Hive

  • تعیین مکان برای جداول Hive Specifying Location for Hive Tables

  • جداول مدیریت شده در مقابل جداول خارجی Managed Tables vs. External Tables

  • جداکننده های پیش فرض در جداول Hive با استفاده از فرمت فایل متنی Default Delimiters in Hive Tables using Text File Format

  • مروری بر فرمت های فایل - بند ذخیره شده به عنوان Overview of File Formats - STORED AS Clause

  • تفاوت بین Hive و RDBMS Differences between Hive and RDBMS

  • کوتاه کردن و انداختن جداول در Hive Truncating and Dropping tables in Hive

  • منابع و تمرینات Resources and Exercises

Apache Hive - مدیریت جداول در Hive - Partitioning and Bucketing Apache Hive - Managing Tables in Hive - Partitioning and Bucketing

  • مقدمه ای بر پارتیشن بندی و سطل سازی در Hive Introduction to Partitioning and Bucketing in Hive

  • ایجاد جداول با استفاده از فرمت فایل orc - order_items Creating Tables using orc File Format - order_items

  • درج داده ها در order_item با استفاده از جدول مرحله Inserting Data into order_items using stage table

  • آیا می‌توانیم از دستور LOAD برای دریافت داده‌ها به order_items با فرمت فایل orc استفاده کنیم؟ Can we use LOAD Command to get data into order_items with orc file format?

  • ایجاد جداول پارتیشن بندی شده در Hive - orders_part با کلید order_month Creating Partitioned Tables in Hive - orders_part with order_month as key

  • اضافه کردن پارتیشن به جداول در Hive Adding Partitions to Tables in Hive

  • بارگیری در پارتیشن ها در جداول Hive Loading into Partitions in Hive Tables

  • درج داده ها در پارتیشن ها در جداول Hive Inserting Data into Partitions in Hive Tables

  • درج داده ها در جداول پارتیشن بندی شده - با استفاده از حالت پارتیشن پویا Inserting data into Partitioned Tables - Using dynamic partition mode

  • ایجاد جداول سطلی - orders_buck و order_items_buck Creating Bucketed Tables - orders_buck and order_items_buck

  • درج داده ها در جداول سطلی Inserting Data Into Bucketed Tables

  • سطل سازی با مرتب سازی Bucketing with Sorting

  • بررسی اجمالی تراکنش های ACID در Hive Overview of ACID Transactions in Hive

  • جداول برای تراکنش های ACID ایجاد کنید Create Tables for ACID Transactions

  • درج رکوردهای فردی در جداول Hive Inserting individual records into Hive Tables

  • به روز رسانی و حذف داده ها در جداول Hive Bucketed Updating and Deleting data in Hive Bucketed Tables

Apache Hive - مروری بر توابع Apache Hive - Overview of Functions

  • بررسی اجمالی توابع Overview of Functions

  • اعتبارسنجی توابع Validating Functions

  • دستکاری رشته - تبدیل مورد و طول String Manipulation - Case Conversion and Length

  • دستکاری رشته - substr و split String Manipulation - substr and split

  • دستکاری رشته - توابع پیرایش و بالشتک String Manipulation - trimming and padding Functions

  • دستکاری رشته - معکوس و الحاق چند رشته String Manipulation - Reverse and Concatenating multiple strings

  • دستکاری تاریخ - دریافت تاریخ و مهر زمانی فعلی Date Manipulation - Getting Current Date and Timestamp

  • دستکاری تاریخ - حساب تاریخ Date Manipulation - Date Arithmetic

  • دستکاری تاریخ - تنه Date Manipulation - trunc

  • دستکاری تاریخ - استخراج اطلاعات با استفاده از date_format Date Manipulation - Extracting information using date_format

  • دستکاری تاریخ - استخراج اطلاعات با استفاده از سال، ماه، روز و غیره Date Manipulation - Extracting information using year, month, day etc

  • دستکاری تاریخ - برخورد با زمان یونیکس Date Manipulation - Dealing with Unix Timestamp

  • مروری بر توابع عددی Overview of Numeric Functions

  • برای تبدیل نوع داده، توابع Cast را تایپ کنید Type Cast Functions for Data Type Conversion

  • مدیریت مقادیر تهی با استفاده از nvl Handling null values using nvl

  • مثال پرس و جو - تعداد کلمات را دریافت کنید Query Example - Get Word Count

Apache Hive - نوشتن پرس و جوهای اساسی Apache Hive - Writing Basic Queries

  • مروری بر SQL Overview of SQL

  • Hive Query - Execution Life Cycle Hive Query - Execution Life Cycle

  • بررسی گزارش‌ها برای پرس و جوهای Hive Reviewing Logs for Hive Queries

  • پروجکشن داده ها با استفاده از SELECT و نمای کلی از بند FROM Projecting Data using SELECT and Overview of FROM Clause

  • استفاده از CASE و WHEN به عنوان بخشی از SELECT Clause Using CASE and WHEN as part of SELECT Clause

  • طرح ارزش‌های متمایز Projecting DISTINCT Values

  • فیلتر کردن داده ها با استفاده از بند WHERE Filtering Data using WHERE Clause

  • عملیات بولی مانند OR و AND با استفاده از چندین فیلد Boolean Operations such as OR and AND using multiple fields

  • Boolean OR در مقابل IN Boolean OR vs. IN

  • فیلتر کردن داده ها با استفاده از LIKE Operator Filtering data using LIKE Operator

  • تجمعات اساسی با استفاده از توابع جمع Basic Aggregations using Aggregate Functions

  • انجام تجمیع های اساسی مانند SUM، MIN، MAX و غیره با استفاده از GROUP BY Performing basic aggregations such as SUM, MIN, MAX etc using GROUP BY

  • فیلتر کردن تجمع پست با استفاده از HAVING Filtering post aggregation using HAVING

  • مرتب سازی جهانی با استفاده از ORDER BY Global Sorting using ORDER BY

  • نمای کلی DISTRIBUTE BY Overview of DISTRIBUTE BY

  • مرتب سازی داده ها در گروه ها با استفاده از DISTRIBUTE BY و SORT BY Sorting Data with in groups using DISTRIBUTE BY and SORT BY

  • نمای کلی CLUSTER BY Overview of CLUSTER BY

Apache Hive - نوشتن پرس و جوهای اساسی - اتصال و تنظیم عملیات Apache Hive - Writing Basic Queries - Joins and Set Operations

  • مروری بر جستارهای فرعی تودرتو Overview of Nested Sub Queries

  • جستارهای فرعی تودرتو در بند WHERE با IN یا NOT IN Nested Sub Queries in WHERE Clause with IN or NOT IN

  • جستارهای فرعی تودرتو در بند WHERE با EXISTS یا NOT EXISTS Nested Sub Queries in WHERE Clause with EXISTS or NOT EXISTS

  • نمای کلی Joins Overview of Joins

  • پیوستن به چند جدول در Hive Joining Multiple Tables in Hive

  • اتصالات بیرونی در کندو Outer Joins in Hive

  • اتصالات بیرونی کامل در کندو Full Outer Joins in Hive

  • Map Side Join در مقابل Reduce Side Join Map Side Join vs. Reduce Side Join

  • پیوستن با استفاده از Legacy Syntax Joining using Legacy Syntax

  • دکارتی بین دو مجموعه داده Cartesian between two data sets

  • مروری بر عملیات SET Overview of SET Operations

  • اتحاد بین دو مجموعه داده را انجام دهید Perform Union between two Data Sets

  • پشتیبانی نمی شود - انجام تقاطع یا منهای بین دو مجموعه داده Not Supported - Perform Intersection or Minus between two Data Sets

Apache Hive - توابع تجزیه و تحلیل یا پنجره Apache Hive - Analytics or Windowing Functions

  • تهیه پایگاه داده منابع انسانی با جدول کارکنان Prepare HR Database with employees table

  • بررسی اجمالی توابع تجزیه و تحلیل یا توابع پنجره Overview of Analytics Functions or Windowing Functions

  • انجام تجمیع Performing Aggregations

  • برای دریافت درآمد روزانه و درآمد روزانه محصول، جداول ایجاد کنید Create tables to get daily revenue and daily product revenue

  • دریافت لید و تاخیر با استفاده از توابع پنجره - سفارش بر اساس Getting Lead and Lag using Windowing Functions - order by

  • دریافت لید و تاخیر با استفاده از توابع پنجره - ترتیب بر اساس و پارتیشن بندی بر اساس Getting Lead and Lag using Windowing Functions - order by and partition by

  • توابع پنجره - استفاده از first_value و last_value Windowing Functions - Using first_value and last_value

  • اعمال تابع رتبه Applying rank Function

  • اعمال تابع dense_rank Applying dense_rank Function

  • اعمال تابع row_number Applying row_number Function

  • تفاوت بین رتبه، رتبه_ متراکم و شماره_ ردیف Difference between rank, dense_rank and row_number

  • درک دستور اجرا Understanding Order of Execution

  • جمع بندی سریع پرس و جوهای فرعی تودرتو Quick recap of Nested Sub Queries

  • فیلتر کردن داده ها با استفاده از فیلدهای مشتق شده با استفاده از تجزیه و تحلیل یا توابع پنجره Filtering data using fields derived using analytics or windowing functions

اجرای کوئری ها با استفاده از ایمپالا Running Queries using Impala

  • معرفی ایمپالا Introduction to Impala

  • نقش ایمپالا دیمون ها Role of Impala Daemons

  • فروشگاه ایالتی ایمپالا و سرور کاتالوگ Impala State Store and Catalog Server

  • نمای کلی impala-shell Overview of impala-shell

  • رابطه بین هایو و ایمپالا Relationship between Hive and Impala

  • مروری بر ایجاد پایگاه داده و جداول در Hive Overview of Creating Databases and Tables in Hive

  • بارگیری و درج داده ها در جداول ایمپالا Loading and Inserting Data into Impala Tables

  • اجرای کوئری ها با استفاده از Impala Shell Running Queries using Impala Shell

  • بررسی گزارش‌های جستجوهای ایمپالا Reviewing Logs of Impala Queries

  • همگام سازی فراداده Hive با Impala - با استفاده از INVALIDATE METADATA Synching Hive Metadata with Impala - using INVALIDATE METADATA

  • اجرای اسکریپت ها با استفاده از Impala Shell Running Scripts using Impala Shell

  • Impala Script را توسعه و اجرا کنید Develop and run Impala Script

Apache Sqoop - شروع به کار Apache Sqoop - Getting Started

  • معرفی Sqoop Introduction to Sqoop

  • اعتبارسنجی پایگاه داده منبع - MySQL Validate Source Database - MySQL

  • فایل JDBC Jar را برای اتصال به MySQL مرور کنید Review JDBC Jar file to connect to MySQL

  • کمک گرفتن از Sqoop با استفاده از Command Line Getting help of Sqoop using Command Line

  • مروری بر راهنمای کاربر Sqoop Overview of Sqoop User Guide

  • اعتبارسنجی ادغام Sqoop و MySQL با استفاده از "sqoop list-databases" Validate Sqoop and MySQL integration using "sqoop list-databases"

  • فهرست کردن جداول در MySQL با استفاده از "sqoop list-tables" List tables in MySQL using "sqoop list-tables"

  • اجرای کوئری ها در MySQL با استفاده از "sqoop eval" Run Queries in MySQL using "sqoop eval"

  • درک لاگ در Sqoop Understanding Logs in Sqoop

  • تغییر مسیر Sqoop Logs به فایل ها Redirecting Sqoop Logs into files

Apache Sqoop - وارد کردن داده ها به HDFS Apache Sqoop - Importing Data into HDFS

  • بررسی اجمالی فرمان واردات Sqoop Overview of Sqoop Import Command

  • انجام Sqoop واردات سفارشات - --table و --target-dir Perform Sqoop Import of orders - --table and --target-dir

  • انجام واردات Sqoop سفارش_اقلام - --warehouse-dir Perform Sqoop import of order_items - --warehouse-dir

  • Sqoop Import - مدیریت فهرست‌های HDFS - اضافه یا بازنویسی یا خراب می‌شود Sqoop Import - Managing HDFS Directories - append or overwrite or fail

  • Sqoop Import - Execution Flow Sqoop Import - Execution Flow

  • بررسی لاگ های Sqoop Import Reviewing logs of Sqoop Import

  • Sqoop Import - تعیین تعداد نقشه‌برداران Sqoop Import - Specifying Number of Mappers

  • فایل های خروجی را مرور کنید Review the Output Files

  • Sqoop Import - فرمت های فایل پشتیبانی شده Sqoop Import - Supported File Formats

  • اعتبارسنجی فایل‌های avro با استفاده از ابزارهای avro Validating avro Files using avro-tools

  • Sqoop Import - با استفاده از فشرده سازی Sqoop Import - Using Compression

Apache Sqoop - وارد کردن داده به HDFS - سفارشی سازی Apache Sqoop - Importing Data into HDFS - Customizing

  • Sqoop Import - سفارشی سازی - مقدمه Sqoop Import - Customizing - Introduction

  • Sqoop Import - مشخص کردن ستون ها Sqoop Import - Specifying Columns

  • Sqoop Import - با استفاده از پرس و جو مرز Sqoop Import - Using boundary query

  • Sqoop Import - فیلتر کردن داده های غیر ضروری Sqoop Import - Filter unnecessary data

  • Sqoop Import - با استفاده از Split By Sqoop Import - Using Split By

  • Sqoop Import - وارد کردن نتایج جستجو Sqoop Import - Importing Query Results

  • Sqoop Import - برخورد با کلیدهای ترکیبی Sqoop Import - Dealing with Composite Keys

  • Sqoop Import - برخورد با کلید اصلی یا تقسیم با استفاده از فیلد غیر عددی Sqoop Import - Dealing with Primary Key or Split By using Non Numeric Field

  • Sqoop Import - برخورد با جداول بدون کلید اصلی Sqoop Import - Dealing with Tables with out Primary Key

  • Sqoop Import - تنظیم خودکار به One Mapper Sqoop Import - Autoreset to One Mapper

  • Sqoop Import - جداکننده های پیش فرض با استفاده از فرمت فایل متنی Sqoop Import - Default Delimiters using Text File Format

  • Sqoop Import - تعیین جداکننده - وارد کردن داده های NYSE با \t به عنوان جداکننده Sqoop Import - Specifying Delimiters - Import NYSE Data with \t as delimiter

  • Sqoop Import - برخورد با مقادیر NULL Sqoop Import - Dealing with NULL Values

  • Sqoop Import - واردات همه جداول Sqoop Import - import-all-tables

Apache Sqoop - وارد کردن داده ها به جداول Hive Apache Sqoop - Importing Data into Hive Tables

  • Sqoop Import - وارد کردن داده ها به جداول Hive - نمای کلی Sqoop Import - Importing Data into Hive tables - Overview

  • بررسی اجمالی سریع کندو Quick Overview of Hive

  • Sqoop Import - ایجاد پایگاه داده Hive Sqoop Import - Create Hive Database

  • ایجاد جدول خالی Hive با استفاده از create-hive-table Creating empty Hive Table using create-hive-table

  • Sqoop Import - وارد کردن جدول سفارشات به پایگاه داده Hive Sqoop Import - Import orders table to Hive Database

  • Sqoop Import - مدیریت جدول با استفاده از Hive Import - بازنویسی Sqoop Import - Managing Table using Hive Import - Overwrite

  • Sqoop Import - مدیریت جدول با استفاده از Hive Import - خطا وجود دارد - create-hive-table Sqoop Import - Managing Table using Hive Import - Error out - create-hive-table

  • Sqoop Import - درک جریان اجرا هنگام وارد کردن به جدول Hive Sqoop Import - Understanding Execution Flow while importing into Hive Table

  • Sqoop Import - فایل‌ها را در Hive Tables مرور کنید Sqoop Import - Review files in Hive Tables

  • Sqoop Delimiters در مقابل Hive Delimiters - فایل های متنی Sqoop Delimiters vs. Hive Delimiters - Text Files

  • Sqoop Import - قالب‌های فایل Hive Sqoop Import - Hive File Formats

  • Sqoop Import تمام جداول - Hive Sqoop Import all tables - Hive

Apache Sqoop - صادرات داده از HDFS به RDBMS Apache Sqoop - Exporting Data from HDFS to RDBMS

  • معرفی Introduction

  • داده ها را برای صادرات آماده کنید Prepare data for Export

  • ایجاد جدول در MySQL Creating Table in MySQL

  • Sqoop Export - انجام صادرات ساده - --table and -export-dir Sqoop Export - Perform Simple Export - --table and --export-dir

  • Sqoop Export - Execution Flow Sqoop Export - Execution Flow

  • Sqoop Export - تعیین تعداد نقشه‌برداران Sqoop Export - Specifying Number of Mappers

  • Sqoop Export - عیب یابی مشکلات Sqoop Export - Troubleshooting the issues

  • Sqoop Export - ادغام یا Upserting نمای کلی Sqoop Export - Merging or Upserting Overview

  • Sqoop Export - بررسی اجمالی سریع MySQL برای Upsert Sqoop Export - Quick Overview of MySQL for Upsert

  • Sqoop Export - استفاده از حالت به‌روزرسانی - فقط به‌روزرسانی (پیش‌فرض) Sqoop Export - Using update-mode - update-only (default)

  • Sqoop Export - استفاده از حالت به روز رسانی - allow-inseert Sqoop Export - Using update-mode - allow-inseert

  • Sqoop Export - مشخص کردن ستون ها Sqoop Export - Specifying Columns

  • Sqoop Export - تعیین جداکننده ها Sqoop Export - Specifying Delimiters

  • Sqoop Export - با استفاده از Stage Table Sqoop Export - Using Stage Table

Apache Sqoop - واردات و مشاغل افزایشی Apache Sqoop - Incremental Imports and Jobs

  • مروری بر Sqoop Jobs Overview of Sqoop Jobs

  • افزودن فایل رمز عبور Adding Password File

  • ایجاد شغل Sqoop Creating Sqoop Job

  • Running Sqoop Job Running Sqoop Job

  • بررسی اجمالی واردات افزایشی Overview of Incremental Imports

  • واردات افزایشی - با استفاده از کجا Incremental Import - Using where

  • واردات افزایشی - حالت افزودن Incremental Import - Append Mode

  • واردات افزایشی - ایجاد training_orders_incr در retail_export Incremental Import - Create training_orders_incr in retail_export

  • واردات افزایشی - ایجاد شغل Incremental Import - Create Job

  • واردات افزایشی - اجرای کار Incremental Import - Execute Job

  • واردات افزایشی - افزودن داده های اضافی (order_id> 30000) Incremental Import - Add additional data (order_id > 30000)

  • واردات افزایشی - کار را دوباره اجرا کنید و نتایج را تأیید کنید Incremental Import - Rerun the job and validate results

  • واردات افزایشی - استفاده از حالت آخرین تغییر Incremental Import - Using mode lastmodified

نمایش نظرات

آموزش Sqoop، Hive و Impala برای تحلیلگران داده (CCA 159 سابق)
جزییات دوره
20.5 hours
233
Udemy (یودمی) Udemy (یودمی)
(آخرین آپدیت)
9,690
3.4 از 5
دارد
دارد
دارد
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Durga Viswanatha Raju Gadiraju Durga Viswanatha Raju Gadiraju

مشاور فناوری و Evangelist 13 سال تجربه در اجرای پروژه های پیچیده با استفاده از مجموعه گسترده ای از فناوری ها از جمله Big Data و Cloud. Iversity، llc - یک شرکت مستقر در ایالات متحده برای ارائه آموزش با کیفیت برای متخصصان فناوری اطلاعات و کارکنان و همچنین راه حل های مشاوره ای برای مشتریان سازمانی ، پیدا کردم. من هزاران نفر از متخصصان فناوری اطلاعات را در زمینه فن آوری های زیادی از جمله Big Data و Cloud آموزش داده ام. ایجاد حرفه ای فناوری اطلاعات برای افراد و ارائه خدمات با کیفیت به مشتریان از اهمیت بالاتری در سازمان ما برخوردار است. به عنوان یک استراتژی ورود ، ارائه آموزش با کیفیت در زمینه های ABCD خواهد بود * توسعه برنامه * داده های بزرگ و هوش تجاری * ابر * پایگاه داده ، پایگاه داده

Asasri Manthena Asasri Manthena