نرم افزار انبار داده Apache Hive خواندن، نوشتن و مدیریت مجموعه داده های بزرگ را که در فضای ذخیره سازی توزیع شده با استفاده از SQL قرار دارند، تسهیل می کند. ساختار را می توان بر روی داده هایی که از قبل در ذخیره سازی هستند، پیش بینی کرد. یک ابزار خط فرمان و درایور JDBC برای اتصال کاربران به Hive ارائه شده است.
یکی از با ارزش ترین مهارت های فناوری، توانایی تجزیه و تحلیل مجموعه داده های عظیم است، و این دوره به طور خاص طراحی شده است تا شما را با یکی از بهترین فناوری ها برای این کار آشنا کند، Apache Hive! شرکتهای برتر فناوری مانند گوگل، فیسبوک، نتفلیکس، Airbnb، آمازون، ناسا و غیره همگی از Apache Hive استفاده میکنند!
Hive که در بالای Apache Hadoop ساخته شده است، ویژگی های زیر را ارائه می دهد:
ابزارهایی برای فعال کردن دسترسی آسان به دادهها از طریق SQL، بنابراین وظایف انبار دادهها مانند استخراج/تبدیل/بارگذاری (ETL)، گزارشدهی و تجزیه و تحلیل دادهها را فعال میکند.
مکانیسمی برای تحمیل ساختار بر انواع قالبهای داده
دسترسی به فایلهایی که مستقیماً در Apache HDFS™ یا سایر سیستمهای ذخیرهسازی دادهها مانند Apache HBase™ ذخیره شدهاند
اجرای کوئری از طریق Apache Tez™، Apache Spark™، یا MapReduce
زبان رویه ای با HPL-SQL
بازیابی پرس و جوی فرعی از طریق Hive LLAP، Apache YARN و Apache Slider.
Hive عملکرد استاندارد SQL، از جمله بسیاری از ویژگیهای جدید SQL:2003، SQL:2011، و SQL:2016 را برای تجزیه و تحلیل ارائه میکند.
SQL Hive همچنین میتواند با کد کاربر از طریق توابع تعریفشده توسط کاربر (UDF) گسترش یابد. مجموعه های تعریف شده توسط کاربر (UDAF) و توابع جدول تعریف شده توسط کاربر (UDTF).
یک "قالب Hive" وجود ندارد که داده ها در آن ذخیره شوند. Hive دارای رابطهای داخلی برای فایلهای متنی با مقادیر جداشده با کاما و تب (CSV/TSV)، Apache Parquet™، Apache ORC™، و فرمتهای دیگر است. کاربران می توانند Hive را با کانکتورها برای فرمت های دیگر گسترش دهند. لطفاً برای جزئیات، به فرمتهای فایل و Hive SerDe در راهنمای برنامهنویس مراجعه کنید.
Hive برای بارهای کاری پردازش تراکنش آنلاین (OLTP) طراحی نشده است. بهتر است برای کارهای انبارداری داده سنتی استفاده شود.
Hive برای به حداکثر رساندن مقیاسپذیری (مقیاسسازی با ماشینهای بیشتر اضافه شده به صورت پویا به خوشه Hadoop)، عملکرد، توسعهپذیری، تحمل خطا، و اتصال شل با قالبهای ورودی آن طراحی شده است.
ما
را یاد خواهیم گرفت1) نمای کلی Apache Hive
2) معماری Apache Hive
3) نصب و پیکربندی
4) چگونه یک جستجوی Hive در سیستم جریان می یابد.
5) ویژگیهای کندو، محدودیت و مدل داده
6) نوع داده، زبان تعریف داده، و زبان دستکاری داده
7) Hive View، Partition و Bucketing
8) توابع و اپراتورهای داخلی
9) به Apache Hive بپیوندید
10) پرسش و پاسخ های متداول در مصاحبه
11) 2 پروژه بیدرنگ
هدف من این است که ابزارهای عملی در اختیار شما قرار دهم که در آینده برای شما مفید باشد. در حین انجام این کار، با یک فرصت استفاده واقعی.
من واقعاً هیجان زده هستم که اینجا هستید، امیدوارم تا پایان دوره را دنبال کنید. دنبال کردن این دوره نسبتاً ساده است. من گام به گام هر خط کد را به شما نشان خواهم داد و توضیح خواهم داد که چه کاری انجام می دهد و چرا ما آن را انجام می دهیم. بنابراین لطفاً از شما دعوت می کنم که آن را پیگیری کنید تا تمام سخنرانی ها را مرور کنید. بسیار خوب، به زودی شما را در دوره می بینم.
مهندس Bigdata من معمار راه حل هستم با 12 سال تجربه در صنعت بانکداری ، ارتباطات از راه دور و خدمات مالی در طیف متنوعی از نقش ها در برنامه های کارت اعتباری ، پرداخت ها ، انبار داده و مرکز داده نقش من به عنوان Bigdata و Cloud Architect به عنوان بخشی از تیم Bigdata برای ارائه راه حل نرم افزاری کار می کنم. مسئولیت ها شامل - از همه مسائل مربوط به Hadoop پشتیبانی کنید - معیار سیستم های موجود ، تجزیه و تحلیل چالش های سیستم موجود/گلوگاه ها و پیشنهاد راه حل های مناسب برای از بین بردن آنها بر اساس فن آوری های مختلف Big Data - تجزیه و تحلیل و تعریف جوانب مثبت و منفی فناوری ها و سیستم عامل های مختلف - موارد استفاده ، راه حل ها و توصیه ها را تعریف کنید - استراتژی Big Data را تعریف کنید - انجام تجزیه و تحلیل دقیق از مشکلات کسب و کار و محیط های فنی - راه حل عملی بزرگ داده را بر اساس تجزیه و تحلیل نیازهای مشتری تعریف کنید - توصیه های عملی Big Big Cluster را تعریف کنید - به مشتریان در مورد فن آوری های مختلف Big Data آموزش دهید تا به آنها در درک نکات مثبت و منفی Big Data کمک کند - حاکمیت داده ها - ساخت ابزارهایی برای بهبود بهره وری توسعه دهنده و اجرای روشهای استاندارد
نمایش نظرات