در حال آماده شدن برای AWS Certified Engineer Data Associate DEA-C01؟ این دوره امتحانات تمرینی است که به شما برتری می دهد .
این آزمونهای تمرینی توسط استفان ماریک و آبیشک سینگ نوشته شدهاند که تجربه جمعی خود را از گذراندن 20 گواهینامه AWS روی میز آوردهاند.
لحن و زمان سوالات امتحان واقعی را تقلید می کند. همراه با توضیحات دقیق و "هشدار امتحان" ارائه شده در توضیحات، ما همچنین به طور گسترده به اسناد AWS ارجاع داده ایم تا شما را در مورد تمام حوزه های دامنه ای که برای آزمون DEA-C01 آزمایش می شوند، با سرعت آشنا کنیم.
ما از شما می خواهیم که این دوره را به عنوان آخرین پیت استاپ در نظر بگیرید تا بتوانید با اطمینان کامل از خط پیروزی عبور کنید و گواهینامه AWS را دریافت کنید! به روند ما اعتماد کنید، شما در دستان خوبی هستید.
همه سوالات از ابتدا نوشته شده اند! و سوالات بیشتری در طول زمان اضافه می شود!
کیفیت به خودی خود صحبت می کند
نمونه سوال:
یک مهندس داده هنگام اجرای جستارهای آمازون آتنا روی مجموعه دادههای ذخیره شده در سطل آمازون S3، با AWS Glue Data Catalog به عنوان مخزن ابرداده، با عملکرد کند پرس و جو مواجه میشود. مهندس داده علت اصلی عملکرد کند را تعداد بیش از حد پارتیشن ها در سطل S3 شناسایی کرده است که منجر به افزایش زمان برنامه ریزی پرس و جو Athena می شود.
دو روش ممکن برای کاهش این مشکل و افزایش کارایی پرس و جو (انتخاب دو) چیست؟
داده های هر پارتیشن را به فرمت Apache ORC تبدیل کنید
فایل ها را با فرمت gzip فشرده کنید تا عملکرد پرس و جو در برابر پارتیشن ها بهبود یابد
اطلاعات موجود در هر پارتیشن را باکتینگ انجام دهید
تنظیم فهرست پارتیشن AWS Glue و فیلتر کردن پارتیشن از طریق تماس GetPartitions
طرح پارتیشن Athena را بر اساس پیشوند سطل S3 تنظیم کنید
حدس شما چیست؟ برای پاسخ به زیر بروید.
صحیح: 4،5.
توضیح:
گزینه های صحیح:
یک فهرست پارتیشن AWS Glue تنظیم کنید و از فیلتر کردن پارتیشن از طریق تماس GetPartitions استفاده کنید
هنگامی که یک نمایه پارتیشن ایجاد میکنید، فهرستی از کلیدهای پارتیشن را مشخص میکنید که از قبل در یک جدول مشخص وجود دارد. فهرست پارتیشن زیر لیست کلیدهای پارتیشن تعریف شده در جدول است. یک شاخص پارتیشن را می توان روی هر جایگشتی از کلیدهای پارتیشن تعریف شده در جدول ایجاد کرد. برای جدول دادههای_فروش بالا، شاخصهای ممکن (کشور، دسته، تاریخ ایجاد)، (کشور، دسته، سال)، (کشور، دسته)، (کشور)، (رده، کشور، سال، ماه) و غیره هستند.
اجازه دهید یک جدول sales_da را به عنوان مثال در نظر بگیریم که با کلیدهای Country، Category، Year، Month و creationDate تقسیم بندی شده است. اگر میخواهید اطلاعات فروش همه اقلام فروخته شده برای دسته کتاب در سال 2020 پس از 15-08-2020 را به دست آورید، باید یک درخواست GetPartitions با عبارت "Category = "کتاب" و تاریخ ایجاد "2020-08-" ارائه دهید. 15 اینچ تا کاتالوگ داده.
اگر هیچ شاخص پارتیشنی روی جدول وجود نداشته باشد، AWS Glue تمام پارتیشنهای جدول را بارگیری میکند و سپس پارتیشنهای بارگذاری شده را با استفاده از عبارت query ارائهشده توسط کاربر در درخواست GetPartitions فیلتر میکند. با افزایش تعداد پارتیشنها در جدولی که نمایه ندارد، پرسوجو زمان بیشتری برای اجرا نیاز دارد. با یک نمایه، کوئری GetPartitions سعی می کند به جای بارگیری همه پارتیشن های جدول، زیر مجموعه ای از پارتیشن ها را واکشی کند.
نمای کلی شاخص پارتیشن چسب AWS و فیلتر پارتیشن:
تصویر مرجع
از طریق - پیوند مرجع
تنظیم طرح پارتیشن Athena بر اساس پیشوند سطل S3
پردازش اطلاعات پارتیشن زمانی که تعداد پارتیشنهای زیادی دارید و از نمایهسازی پارتیشن چسب AWS استفاده نمیکنید، میتواند یک گلوگاه برای کوئریهای Athena باشد. برای سرعت بخشیدن به پردازش پرس و جو جداول بسیار پارتیشن بندی شده و مدیریت خودکار پارتیشن می توانید از طرح پارتیشن در آتنا استفاده کنید. پیشبینی پارتیشن با این امکان که به شما امکان میدهد پارتیشنها را با محاسبه اطلاعات پارتیشن به جای بازیابی آن از یک متاستور، پرس و جو کنید، این سربار را به حداقل میرساند. این نیاز به افزودن ابرداده پارتیشن ها به جدول چسب AWS را برطرف می کند.
در طرح پارتیشن، مقادیر پارتیشن و مکانها از پیکربندی محاسبه میشوند تا از مخزنی مانند کاتالوگ داده چسب AWS. از آنجایی که عملیات درون حافظه معمولاً سریعتر از عملیات از راه دور است، طرح پارتیشن می تواند زمان اجرای پرس و جوها را در برابر جداول بسیار پارتیشن بندی شده کاهش دهد. بسته به ویژگی های خاص پرس و جو و داده های زیربنایی، طرح پارتیشن می تواند زمان اجرای پرس و جو را به طور قابل توجهی کاهش دهد که توسط بازیابی فراداده پارتیشن محدود شده است.
نمای کلی طرح پارتیشن آتنا:
تصویر مرجع
از طریق - پیوند مرجع
گزینه های نادرست:
دادههای هر پارتیشن را به فرمت Apache ORC تبدیل کنید - Apache ORC یک فرمت فایل محبوب برای بارهای کاری تجزیه و تحلیل است. این یک فرمت فایل ستونی است زیرا داده ها را نه بر اساس ردیف، بلکه بر اساس ستون ذخیره می کند. فرمت ORC همچنین به موتورهای پرس و جو اجازه می دهد تا میزان داده هایی را که باید به روش های مختلف بارگذاری شوند کاهش دهند. به عنوان مثال، با ذخیره و فشرده سازی ستون ها به طور جداگانه، می توانید به نسبت فشرده سازی بالاتری دست یابید و فقط ستون های ارجاع شده در یک پرس و جو باید خوانده شوند. با این حال، دادهها در پارتیشنهای موجود تبدیل میشوند، این گزینه علت اصلی عملکرد ضعیف (یعنی تعداد بیش از حد پارتیشنها در سطل S3) را برطرف نمیکند.
فشرده سازی فایل ها در فرمت gzip برای بهبود عملکرد پرس و جو در برابر پارتیشن ها - فشرده سازی داده های شما می تواند سرعت جستجوهای شما را به میزان قابل توجهی افزایش دهد. اندازه داده های کوچکتر، داده های اسکن شده از آمازون S3 را کاهش می دهد و در نتیجه هزینه اجرای پرس و جوها را کاهش می دهد. همچنین ترافیک شبکه از Amazon S3 به Athena را کاهش می دهد. آتنا از انواع فرمت های فشرده سازی از جمله فرمت های رایج مانند gzip، Snappy و zstd پشتیبانی می کند. با این حال، داده ها در پارتیشن های موجود فشرده می شوند، این گزینه علت اصلی عملکرد ضعیف (یعنی تعداد بیش از حد پارتیشن ها در سطل S3) را برطرف نمی کند.
انجام سطل بندی داده ها در هر پارتیشن - Bucketing راهی برای سازماندهی رکوردهای یک مجموعه داده در دسته هایی به نام سطل است. این معنی از سطل و سطل متفاوت است و نباید با سطل های آمازون S3 اشتباه گرفته شود. در سطل داده، رکوردهایی که دارای ارزش یکسانی برای یک ویژگی هستند، به همان سطل می روند. رکوردها تا حد امکان به طور یکنواخت در بین سطل ها توزیع می شوند به طوری که هر سطل تقریباً همان مقدار داده را داشته باشد. در عمل، سطل ها فایل هستند و یک تابع هش، سطلی را که یک رکورد در آن قرار می گیرد، تعیین می کند. یک مجموعه داده سطلی یک یا چند فایل در هر سطل در هر پارتیشن خواهد داشت. سطلی که یک فایل به آن تعلق دارد در نام فایل کدگذاری می شود. Bucketing زمانی مفید است که یک مجموعه داده توسط یک ویژگی خاص سطل شود و شما بخواهید رکوردهایی را که در آن ویژگی دارای مقدار مشخصی است بازیابی کنید. از آنجایی که داده ها سطلی هستند، آتنا می تواند از مقدار برای تعیین اینکه کدام فایل ها را نگاه کند استفاده کند. به عنوان مثال، فرض کنید یک مجموعه داده توسط customer_id سطل شده است و شما می خواهید تمام رکوردهای یک مشتری خاص را پیدا کنید. آتنا سطلی را که حاوی آن رکوردها است تعیین می کند و فقط فایل های موجود در آن سطل را می خواند.
کاندیداهای خوب برای سطل زمانی اتفاق میافتند که ستونهایی داشته باشید که دارای کاردینالیته بالایی هستند (یعنی مقادیر متمایز زیادی دارند)، به طور یکنواخت توزیع شدهاند، و شما مرتباً مقادیر خاصی را جستجو میکنید.
از آنجایی که سطل سازی در پارتیشن های موجود انجام می شود، این گزینه علت اصلی عملکرد ضعیف (یعنی تعداد بیش از حد پارتیشن ها در سطل S3) را برطرف نمی کند.
با چندین پیوند مرجع از اسناد AWS
مربی
اسم من استفان مارک است، من علاقه زیادی به رایانش ابری دارم و در این دوره مربی شما خواهم بود. من در مورد گواهینامه های AWS آموزش می دهم و بر کمک به دانش آموزانم برای بهبود مهارت های حرفه ای خود در AWS تمرکز می کنم.
من قبلاً به بیش از 2,500,000 دانشآموز آموزش دادهام و بیش از 500,000 نظر در طول حرفهام در طراحی و ارائه این گواهیها و دورهها دریافت کردهام!
من خوشحالم که از آبیشک سینگ به عنوان مربی مشترکم برای این امتحانات تمرینی استقبال می کنم!
به بهترین امتحانات عملی خوش آمدید تا به شما کمک کند برای آزمون AWS Certified Data Engineer Associate آماده شوید.
می توانید هر چند بار که بخواهید در امتحانات شرکت کنید
این یک بانک سؤال اصلی بزرگ است
اگر سؤالی دارید از مربیان پشتیبانی میکنید
هر سوال یک توضیح مفصل دارد
سازگار با تلفن همراه با برنامه Udemy
30 روز ضمانت بازگشت وجه در صورت نارضایتی
امیدواریم که تا به حال متقاعد شده باشید!. و سوالات بسیار بیشتری در داخل دوره وجود دارد.
یادگیری مبارک و بهترین موفقیت برای آزمون AWS Certified Engineer Data Associate DEA-C01!
مربی پرفروش، دارای گواهینامه AWS 10x، گورو کافکا
Abhishek Singh 9x AWSمتخصص ارزیابی مهارت برای ابر، بیگ دیتا و ML
نمایش نظرات