در حال آماده شدن برای AWS Certified Engineer Data Associate DEA-C01؟ این دوره امتحانات عملی است که به شما برتری می دهد.
این امتحانات تمرینی اوساما ال برهیچی بوده است که تجربه جمعی خود را از گذراندن 20 گواهینامه AWS روی میز آورده است.
لحن و تم سوالات امتحان واقعی را تقلید می کند. همراه با توضیحات دقیق و "هشدار امتحان" ارائه شده در توضیحات، ما همچنین به طور گسترده به اسناد AWS ارجاع داده ایم تا شما را با سرعت در تمام حوزه های مورد آزمایش برای آزمون DEA-C01 آشنا کنیم.
ما از شما می خواهیم که این دوره را به عنوان آخرین پیت استاپ در نظر بگیرید تا بتوانید با اطمینان کامل از خط پیروزی عبور کنید و گواهینامه AWS را دریافت کنید! به روند ما اعتماد کنید، شما در دستان خوبی هستید.
همه سوالات از ابتدا نوشته شده اند! و سوالات بیشتری به مرور زمان اضافه می شود!
کیفیت خودش صحبت می کند
نمونه سوال:
یک مهندس داده هنگام اجرای جستارهای آمازون آتنا روی مجموعه دادههای ذخیره شده در سطل آمازون S3، با AWS Glue Data Catalog به عنوان مخزن ابرداده، با عملکرد کند پرس و جو مواجه میشود. مهندس داده علت اصلی عملکرد کند را تعداد بیش از حد پارتیشن ها در سطل S3 شناسایی کرده است که منجر به افزایش زمان برنامه ریزی پرس و جو Athena می شود.
دو رویکرد ممکن برای کاهش این مشکل و افزایش کارایی پرس و جو چیست (دو مورد را انتخاب کنید)؟
داده های هر پارتیشن را به فرمت Apache ORC تبدیل کنید
فایل ها را با فرمت gzip فشرده کنید تا عملکرد پرس و جو در برابر پارتیشن ها بهبود یابد
اطلاعات موجود در هر پارتیشن را باکتینگ انجام دهید
تنظیم فهرست پارتیشن AWS Glue و فیلتر کردن پارتیشن از طریق تماس GetPartitions
طرح پارتیشن Athena را بر اساس پیشوند سطل S3 تنظیم کنید
حدس شما چیست؟ برای پاسخ به زیر بروید.
درست: 4،5.
توضیح:
گزینه های صحیح:
تنظیم فهرست پارتیشن AWS Glue و فیلتر کردن پارتیشن از طریق تماس GetPartitions
هنگامی که یک نمایه پارتیشن ایجاد میکنید، فهرستی از کلیدهای پارتیشن را مشخص میکنید که از قبل در یک جدول مشخص وجود دارد. فهرست پارتیشن زیر لیست کلیدهای پارتیشن تعریف شده در جدول است. یک شاخص پارتیشن را می توان روی هر جایگشتی از کلیدهای پارتیشن تعریف شده در جدول ایجاد کرد. برای جدول دادههای_فروش بالا، شاخصهای ممکن (کشور، دسته، تاریخ ایجاد)، (کشور، دسته، سال)، (کشور، دسته)، (کشور)، (رده، کشور، سال، ماه) و غیره هستند.
اجازه دهید یک جدول sales_da را به عنوان مثال در نظر بگیریم که با کلیدهای Country، Category، Year، Month و creationDate تقسیم بندی شده است. اگر میخواهید اطلاعات فروش همه اقلام فروخته شده برای دسته کتاب در سال 2020 پس از 15-08-2020 را به دست آورید، باید یک درخواست GetPartitions با عبارت "دسته = "کتاب" و تاریخ ایجاد "2020-08-" ارائه دهید. 15 دقیقه تا کاتالوگ داده ها.
اگر هیچ شاخص پارتیشنی روی جدول وجود نداشته باشد، AWS Glue تمام پارتیشنهای جدول را بارگیری میکند و سپس پارتیشنهای بارگذاری شده را با استفاده از عبارت query ارائهشده توسط کاربر در درخواست GetPartitions فیلتر میکند. با افزایش تعداد پارتیشن ها در جدولی که نمایه ای ندارد، پرس و جو زمان بیشتری برای اجرا نیاز دارد. با یک نمایه، کوئری GetPartitions سعی می کند به جای بارگیری همه پارتیشن های جدول، زیرمجموعه ای از پارتیشن ها را واکشی کند.
گزینه های نادرست:
دادههای هر پارتیشن را به فرمت Apache ORC تبدیل کنید - Apache ORC یک فرمت فایل محبوب برای بارهای کاری تجزیه و تحلیل است. این یک فرمت فایل ستونی است زیرا داده ها را نه بر اساس ردیف، بلکه بر اساس ستون ذخیره می کند. فرمت ORC همچنین به موتورهای پرس و جو اجازه می دهد تا میزان داده هایی را که باید به روش های مختلف بارگذاری شوند کاهش دهند. به عنوان مثال، با ذخیره و فشرده سازی ستون ها به طور جداگانه، می توانید به نسبت فشرده سازی بالاتری دست یابید و فقط ستون های ارجاع شده در یک پرس و جو باید خوانده شوند. با این حال، دادهها در پارتیشنهای موجود تبدیل میشوند، این گزینه علت اصلی عملکرد ضعیف (یعنی تعداد بیش از حد پارتیشنها در سطل S3) را برطرف نمیکند.
فایل ها را با فرمت gzip فشرده کنید تا عملکرد پرس و جو در برابر پارتیشن ها بهبود یابد - فشرده سازی داده های شما می تواند سرعت جستجوهای شما را به میزان قابل توجهی افزایش دهد. اندازه داده های کوچکتر، داده های اسکن شده از آمازون S3 را کاهش می دهد و در نتیجه هزینه اجرای پرس و جوها را کاهش می دهد. همچنین ترافیک شبکه از Amazon S3 به Athena را کاهش می دهد. آتنا از انواع فرمت های فشرده سازی از جمله فرمت های رایج مانند gzip، Snappy و zstd پشتیبانی می کند. با این حال، داده ها در پارتیشن های موجود فشرده می شوند، این گزینه علت اصلی عملکرد ضعیف (یعنی تعداد بیش از حد پارتیشن ها در سطل S3) را برطرف نمی کند.
اجرای سطل بندی روی داده ها در هر پارتیشن - Bucketing راهی برای سازماندهی رکوردهای یک مجموعه داده در دسته هایی به نام سطل است. این معنی از سطل و سطل متفاوت است و نباید با سطل های آمازون S3 اشتباه گرفته شود. در سطل داده، رکوردهایی که دارای ارزش یکسانی برای یک ویژگی هستند، به همان سطل می روند. رکوردها تا حد امکان به طور یکنواخت در بین سطل ها توزیع می شوند به طوری که هر سطل تقریباً همان مقدار داده را داشته باشد. در عمل، سطل ها فایل هستند و یک تابع هش، سطلی را که یک رکورد در آن قرار می گیرد، تعیین می کند. یک مجموعه داده سطلی یک یا چند فایل در هر سطل در هر پارتیشن خواهد داشت. سطلی که یک فایل به آن تعلق دارد در نام فایل کدگذاری می شود. Bucketing زمانی مفید است که یک مجموعه داده توسط یک ویژگی خاص سطل شود و شما بخواهید رکوردهایی را که در آن ویژگی دارای مقدار مشخصی است بازیابی کنید. از آنجایی که داده ها سطلی هستند، آتنا می تواند از مقدار برای تعیین اینکه کدام فایل ها را نگاه کند استفاده کند. به عنوان مثال، فرض کنید یک مجموعه داده توسط customer_id سطل شده است و شما می خواهید تمام رکوردهای یک مشتری خاص را پیدا کنید. آتنا سطلی را که حاوی آن رکوردها است تعیین می کند و فقط فایل های موجود در آن سطل را می خواند.
کاندیداهای خوب برای سطل زمانی اتفاق میافتند که ستونهایی داشته باشید که کاردینالیته بالایی دارند (یعنی مقادیر متمایز زیادی دارند)، به طور یکنواخت توزیع شدهاند، و مرتباً مقادیر خاصی را جستجو میکنید.
از آنجایی که سطل سازی در پارتیشن های موجود انجام می شود، این گزینه علت اصلی عملکرد ضعیف (یعنی تعداد بیش از حد پارتیشن ها در سطل S3) را برطرف نمی کند.
AWS Cloud Practitioner، Solutions Architect، توسعه
نمایش نظرات