راهنمای آزمون مهندس داده خبره AWS - Associate (DEA-C01). - آخرین آپدیت

AWS Certified Data Engineer - Associate (DEA-C01) Exam Guide new

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد. این دوره صرفا آزمون یا تمرین می باشد و ویدیو ندارد.

نمونه ویدیویی برای نمایش وجود ندارد.

توضیحات دوره: برای امتحان DEA-C01 خود را آماده کنید. 325 سوال تست تمرینی با کیفیت بالا نوشته شده از ابتدا با توضیحات دقیق! آزمون تمرین کامل با توضیحات شامل! 5 تست تمرینی و بیشتر بیش از 300 سوال سوالات تستی با کیفیت بالا پیش نیازها:خوش آمدید! من اینجا هستم تا به شما در تهیه و گذراندن جدیدترین راهنمای آزمون AWS Certified Engineer Data - Associate (DEA-C01) کمک کنم.

در حال آماده شدن برای AWS Certified Engineer Data Associate DEA-C01؟ این دوره امتحانات عملی است که به شما برتری می دهد.

این امتحانات تمرینی اوساما ال برهیچی بوده است که تجربه جمعی خود را از گذراندن 20 گواهینامه AWS روی میز آورده است.

لحن و تم سوالات امتحان واقعی را تقلید می کند. همراه با توضیحات دقیق و "هشدار امتحان" ارائه شده در توضیحات، ما همچنین به طور گسترده به اسناد AWS ارجاع داده ایم تا شما را با سرعت در تمام حوزه های مورد آزمایش برای آزمون DEA-C01 آشنا کنیم.

ما از شما می خواهیم که این دوره را به عنوان آخرین پیت استاپ در نظر بگیرید تا بتوانید با اطمینان کامل از خط پیروزی عبور کنید و گواهینامه AWS را دریافت کنید! به روند ما اعتماد کنید، شما در دستان خوبی هستید.

همه سوالات از ابتدا نوشته شده اند! و سوالات بیشتری به مرور زمان اضافه می شود!

کیفیت خودش صحبت می کند

نمونه سوال:

یک مهندس داده هنگام اجرای جستارهای آمازون آتنا روی مجموعه داده‌های ذخیره شده در سطل آمازون S3، با AWS Glue Data Catalog به عنوان مخزن ابرداده، با عملکرد کند پرس و جو مواجه می‌شود. مهندس داده علت اصلی عملکرد کند را تعداد بیش از حد پارتیشن ها در سطل S3 شناسایی کرده است که منجر به افزایش زمان برنامه ریزی پرس و جو Athena می شود.

دو رویکرد ممکن برای کاهش این مشکل و افزایش کارایی پرس و جو چیست (دو مورد را انتخاب کنید)؟

داده های هر پارتیشن را به فرمت Apache ORC تبدیل کنید

فایل ها را با فرمت gzip فشرده کنید تا عملکرد پرس و جو در برابر پارتیشن ها بهبود یابد

اطلاعات موجود در هر پارتیشن را باکتینگ انجام دهید

تنظیم فهرست پارتیشن AWS Glue و فیلتر کردن پارتیشن از طریق تماس GetPartitions

طرح پارتیشن Athena را بر اساس پیشوند سطل S3 تنظیم کنید

حدس شما چیست؟ برای پاسخ به زیر بروید.

درست: 4،5.

توضیح:

گزینه های صحیح:

تنظیم فهرست پارتیشن AWS Glue و فیلتر کردن پارتیشن از طریق تماس GetPartitions

هنگامی که یک نمایه پارتیشن ایجاد می‌کنید، فهرستی از کلیدهای پارتیشن را مشخص می‌کنید که از قبل در یک جدول مشخص وجود دارد. فهرست پارتیشن زیر لیست کلیدهای پارتیشن تعریف شده در جدول است. یک شاخص پارتیشن را می توان روی هر جایگشتی از کلیدهای پارتیشن تعریف شده در جدول ایجاد کرد. برای جدول داده‌های_فروش بالا، شاخص‌های ممکن (کشور، دسته، تاریخ ایجاد)، (کشور، دسته، سال)، (کشور، دسته)، (کشور)، (رده، کشور، سال، ماه) و غیره هستند.

اجازه دهید یک جدول sales_da را به عنوان مثال در نظر بگیریم که با کلیدهای Country، Category، Year، Month و creationDate تقسیم بندی شده است. اگر می‌خواهید اطلاعات فروش همه اقلام فروخته شده برای دسته کتاب در سال 2020 پس از 15-08-2020 را به دست آورید، باید یک درخواست GetPartitions با عبارت "دسته = "کتاب" و تاریخ ایجاد "2020-08-" ارائه دهید. 15 دقیقه تا کاتالوگ داده ها.

اگر هیچ شاخص پارتیشنی روی جدول وجود نداشته باشد، AWS Glue تمام پارتیشن‌های جدول را بارگیری می‌کند و سپس پارتیشن‌های بارگذاری شده را با استفاده از عبارت query ارائه‌شده توسط کاربر در درخواست GetPartitions فیلتر می‌کند. با افزایش تعداد پارتیشن ها در جدولی که نمایه ای ندارد، پرس و جو زمان بیشتری برای اجرا نیاز دارد. با یک نمایه، کوئری GetPartitions سعی می کند به جای بارگیری همه پارتیشن های جدول، زیرمجموعه ای از پارتیشن ها را واکشی کند.

گزینه های نادرست:

داده‌های هر پارتیشن را به فرمت Apache ORC تبدیل کنید - Apache ORC یک فرمت فایل محبوب برای بارهای کاری تجزیه و تحلیل است. این یک فرمت فایل ستونی است زیرا داده ها را نه بر اساس ردیف، بلکه بر اساس ستون ذخیره می کند. فرمت ORC همچنین به موتورهای پرس و جو اجازه می دهد تا میزان داده هایی را که باید به روش های مختلف بارگذاری شوند کاهش دهند. به عنوان مثال، با ذخیره و فشرده سازی ستون ها به طور جداگانه، می توانید به نسبت فشرده سازی بالاتری دست یابید و فقط ستون های ارجاع شده در یک پرس و جو باید خوانده شوند. با این حال، داده‌ها در پارتیشن‌های موجود تبدیل می‌شوند، این گزینه علت اصلی عملکرد ضعیف (یعنی تعداد بیش از حد پارتیشن‌ها در سطل S3) را برطرف نمی‌کند.

فایل ها را با فرمت gzip فشرده کنید تا عملکرد پرس و جو در برابر پارتیشن ها بهبود یابد - فشرده سازی داده های شما می تواند سرعت جستجوهای شما را به میزان قابل توجهی افزایش دهد. اندازه داده های کوچکتر، داده های اسکن شده از آمازون S3 را کاهش می دهد و در نتیجه هزینه اجرای پرس و جوها را کاهش می دهد. همچنین ترافیک شبکه از Amazon S3 به Athena را کاهش می دهد. آتنا از انواع فرمت های فشرده سازی از جمله فرمت های رایج مانند gzip، Snappy و zstd پشتیبانی می کند. با این حال، داده ها در پارتیشن های موجود فشرده می شوند، این گزینه علت اصلی عملکرد ضعیف (یعنی تعداد بیش از حد پارتیشن ها در سطل S3) را برطرف نمی کند.

اجرای سطل بندی روی داده ها در هر پارتیشن - Bucketing راهی برای سازماندهی رکوردهای یک مجموعه داده در دسته هایی به نام سطل است. این معنی از سطل و سطل متفاوت است و نباید با سطل های آمازون S3 اشتباه گرفته شود. در سطل داده، رکوردهایی که دارای ارزش یکسانی برای یک ویژگی هستند، به همان سطل می روند. رکوردها تا حد امکان به طور یکنواخت در بین سطل ها توزیع می شوند به طوری که هر سطل تقریباً همان مقدار داده را داشته باشد. در عمل، سطل ها فایل هستند و یک تابع هش، سطلی را که یک رکورد در آن قرار می گیرد، تعیین می کند. یک مجموعه داده سطلی یک یا چند فایل در هر سطل در هر پارتیشن خواهد داشت. سطلی که یک فایل به آن تعلق دارد در نام فایل کدگذاری می شود. Bucketing زمانی مفید است که یک مجموعه داده توسط یک ویژگی خاص سطل شود و شما بخواهید رکوردهایی را که در آن ویژگی دارای مقدار مشخصی است بازیابی کنید. از آنجایی که داده ها سطلی هستند، آتنا می تواند از مقدار برای تعیین اینکه کدام فایل ها را نگاه کند استفاده کند. به عنوان مثال، فرض کنید یک مجموعه داده توسط customer_id سطل شده است و شما می خواهید تمام رکوردهای یک مشتری خاص را پیدا کنید. آتنا سطلی را که حاوی آن رکوردها است تعیین می کند و فقط فایل های موجود در آن سطل را می خواند.

کاندیداهای خوب برای سطل زمانی اتفاق می‌افتند که ستون‌هایی داشته باشید که کاردینالیته بالایی دارند (یعنی مقادیر متمایز زیادی دارند)، به طور یکنواخت توزیع شده‌اند، و مرتباً مقادیر خاصی را جستجو می‌کنید.

از آنجایی که سطل سازی در پارتیشن های موجود انجام می شود، این گزینه علت اصلی عملکرد ضعیف (یعنی تعداد بیش از حد پارتیشن ها در سطل S3) را برطرف نمی کند.

تمرین ها و آزمونها

تست های تمرینی Practice Tests

راهنمای آزمون مهندس داده خبره AWS - Associate (DEA-C01). AWS Certified Data Engineer - Associate (DEA-C01) Exam Guide
راهنمای آزمون مهندس داده خبره AWS - Associate (DEA-C01). AWS Certified Data Engineer - Associate (DEA-C01) Exam Guide
راهنمای آزمون مهندس داده خبره AWS - Associate (DEA-C01). AWS Certified Data Engineer - Associate (DEA-C01) Exam Guide
راهنمای آزمون مهندس داده خبره AWS - Associate (DEA-C01). AWS Certified Data Engineer - Associate (DEA-C01) Exam Guide
راهنمای آزمون مهندس داده خبره AWS - Associate (DEA-C01). AWS Certified Data Engineer - Associate (DEA-C01) Exam Guide