با جدیدترین سوالات آزمون AWS MLA-C01 با اطمینان آماده شوید. توضیحات مفصلی برای همه گزینههای پاسخ ارائه شده است.
آمادهسازی دادهها برای یادگیری ماشین (ML)
توسعه مدل ML
استقرار و هماهنگسازی گردشکارهای ML
نظارت، نگهداری و امنیت راهحل ML
پیشنیازها: این دوره فقط یک آزمون تمرینی است، بنابراین هیچ پیشنیازی برای شرکت در این دوره لازم نیست.
** این تنها دورهای است که برای قبولی در آزمون MLA-C01 در اولین تلاش به آن نیاز دارید **
۱۸ می ۲۰۲۵: ۱۸ سوال جدید به دوره اضافه شد.
۱۶ نوامبر ۲۰۲۴: ۱۷ سوال جدید به دوره اضافه شد.
به دوره آزمون تمرینی AWS Certified Machine Learning Associate MLA-C01 خوش آمدید!
آیا برای آزمون AWS MLA-C01 آماده میشوید؟ این دوره به شما کمک میکند با ارائه آزمونهای تمرینی با کیفیت بالا که از نزدیک امتحان واقعی را منعکس میکنند، موفق شوید.
چه چیزی به دست خواهید آورد:
۱۳۰ سوال جدید آزمون با توضیحات مفصل برای هر پاسخ
شبیهسازی واقعی آزمون: آزمونهای تمرینی من به گونهای طراحی شدهاند که فرمت، سبک و دشواری آزمون رسمی AWS Certified Machine Learning Engineer را منعکس کنند. این تضمین میکند که شما یک تجربه آزمایش واقعی را به دست آورید.
پوشش جامع: آزمونهای تمرینی تمام حوزهها و اهداف آزمون MLA-C01 را پوشش میدهند:
حوزه ۱: آمادهسازی دادهها برای یادگیری ماشین (ML)
حوزه ۲: توسعه مدل ML
حوزه ۳: استقرار و هماهنگسازی گردشکارهای ML
حوزه ۴: نظارت، نگهداری و امنیت راهحل ML
توضیحات مفصل: هر سوال دارای یک توضیح مفصل است تا به شما کمک کند مفاهیم و استدلال پشت پاسخهای صحیح را درک کنید. این برای تعمیق دانش شما و اطمینان از آمادگی کامل شما بسیار مهم است. برای هر سوال، توضیح دادهام که چرا یک پاسخ صحیح است و همچنین توضیح دادهام که چرا سایر گزینهها نادرست هستند. همچنین پیوندهای مرجع پشتیبانی را برای مطالعه سریع خواهید یافت.
تنوع سوالات: ترکیبی از سوالات چند گزینهای، چند پاسخی و مبتنی بر سناریو را خواهید یافت تا شما را برای آنچه در روز آزمون انتظار دارید، آماده کند.
پیگیری عملکرد: پیشرفت خود را با ویژگی بررسی آزمون پیگیری کنید. نقاط قوت و زمینههایی را که نیاز به بهبود دارند شناسایی کنید تا تلاشهای مطالعاتی خود را به طور موثر متمرکز کنید.
نگاهی اجمالی به آنچه در داخل دوره دریافت خواهید کرد:
سوال ۱:
یک شرکت یک مدل پیشبینی XGBoost را در محیط عملیاتی مستقر کرده است تا پیشبینی کند آیا یک مشتری احتمالاً اشتراک خود را لغو میکند یا خیر. این شرکت از Amazon SageMaker Model Monitor برای تشخیص انحرافات در امتیاز F1 استفاده میکند.
در طی یک تجزیه و تحلیل اولیه کیفیت مدل، این شرکت یک آستانه برای امتیاز F1 ثبت کرد. پس از چندین ماه بدون تغییر، امتیاز F1 مدل به طور قابل توجهی کاهش مییابد.
علت کاهش امتیاز F1 چه میتواند باشد؟
الف. رانش مفهوم در دادههای اساسی مشتری که برای پیشبینیها استفاده میشد، رخ داده است.
ب. مدل به اندازه کافی پیچیده نبود تا تمام الگوهای موجود در دادههای اولیه اصلی را ثبت کند.
ج. دادههای اولیه اصلی دارای یک مسئله کیفیت داده از مقادیر گمشده بود.
د. برچسبهای حقیقت زمینی نادرست در طول محاسبه خط پایه به Model Monitor ارائه شد.
گزینه الف صحیح است زیرا کاهش قابل توجه در امتیاز F1 در طول زمان اغلب به رانش مفهوم نسبت داده میشود. رانش مفهوم زمانی رخ میدهد که خواص آماری متغیر هدف در طول زمان تغییر کند و منجر به کاهش دقت پیشبینیهای مدل شود. این بدان معناست که الگوها یا روابطی که مدل در طول آموزش آموخته است دیگر در دادههای جدید اعمال نمیشود و در نتیجه معیارهای عملکردی مانند امتیاز F1 کاهش مییابد.
مثال:
سناریو:
یک شرکت یک مدل XGBoost را در محیط عملیاتی مستقر کرده است تا پیشبینی کند آیا یک مشتری احتمالاً اشتراک خود را لغو میکند یا خیر. این مدل بر اساس دادههای تاریخی مشتری آموزش داده شده است، که شامل ویژگیهایی مانند تعداد بلیطهای پشتیبانی که یک مشتری مطرح کرده است، فراوانی استفاده آنها و مدت اشتراک آنها است. این شرکت از Amazon SageMaker Model Monitor برای نظارت بر امتیاز F1 مدل استفاده کرد، که به عنوان بخشی از خط پایه در طول استقرار اولیه مدل ثبت شد.
عملکرد اولیه مدل:
در ابتدا، مدل عملکرد خوبی داشت و امتیاز F1 بالایی کسب کرد. این امتیاز نشان دهنده تعادل خوبی بین دقت (پیشبینی صحیح مشتریانی که لغو میکنند) و فراخوانی (شناسایی بیشتر مشتریانی که لغو میکنند) است. امتیاز F1 خط پایه به عنوان یک نقطه مرجع برای نظارت بر عملکرد آینده عمل کرد.
مثال رانش مفهوم:
پس از چندین ماه، این شرکت متوجه کاهش قابل توجهی در امتیاز F1 میشود. چه اتفاقی ممکن است افتاده باشد؟
تغییر در رفتار مشتری: فرض کنید در طول مرحله آموزش اولیه، پیشبینی کننده اصلی برای لغو "فراوانی استفاده کم" بود. مدل آموخت که مشتریانی که به ندرت از این سرویس استفاده میکنند احتمالاً لغو میکنند. با گذشت زمان، این شرکت ویژگیها، تبلیغات یا خدمات جدیدی را معرفی کرد که به طور قابل توجهی تعامل مشتری را در همه زمینهها افزایش داد. در نتیجه، حتی مشتریانی که قبلاً فراوانی استفاده کمی داشتند، اکنون بیشتر درگیر هستند و احتمال لغو آنها کمتر است. این تغییر در رفتار به عنوان رانش مفهوم شناخته میشود—الگوهای اساسی در دادهها که مدل به آنها تکیه میکند تغییر کردهاند، و منجر به پیشبینیهای نادرست و کاهش امتیاز F1 شده است.
تاثیر بر عملکرد مدل: به دلیل رانش مفهوم، مدل همچنان به "فراوانی استفاده کم" وزن زیادی میدهد، اما این ویژگی دیگر به اندازه گذشته با لغو ارتباط ندارد. این مدل ممکن است اکنون به اشتباه پیشبینی کند که مشتریان درگیر لغو میکنند، و دقت و فراخوانی آن را کاهش میدهد، و بنابراین، امتیاز F1.
گزینه ب نادرست است زیرا اگر مدل به اندازه کافی پیچیده نبود تا الگوهای موجود در دادههای اصلی را ثبت کند، از همان ابتدا عملکرد ضعیفی را نشان میداد، نه اینکه پس از چندین ماه کاهش قابل توجهی در امتیاز F1 را تجربه کند.
گزینه ج نادرست است زیرا مسائل مربوط به کیفیت داده، مانند مقادیر گمشده در دادههای اولیه اصلی، احتمالاً از همان ابتدا مشکلاتی را ایجاد میکرد. این مسائل باعث کاهش ناگهانی در امتیاز F1 پس از یک دوره ثبات نمیشود.
گزینه د نادرست است زیرا ارائه برچسبهای حقیقت زمینی نادرست در طول محاسبه خط پایه منجر به یک معیار خط پایه نادرست از ابتدا میشود، نه اینکه باعث کاهش تدریجی یا ناگهانی در امتیاز F1 پس از ماهها عملکرد ثابت شود.
سوال ۲:
یک مهندس ML باید هزاران شی CSV موجود و اشیاء CSV جدیدی را که آپلود میشوند پردازش کند. اشیاء CSV در یک سطل مرکزی Amazon S3 ذخیره میشوند و دارای تعداد ستون یکسانی هستند. یکی از ستونها تاریخ تراکنش است. مهندس ML باید دادهها را بر اساس تاریخ تراکنش جستجو کند.
کدام راه حل این الزامات را با کمترین سربار عملیاتی برآورده میکند؟
الف. از یک عبارت Amazon Athena CREATE TABLE AS SELECT (CTAS) برای ایجاد یک جدول بر اساس تاریخ تراکنش از دادهها در سطل مرکزی S3 استفاده کنید. اشیاء را از جدول جستجو کنید.
ب. یک سطل S3 جدید برای دادههای پردازش شده ایجاد کنید. تکرار S3 را از سطل مرکزی S3 به سطل S3 جدید تنظیم کنید. از S3 Object Lambda برای جستجوی اشیاء بر اساس تاریخ تراکنش استفاده کنید.
ج. یک سطل S3 جدید برای دادههای پردازش شده ایجاد کنید. از AWS Glue برای Apache Spark برای ایجاد یک کار برای جستجوی اشیاء CSV بر اساس تاریخ تراکنش استفاده کنید. کار را پیکربندی کنید تا نتایج را در سطل S3 جدید ذخیره کند. اشیاء را از سطل S3 جدید جستجو کنید.
د. یک سطل S3 جدید برای دادههای پردازش شده ایجاد کنید. از Amazon Data Firehose برای انتقال دادهها از سطل مرکزی S3 به سطل S3 جدید استفاده کنید. Firehose را پیکربندی کنید تا یک تابع AWS Lambda را برای جستجوی دادهها بر اساس تاریخ تراکنش اجرا کند.
گزینه الف صحیح است زیرا استفاده از Amazon Athena با یک عبارت CREATE TABLE AS SELECT (CTAS) به مهندس ML اجازه میدهد تا یک جدول بر اساس تاریخ تراکنش از دادهها در سطل مرکزی S3 ایجاد کند. Athena از جستجوی دادهها در S3 با کمترین سربار عملیاتی پشتیبانی میکند، و با استفاده از پرس و جوهای شبیه به SQL، مهندس ML میتواند به راحتی اشیاء CSV را بر اساس تاریخ تراکنش فیلتر کند. این راه حل از نیاز به جابجایی یا تکثیر دادهها جلوگیری میکند و یک راه بدون سرور و کم تعمیر و نگهداری برای جستجوی مستقیم دادهها در S3 فراهم میکند.
سناریوی مثال:
فرض کنید یک سطل مرکزی S3 به نام s3://my-transaction-data/ دارید که هزاران فایل CSV در آن ذخیره شده است. هر فایل CSV دارای ستونهای زیر است: transaction_id، customer_id، transaction_date و amount.
شما میخواهید این فایلها را بر اساس ستون transaction_date جستجو کنید تا تراکنشهایی را که در یک تاریخ خاص رخ دادهاند پیدا کنید.
مرحله ۱: ایجاد یک جدول خارجی در Athena
ابتدا، شما یک جدول خارجی در Athena ایجاد میکنید که به فایلهای CSV شما در S3 اشاره میکند.
CREATE EXTERNAL TABLE IF NOT EXISTS transaction_data (
transaction_id STRING,
customer_id STRING,
transaction_date STRING,
amount DOUBLE
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
'separatorChar' = ',',
'quoteChar' = '"'
)
LOCATION 's3://my-transaction-data/'
TBLPROPERTIES ('has_encrypted_data'='false');
این عبارت یک جدول transaction_data ایجاد میکند که به فایلهای CSV در سطل S3 شما نگاشت میشود. Athena طرحواره فایلهای CSV شما را درک میکند و اکنون میتواند آنها را جستجو کند.
مرحله ۲: جستجوی دادهها با استفاده از CTAS
بعد، میتوانید از یک عبارت CREATE TABLE AS SELECT (CTAS) برای ایجاد یک جدول جدید فقط با دادههایی که به آنها علاقه دارید استفاده کنید، مانند تراکنشها از یک تاریخ خاص.
CREATE TABLE transactions_on_date AS
SELECT
transaction_id,
customer_id,
transaction_date,
amount
FROM
transaction_data
WHERE
transaction_date = '2024-09-01';
این پرس و جو دادهها را فیلتر میکند تا فقط ردیفهایی را شامل شود که transaction_date 2024-09-01 است و نتیجه را در یک جدول جدید transactions_on_date در Athena ذخیره میکند.
مرحله ۳: جستجوی جدول جدید
اکنون میتوانید جدول transactions_on_date را مستقیماً جستجو کنید:
SELECT * FROM transactions_on_date;
مزایا:
عدم جابجایی داده: دادهها در S3 باقی میمانند و Athena مستقیماً از آن میخواند.
سربار عملیاتی کم: نیازی به مدیریت سرورها یا خطوط لوله داده ندارید. Athena اجرای پرس و جو را انجام میدهد.
مقیاس پذیری: Athena بدون سرور است و به طور خودکار برای مدیریت مجموعههای داده بزرگ مقیاس میشود.
خروجی مثال:
فرض کنید دادههای اصلی به این شکل هستند:
transaction_id customer_id transaction_date amount
۱ ۱۰۱ ۲۰۲۴-۰۹-۰۱ ۱۰۰.۰۰
۲ ۱۰۲ ۲۰۲۴-۰۹-۰۲ ۱۵۰.۰۰
۳ ۱۰۳ ۲۰۲۴-۰۹-۰۱ ۲۰۰.۰۰
جدول transactions_on_date دارای:
transaction_id customer_id transaction_date amount
۱ ۱۰۱ ۲۰۲۴-۰۹-۰۱ ۱۰۰.۰۰
۳ ۱۰۳ ۲۰۲۴-۰۹-۰۱ ۲۰۰.۰۰
این جدول فقط شامل تراکنشهای ۲۴-۰۹-۰۱ است.
گزینه ب نادرست است زیرا تکرار S3 و S3 Object Lambda برای جستجوی دادهها غیر ضروری هستند. S3 Object Lambda برای تغییر و پردازش دادهها در هنگام بازیابی از S3 استفاده میشود، که در صورتی که Athena بتواند مستقیماً پرس و جو را انجام دهد، پیچیدگی و سربار را اضافه میکند.
گزینه ج نادرست است زیرا تنظیم AWS Glue با کارهای Apache Spark پیچیدگی و سربار عملیاتی غیر ضروری را برای کاری که میتوان مستقیماً با Amazon Athena انجام داد، معرفی میکند. Glue برای فرآیندهای ETL پیچیدهتر مناسبتر است، در حالی که Athena برای جستجوی دادههای ساختاریافته در S3 کارآمدتر است.
گزینه د نادرست است زیرا استفاده از Amazon Data Firehose و AWS Lambda برای پردازش و جستجوی دادهها لایههای اضافی پیچیدگی را اضافه میکند و سادهترین یا کارآمدترین راه حل برای جستجوی دادهها بر اساس یک ستون خاص مانند تاریخ تراکنش ارائه نمیدهد.
سوال ۳:
یک مهندس ML باید خطوط لوله جمع آوری داده و خطوط لوله استقرار مدل ML را در AWS ایجاد کند. تمام دادههای خام در سطلهای Amazon S3 ذخیره میشوند.
کدام راه حل این الزامات را برآورده میکند؟
الف. از Amazon Data Firehose برای ایجاد خطوط لوله جمع آوری داده استفاده کنید. از Amazon SageMaker Studio Classic برای ایجاد خطوط لوله استقرار مدل استفاده کنید.
ب. از AWS Glue برای ایجاد خطوط لوله جمع آوری داده استفاده کنید. از Amazon SageMaker Studio Classic برای ایجاد خطوط لوله استقرار مدل استفاده کنید.
ج. از Amazon Redshift ML برای ایجاد خطوط لوله جمع آوری داده استفاده کنید. از Amazon SageMaker Studio Classic برای ایجاد خطوط لوله استقرار مدل استفاده کنید.
د. از Amazon Athena برای ایجاد خطوط لوله جمع آوری داده استفاده کنید. از یک نوت بوک Amazon SageMaker برای ایجاد خطوط لوله استقرار مدل استفاده کنید.
گزینه ب صحیح است زیرا استفاده از AWS Glue برای ایجاد خطوط لوله جمع آوری داده یک رویکرد رایج و کارآمد برای پردازش و تبدیل دادههای خام ذخیره شده در Amazon S3 است. AWS Glue یک سرویس ETL (استخراج، تبدیل، بارگذاری) کاملاً مدیریت شده است که وظایف آماده سازی داده را ساده میکند. برای خطوط لوله استقرار مدل ML، Amazon SageMaker Studio Classic یک محیط توسعه یکپارچه (IDE) را ارائه میدهد که ساخت، آموزش و استقرار مدلهای یادگیری ماشینی را آسان میکند، و گردش کار یکپارچه از جمع آوری داده تا استقرار مدل را تضمین میکند.
گزینه الف نادرست است زیرا Amazon Kinesis Data Firehose در درجه اول برای جریان دادههای بلادرنگ به مقاصدی مانند S3، Redshift و Elasticsearch استفاده میشود، نه برای خطوط لوله جمع آوری داده جامع که شامل فرآیندهای ETL پیچیده هستند. SageMaker Studio Classic برای استقرار مدل مناسب است، اما بخش جمع آوری داده بهتر است توسط AWS Glue انجام شود.
گزینه ج نادرست است زیرا Amazon Redshift ML برای اجرای مدلهای یادگیری ماشینی به طور مستقیم در محیط انبار داده Redshift طراحی شده است، نه برای ساخت خطوط لوله جمع آوری داده. همچنین، Redshift ML برای مدیریت دادههای خام به طور مستقیم از S3 در زمینه ایجاد خطوط لوله جمع آوری مناسب نیست.
گزینه د نادرست است زیرا Amazon Athena یک سرویس پرس و جو برای تجزیه و تحلیل دادهها در S3 با استفاده از SQL استاندارد است، اما برای ایجاد خطوط لوله جمع آوری داده کامل طراحی نشده است. علاوه بر این، در حالی که از نوت بوکهای SageMaker میتوان برای استقرار مدل استفاده کرد، آنها همان سطح مدیریت خطوط لوله یکپارچه را مانند SageMaker Studio Classic ارائه نمیدهند.
Nahid Perween
متخصص مولتی کلود با ۷ سال تجربه
نمایش نظرات