طراحی سیستم های پردازش داده
انتخاب فناوری های ذخیره سازی مناسب. ملاحظات عبارتند از:
● نقشهبرداری سیستمهای ذخیرهسازی با نیازهای تجاری
● مدلسازی دادهها
● مبادلات مربوط به تأخیر، توان عملیاتی، تراکنشها
● سیستم های توزیع شده
● طراحی طرحواره
طراحی خطوط لوله داده. ملاحظات عبارتند از:
● انتشار و تجسم داده ها (به عنوان مثال، BigQuery)
● دادههای دستهای و جریانی (بهعنوان مثال، Dataflow، Dataproc، Apache Beam، Apache Spark و اکوسیستم Hadoop، Pub/Sub، Apache Kafka)
● آنلاین (تعاملی) در مقابل پیش بینی های دسته ای
● اتوماسیون و ارکستراسیون شغلی (مثلاً Cloud Composer)
طراحی یک راه حل پردازش داده. ملاحظات عبارتند از:
● انتخاب زیرساخت
● در دسترس بودن سیستم و تحمل خطا
● استفاده از سیستم های توزیع شده
● برنامه ریزی ظرفیت
● رایانش ابری و لبه ترکیبی
● گزینههای معماری (مانند کارگزاران پیام، صفهای پیام، میانافزار، معماری سرویسگرا، عملکردهای بدون سرور)
● حداقل یک بار، به ترتیب، و دقیقاً یک بار، و غیره، پردازش رویداد
انتقال انبار داده و پردازش داده. ملاحظات عبارتند از:
● آگاهی از وضعیت فعلی و نحوه انتقال طرح به وضعیت آینده
● مهاجرت از داخل محل به ابر (سرویس انتقال داده، ابزار انتقال، شبکه ابری)
● در حال تأیید یک مهاجرت
ساخت و عملیاتی کردن سیستم های پردازش داده
ساخت و عملیاتی کردن سیستم های ذخیره سازی. ملاحظات عبارتند از:
● استفاده مؤثر از خدمات مدیریت شده (Cloud Bigtable، Cloud Spanner، Cloud SQL، BigQuery، Cloud Storage، Datastore، Memorystore)
● هزینههای ذخیرهسازی و عملکرد
● مدیریت چرخه عمر داده ها
ساخت و عملیاتی کردن خطوط لوله. ملاحظات عبارتند از:
● پاکسازی داده ها
● دسته ای و پخش جریانی
● تحول
● جمعآوری و وارد کردن دادهها
● ادغام با منابع داده جدید
ساخت و عملیاتی کردن زیرساخت های پردازش. ملاحظات عبارتند از:
● تامین منابع
● نظارت بر خطوط لوله
● تنظیم خطوط لوله
● آزمایش و کنترل کیفیت
عملیاتی کردن مدل های یادگیری ماشین
استفاده از مدل های ML از پیش ساخته شده به عنوان یک سرویس. ملاحظات عبارتند از:
● APIهای ML (مانند Vision API، Speech API)
● سفارشی کردن APIهای ML (به عنوان مثال، AutoML Vision، AutoML text)
● تجربیات مکالمه (مانند Dialogflow)
استقرار خط لوله ML. ملاحظات عبارتند از:
● مصرف دادههای مناسب
● بازآموزی مدلهای یادگیری ماشین (پیشبینی و آموزش پلتفرم هوش مصنوعی، BigQuery ML، Kubeflow، Spark ML)
● ارزیابی مستمر
انتخاب زیرساخت آموزشی و سرویس دهی مناسب. ملاحظات عبارتند از:
● توزیع شده در مقابل دستگاه تک
● استفاده از محاسبه لبه
● شتابدهندههای سختافزاری (مانند GPU، TPU)
اندازهگیری، نظارت، و عیبیابی مدلهای یادگیری ماشین. ملاحظات عبارتند از:
● اصطلاحات یادگیری ماشین (مانند ویژگیها، برچسبها، مدلها، رگرسیون، طبقهبندی، توصیه، یادگیری تحت نظارت و بدون نظارت، معیارهای ارزیابی)
● تأثیر وابستگیهای مدلهای یادگیری ماشین
● منابع رایج خطا (به عنوان مثال، فرضیات مربوط به داده ها)
تضمین کیفیت راه حل
طراحی برای امنیت و انطباق. ملاحظات عبارتند از:
● مدیریت هویت و دسترسی (به عنوان مثال، Cloud IAM)
● امنیت داده (رمزگذاری، مدیریت کلید)
● اطمینان از حریم خصوصی (به عنوان مثال، API پیشگیری از از دست دادن داده)
● انطباق قانونی (به عنوان مثال، قانون قابلیت حمل و پاسخگویی بیمه سلامت (HIPAA)، قانون حفاظت از حریم خصوصی آنلاین کودکان (COPPA)، FedRAMP، مقررات حفاظت از داده های عمومی (GDPR))
اطمینان از مقیاس پذیری و کارایی. ملاحظات عبارتند از:
● ساخت و اجرای مجموعههای آزمایشی
● نظارت بر خط لوله (به عنوان مثال، نظارت ابری)
● ارزیابی، عیبیابی، و بهبود نمایش دادهها و زیرساختهای پردازش دادهها
● تغییر اندازه و مقیاس خودکار منابع
اطمینان از قابلیت اطمینان و وفاداری. ملاحظات عبارتند از:
● انجام آمادهسازی دادهها و کنترل کیفیت (مانند Dataprep)
● تأیید و نظارت
● برنامه ریزی، اجرا، و بازیابی داده های تست استرس (تحمل خطا، اجرای مجدد کارهای ناموفق، انجام تجزیه و تحلیل مجدد گذشته نگر)
● انتخاب بین الزامات ACID، ناتوان و در نهایت سازگار
اطمینان از انعطاف پذیری و قابلیت حمل. ملاحظات عبارتند از:
● نگاشت نیازهای فعلی و آتی کسب و کار
● طراحی برای قابلیت حمل داده و برنامه (مانند چند ابری، الزامات اقامت داده)
● مرحله بندی داده ها، فهرست نویسی، و کشف
مربی مستقل
نمایش نظرات