دسترسی سریع:

مسیر:

صفحه اصلی

لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در کانال تلگرام عضو شوید.

آموزش اصول مهندسی قابلیت اطمینان سایت (SRE) - آخرین آپدیت

دانلود Site Reliability Engineering (SRE) Principles

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.

نمونه ویدیوها: (صرفا برای مشاهده نمونه ویدیو، ممکن هست نیاز به شکن داشته باشید.)

توضیحات دوره: این دوره شما را با مهارت‌های عملی مهندسی قابلیت اطمینان سایت (SRE) برای محیط‌های مدرن Cloud-Native و DevOps آشنا می‌کند. شما با مبانی SRE، از جمله اصول قابلیت اطمینان، رابطه بین SRE و DevOps و معیارهای کلیدی قابلیت اطمینان مانند SLIها، SLOها و بودجه‌های خطا (Error Budgets) شروع خواهید کرد. سپس به بررسی قابلیت مشاهده (Observability) و عملیات با استفاده از Prometheus، Grafana و Argo CD برای مانیتورینگ، هشداردهی، داشبوردها، استقرار GitOps، مدیریت حوادث، متدهای On-call و تحلیل‌های پس از حادثه (Blameless Postmortems) خواهید پرداخت. این دوره با اتوماسیون SRE و بازیابی، شامل Runbookها، Ansible Playbooks، ابزار Pyrra، هشدارهای Burn-rate، بازگشت (Rollback) مبتنی بر GitOps و تشخیص ناهنجاری‌ها به پایان می‌رسد. در پایان این دوره، شما قادر خواهید بود اهداف قابلیت اطمینان را تعریف و پیاده‌سازی کنید، داشبوردهای مانیتورینگ و SLO بسازید، هشدارهای موثر را پیکربندی کنید، حوادث و گزارش‌های پس از حادثه را مدیریت نمایید، وظایف عملیاتی را اتوماتیک کنید، بودجه‌های خطا را ردیابی کرده و استراتژی‌های بازیابی را با استفاده از گردش کارهای GitOps به کار ببرید. این دوره برای مهندسان DevOps، متخصصین SRE، مهندسان پلتفرم، مهندسان ابری، مدیران کوبرنتیز (Kubernetes) و تیم‌های عملیاتی طراحی شده است و نیازمند درک پایه‌ای از لینوکس، Git، YAML و مبانی کوبرنتیز است. همین امروز ثبت‌نام کنید و گامی بلند به سوی تبدیل شدن به یک مهندس SRE خبره بردارید تا بتوانید سیستم‌های ابری منعطف، قابل مشاهده و کاملاً اتوماتیک بسازید که با اطمینان کامل مقیاس‌پذیر باشند.

سرفصل ها و درس ها

مبانی مهندسی قابلیت اطمینان سایت Foundations of Site Reliability Engineering

معرفی دوره Course Introduction
مهندسی قابلیت اطمینان سایت (SRE) چیست؟ What is Site Reliability Engineering?
مقایسه SRE و DevOps: همسویی عملیاتی برای تحویل قابل اطمینان SRE vs DevOps: Operational Alignment for Reliable Delivery
قابلیت اطمینان، در دسترس بودن و تاب‌آوری در سیستم‌های مدرن Reliability, Availability, and Resilience in Modern Systems
شاخص‌های سطح سرویس (SLI) و اهداف سطح سرویس (SLO) Service Level Indicators and Service Level Objectives
بودجه‌های خطا و سیاست‌های بودجه‌بندی Error Budgets and Budget Policies
پروژه عملی: تعریف SLI و SLO برای یک برنامه نمونه - راه‌اندازی برنامه و اندازه‌گیری اولیه SLI Hands-On: Defining SLIs and SLOs for a Sample Application - Sample Application Setup and Initial SLI Measurement
پروژه عملی: تعریف SLI و SLO برای یک برنامه نمونه - تعریف SLOها و بهبود عملکرد قابلیت اطمینان Hands-On: Defining SLIs and SLOs for a Sample Application - Defining SLOs and Improving Reliability Performance
پروژه عملی: محاسبه بودجه خطا از روی SLO - محاسبه بودجه خطا Hands-On: Calculating an Error Budget from an SLO - Error Budget Calculation
پروژه عملی: محاسبه بودجه خطا از روی SLO - میزان مصرف بودجه و تصمیم‌گیری برای انتشار Hands-On: Calculating an Error Budget from an SLO - Budget Usage and Release Decision

مانیتورینگ، هشداردهی و عملیات مدیریت حوادث Monitoring, Alerting, and Incident Operations

مبانی قابلیت مشاهده (Observability) برای سیستم‌های قابل اطمینان Observability Fundamentals for Reliable Systems
متریک‌ها، لاگ‌ها و تریس‌ها در SRE Metrics, Logs, and Traces in SRE
پروژه عملی: راه‌اندازی محیط آزمایشگاهی SRE Hands-On: Setting Up the SRE Lab Environment
ساخت داشبوردهای موثر SRE Building Effective SRE Dashboards
اصول هشداردهی و کاهش خستگی ناشی از هشدارها (Alert Fatigue) Alerting Principles and Reducing Alert Fatigue
پروژه عملی: نصب Prometheus و Grafana - نصب استک مانیتورینگ Hands-On: Installing Prometheus and Grafana - Monitoring Stack Installation
پروژه عملی: نصب Prometheus و Grafana - تایید نصب و عملکرد Hands-On: Installing Prometheus and Grafana - Prometheus and Grafana Verification
پروژه عملی: ساخت داشبورد SLO در گرافانا Hands-On: Building an SLO Dashboard in Grafana
مدیریت حوادث برای سرویس‌های قابل اطمینان Managing Incidents for Reliable Services
بهترین روش‌های On-Call و گردش کارهای ارجاع (Escalation) On-Call Best Practices and Escalations Workflows
پروژه عملی: مدیریت ارجاعات On-Call با استفاده از GoAlert Hands-On: Managing On - Call Escalations with GoAlert
پروژه عملی: نوشتن گزارش تحلیل پس از حادثه (Blameless Postmortem) Hands-On: Writing a Blameless Incident Postmortem

اتوماسیون، ردیابی SLO، بازیابی GitOps و هوش مصنوعی در SRE Automation, SLO Tracking, GitOps Recovery, and AI for SRE

استراتژی‌های کاهش کارهای تکراری (Toil) و استانداردسازی Runbook Toil Reduction Strategies and Runbook Standardization
پروژه عملی: ایجاد یک Runbook پایه برای SRE Hands-On: Creating a Basic SRE Runbook
پروژه عملی: اتوماسیون وظایف SRE با Ansible Playbooks Hands-On: Automating SRE Tasks with Ansible Playbooks
بررسی‌های قابلیت اطمینان و تصمیمات انتشار Reliability Reviews and Release Decisions
پروژه عملی: ردیابی SLOها و بودجه‌های خطا با Pyrra Hands-On: Tracking SLOs and Error Budgets with Pyrra
پروژه عملی: پیکربندی هشدارهای نرخ مصرف (Burn Rate) Hands-On: Configuring Burn Rate Alerts
استفاده از GitOps برای عملیات قابل اطمینان GitOps for Reliable Operations
هوش مصنوعی در SRE: تشخیص ناهنجاری و پاسخ هوشمند AI for SRE: Anomaly Detection and Intelligent Response
پروژه عملی: اجرای Rollback مبتنی بر GitOps با Argo CD Hands-On: Performing GitOps-Based Rollback with Argo CD
پروژه عملی: تشخیص ناهنجاری‌های متریک با Prometheus و Grafana Hands-On: Detecting Metric Anomalies with Prometheus and Grafana

جمع‌بندی دوره و ارزیابی‌ها Course Wrap-Up and Assessments

جمع‌بندی نهایی دوره Course Summary

برای ارسال نظر ثبت نام کنید.

نمایش نظرات

آموزش اصول مهندسی قابلیت اطمینان سایت (SRE)

جزییات دوره

زمان دوره: 8h 43m

تعداد ویدیو ها: 33

شرکت: Coursera (کورسرا)

تاریخ انتشار مرجع: (آخرین آپدیت)

بازدید مرجع : 2

امتیاز مرجع: - از 5

فایل تمرین: دارد

زیرنویس زبان اصلی: دارد

زیرنویس فارسی: (توسط هوش مصنوعی) دارد

مدرس: Chris Croft

لینک کوتاه این دوره

https://donyad.com/d/a51217

جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

نرم افزارهای مورد نیاز

آموزش اصول مهندسی قابلیت اطمینان سایت (SRE) - آخرین آپدیت

دانلود Site Reliability Engineering (SRE) Principles

مبانی مهندسی قابلیت اطمینان سایت Foundations of Site Reliability Engineering

معرفی دوره Course Introduction

مهندسی قابلیت اطمینان سایت (SRE) چیست؟ What is Site Reliability Engineering?

مقایسه SRE و DevOps: همسویی عملیاتی برای تحویل قابل اطمینان SRE vs DevOps: Operational Alignment for Reliable Delivery

قابلیت اطمینان، در دسترس بودن و تاب‌آوری در سیستم‌های مدرن Reliability, Availability, and Resilience in Modern Systems

شاخص‌های سطح سرویس (SLI) و اهداف سطح سرویس (SLO) Service Level Indicators and Service Level Objectives

بودجه‌های خطا و سیاست‌های بودجه‌بندی Error Budgets and Budget Policies

پروژه عملی: تعریف SLI و SLO برای یک برنامه نمونه - راه‌اندازی برنامه و اندازه‌گیری اولیه SLI Hands-On: Defining SLIs and SLOs for a Sample Application - Sample Application Setup and Initial SLI Measurement

پروژه عملی: تعریف SLI و SLO برای یک برنامه نمونه - تعریف SLOها و بهبود عملکرد قابلیت اطمینان Hands-On: Defining SLIs and SLOs for a Sample Application - Defining SLOs and Improving Reliability Performance

پروژه عملی: محاسبه بودجه خطا از روی SLO - محاسبه بودجه خطا Hands-On: Calculating an Error Budget from an SLO - Error Budget Calculation

پروژه عملی: محاسبه بودجه خطا از روی SLO - میزان مصرف بودجه و تصمیم‌گیری برای انتشار Hands-On: Calculating an Error Budget from an SLO - Budget Usage and Release Decision

مانیتورینگ، هشداردهی و عملیات مدیریت حوادث Monitoring, Alerting, and Incident Operations

مبانی قابلیت مشاهده (Observability) برای سیستم‌های قابل اطمینان Observability Fundamentals for Reliable Systems

متریک‌ها، لاگ‌ها و تریس‌ها در SRE Metrics, Logs, and Traces in SRE

پروژه عملی: راه‌اندازی محیط آزمایشگاهی SRE Hands-On: Setting Up the SRE Lab Environment

ساخت داشبوردهای موثر SRE Building Effective SRE Dashboards

اصول هشداردهی و کاهش خستگی ناشی از هشدارها (Alert Fatigue) Alerting Principles and Reducing Alert Fatigue

پروژه عملی: نصب Prometheus و Grafana - نصب استک مانیتورینگ Hands-On: Installing Prometheus and Grafana - Monitoring Stack Installation

پروژه عملی: نصب Prometheus و Grafana - تایید نصب و عملکرد Hands-On: Installing Prometheus and Grafana - Prometheus and Grafana Verification

پروژه عملی: ساخت داشبورد SLO در گرافانا Hands-On: Building an SLO Dashboard in Grafana

مدیریت حوادث برای سرویس‌های قابل اطمینان Managing Incidents for Reliable Services

بهترین روش‌های On-Call و گردش کارهای ارجاع (Escalation) On-Call Best Practices and Escalations Workflows

پروژه عملی: مدیریت ارجاعات On-Call با استفاده از GoAlert Hands-On: Managing On - Call Escalations with GoAlert

پروژه عملی: نوشتن گزارش تحلیل پس از حادثه (Blameless Postmortem) Hands-On: Writing a Blameless Incident Postmortem

اتوماسیون، ردیابی SLO، بازیابی GitOps و هوش مصنوعی در SRE Automation, SLO Tracking, GitOps Recovery, and AI for SRE

استراتژی‌های کاهش کارهای تکراری (Toil) و استانداردسازی Runbook Toil Reduction Strategies and Runbook Standardization

پروژه عملی: ایجاد یک Runbook پایه برای SRE Hands-On: Creating a Basic SRE Runbook

پروژه عملی: اتوماسیون وظایف SRE با Ansible Playbooks Hands-On: Automating SRE Tasks with Ansible Playbooks

بررسی‌های قابلیت اطمینان و تصمیمات انتشار Reliability Reviews and Release Decisions

پروژه عملی: ردیابی SLOها و بودجه‌های خطا با Pyrra Hands-On: Tracking SLOs and Error Budgets with Pyrra

پروژه عملی: پیکربندی هشدارهای نرخ مصرف (Burn Rate) Hands-On: Configuring Burn Rate Alerts

استفاده از GitOps برای عملیات قابل اطمینان GitOps for Reliable Operations

هوش مصنوعی در SRE: تشخیص ناهنجاری و پاسخ هوشمند AI for SRE: Anomaly Detection and Intelligent Response

پروژه عملی: اجرای Rollback مبتنی بر GitOps با Argo CD Hands-On: Performing GitOps-Based Rollback with Argo CD

پروژه عملی: تشخیص ناهنجاری‌های متریک با Prometheus و Grafana Hands-On: Detecting Metric Anomalies with Prometheus and Grafana

جمع‌بندی دوره و ارزیابی‌ها Course Wrap-Up and Assessments

جمع‌بندی نهایی دوره Course Summary

نمایش نظرات

https://donyad.com/d/a51217