آموزش اصول مهندسی قابلیت اطمینان سایت (SRE) - آخرین آپدیت

دانلود Site Reliability Engineering (SRE) Principles

نکته: ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره: این دوره شما را با مهارت‌های عملی مهندسی قابلیت اطمینان سایت (SRE) برای محیط‌های مدرن Cloud-Native و DevOps آشنا می‌کند. شما با مبانی SRE، از جمله اصول قابلیت اطمینان، رابطه بین SRE و DevOps و معیارهای کلیدی قابلیت اطمینان مانند SLIها، SLOها و بودجه‌های خطا (Error Budgets) شروع خواهید کرد. سپس به بررسی قابلیت مشاهده (Observability) و عملیات با استفاده از Prometheus، Grafana و Argo CD برای مانیتورینگ، هشداردهی، داشبوردها، استقرار GitOps، مدیریت حوادث، متدهای On-call و تحلیل‌های پس از حادثه (Blameless Postmortems) خواهید پرداخت. این دوره با اتوماسیون SRE و بازیابی، شامل Runbookها، Ansible Playbooks، ابزار Pyrra، هشدارهای Burn-rate، بازگشت (Rollback) مبتنی بر GitOps و تشخیص ناهنجاری‌ها به پایان می‌رسد. در پایان این دوره، شما قادر خواهید بود اهداف قابلیت اطمینان را تعریف و پیاده‌سازی کنید، داشبوردهای مانیتورینگ و SLO بسازید، هشدارهای موثر را پیکربندی کنید، حوادث و گزارش‌های پس از حادثه را مدیریت نمایید، وظایف عملیاتی را اتوماتیک کنید، بودجه‌های خطا را ردیابی کرده و استراتژی‌های بازیابی را با استفاده از گردش کارهای GitOps به کار ببرید. این دوره برای مهندسان DevOps، متخصصین SRE، مهندسان پلتفرم، مهندسان ابری، مدیران کوبرنتیز (Kubernetes) و تیم‌های عملیاتی طراحی شده است و نیازمند درک پایه‌ای از لینوکس، Git، YAML و مبانی کوبرنتیز است. همین امروز ثبت‌نام کنید و گامی بلند به سوی تبدیل شدن به یک مهندس SRE خبره بردارید تا بتوانید سیستم‌های ابری منعطف، قابل مشاهده و کاملاً اتوماتیک بسازید که با اطمینان کامل مقیاس‌پذیر باشند.

سرفصل ها و درس ها

مبانی مهندسی قابلیت اطمینان سایت Foundations of Site Reliability Engineering

  • معرفی دوره Course Introduction

  • مهندسی قابلیت اطمینان سایت (SRE) چیست؟ What is Site Reliability Engineering?

  • مقایسه SRE و DevOps: همسویی عملیاتی برای تحویل قابل اطمینان SRE vs DevOps: Operational Alignment for Reliable Delivery

  • قابلیت اطمینان، در دسترس بودن و تاب‌آوری در سیستم‌های مدرن Reliability, Availability, and Resilience in Modern Systems

  • شاخص‌های سطح سرویس (SLI) و اهداف سطح سرویس (SLO) Service Level Indicators and Service Level Objectives

  • بودجه‌های خطا و سیاست‌های بودجه‌بندی Error Budgets and Budget Policies

  • پروژه عملی: تعریف SLI و SLO برای یک برنامه نمونه - راه‌اندازی برنامه و اندازه‌گیری اولیه SLI Hands-On: Defining SLIs and SLOs for a Sample Application - Sample Application Setup and Initial SLI Measurement

  • پروژه عملی: تعریف SLI و SLO برای یک برنامه نمونه - تعریف SLOها و بهبود عملکرد قابلیت اطمینان Hands-On: Defining SLIs and SLOs for a Sample Application - Defining SLOs and Improving Reliability Performance

  • پروژه عملی: محاسبه بودجه خطا از روی SLO - محاسبه بودجه خطا Hands-On: Calculating an Error Budget from an SLO - Error Budget Calculation

  • پروژه عملی: محاسبه بودجه خطا از روی SLO - میزان مصرف بودجه و تصمیم‌گیری برای انتشار Hands-On: Calculating an Error Budget from an SLO - Budget Usage and Release Decision

مانیتورینگ، هشداردهی و عملیات مدیریت حوادث Monitoring, Alerting, and Incident Operations

  • مبانی قابلیت مشاهده (Observability) برای سیستم‌های قابل اطمینان Observability Fundamentals for Reliable Systems

  • متریک‌ها، لاگ‌ها و تریس‌ها در SRE Metrics, Logs, and Traces in SRE

  • پروژه عملی: راه‌اندازی محیط آزمایشگاهی SRE Hands-On: Setting Up the SRE Lab Environment

  • ساخت داشبوردهای موثر SRE Building Effective SRE Dashboards

  • اصول هشداردهی و کاهش خستگی ناشی از هشدارها (Alert Fatigue) Alerting Principles and Reducing Alert Fatigue

  • پروژه عملی: نصب Prometheus و Grafana - نصب استک مانیتورینگ Hands-On: Installing Prometheus and Grafana - Monitoring Stack Installation

  • پروژه عملی: نصب Prometheus و Grafana - تایید نصب و عملکرد Hands-On: Installing Prometheus and Grafana - Prometheus and Grafana Verification

  • پروژه عملی: ساخت داشبورد SLO در گرافانا Hands-On: Building an SLO Dashboard in Grafana

  • مدیریت حوادث برای سرویس‌های قابل اطمینان Managing Incidents for Reliable Services

  • بهترین روش‌های On-Call و گردش کارهای ارجاع (Escalation) On-Call Best Practices and Escalations Workflows

  • پروژه عملی: مدیریت ارجاعات On-Call با استفاده از GoAlert Hands-On: Managing On - Call Escalations with GoAlert

  • پروژه عملی: نوشتن گزارش تحلیل پس از حادثه (Blameless Postmortem) Hands-On: Writing a Blameless Incident Postmortem

اتوماسیون، ردیابی SLO، بازیابی GitOps و هوش مصنوعی در SRE Automation, SLO Tracking, GitOps Recovery, and AI for SRE

  • استراتژی‌های کاهش کارهای تکراری (Toil) و استانداردسازی Runbook Toil Reduction Strategies and Runbook Standardization

  • پروژه عملی: ایجاد یک Runbook پایه برای SRE Hands-On: Creating a Basic SRE Runbook

  • پروژه عملی: اتوماسیون وظایف SRE با Ansible Playbooks Hands-On: Automating SRE Tasks with Ansible Playbooks

  • بررسی‌های قابلیت اطمینان و تصمیمات انتشار Reliability Reviews and Release Decisions

  • پروژه عملی: ردیابی SLOها و بودجه‌های خطا با Pyrra Hands-On: Tracking SLOs and Error Budgets with Pyrra

  • پروژه عملی: پیکربندی هشدارهای نرخ مصرف (Burn Rate) Hands-On: Configuring Burn Rate Alerts

  • استفاده از GitOps برای عملیات قابل اطمینان GitOps for Reliable Operations

  • هوش مصنوعی در SRE: تشخیص ناهنجاری و پاسخ هوشمند AI for SRE: Anomaly Detection and Intelligent Response

  • پروژه عملی: اجرای Rollback مبتنی بر GitOps با Argo CD Hands-On: Performing GitOps-Based Rollback with Argo CD

  • پروژه عملی: تشخیص ناهنجاری‌های متریک با Prometheus و Grafana Hands-On: Detecting Metric Anomalies with Prometheus and Grafana

جمع‌بندی دوره و ارزیابی‌ها Course Wrap-Up and Assessments

  • جمع‌بندی نهایی دوره Course Summary

نمایش نظرات

آموزش اصول مهندسی قابلیت اطمینان سایت (SRE)
جزییات دوره
8h 43m
33
(آخرین آپدیت)
2
- از 5
دارد
دارد
دارد
Chris Croft
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Chris Croft Chris Croft

مربی مدیریت، سخنران، نویسنده