لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
آموزش اصول مهندسی قابلیت اطمینان سایت (SRE)
- آخرین آپدیت
دانلود Site Reliability Engineering (SRE) Principles
نکته:
ممکن هست محتوای این صفحه بروز نباشد ولی دانلود دوره آخرین آپدیت می باشد.
نمونه ویدیوها:
توضیحات دوره:
این دوره شما را با مهارتهای عملی مهندسی قابلیت اطمینان سایت (SRE) برای محیطهای مدرن Cloud-Native و DevOps آشنا میکند. شما با مبانی SRE، از جمله اصول قابلیت اطمینان، رابطه بین SRE و DevOps و معیارهای کلیدی قابلیت اطمینان مانند SLIها، SLOها و بودجههای خطا (Error Budgets) شروع خواهید کرد.
سپس به بررسی قابلیت مشاهده (Observability) و عملیات با استفاده از Prometheus، Grafana و Argo CD برای مانیتورینگ، هشداردهی، داشبوردها، استقرار GitOps، مدیریت حوادث، متدهای On-call و تحلیلهای پس از حادثه (Blameless Postmortems) خواهید پرداخت. این دوره با اتوماسیون SRE و بازیابی، شامل Runbookها، Ansible Playbooks، ابزار Pyrra، هشدارهای Burn-rate، بازگشت (Rollback) مبتنی بر GitOps و تشخیص ناهنجاریها به پایان میرسد.
در پایان این دوره، شما قادر خواهید بود اهداف قابلیت اطمینان را تعریف و پیادهسازی کنید، داشبوردهای مانیتورینگ و SLO بسازید، هشدارهای موثر را پیکربندی کنید، حوادث و گزارشهای پس از حادثه را مدیریت نمایید، وظایف عملیاتی را اتوماتیک کنید، بودجههای خطا را ردیابی کرده و استراتژیهای بازیابی را با استفاده از گردش کارهای GitOps به کار ببرید.
این دوره برای مهندسان DevOps، متخصصین SRE، مهندسان پلتفرم، مهندسان ابری، مدیران کوبرنتیز (Kubernetes) و تیمهای عملیاتی طراحی شده است و نیازمند درک پایهای از لینوکس، Git، YAML و مبانی کوبرنتیز است.
همین امروز ثبتنام کنید و گامی بلند به سوی تبدیل شدن به یک مهندس SRE خبره بردارید تا بتوانید سیستمهای ابری منعطف، قابل مشاهده و کاملاً اتوماتیک بسازید که با اطمینان کامل مقیاسپذیر باشند.
سرفصل ها و درس ها
مبانی مهندسی قابلیت اطمینان سایت
Foundations of Site Reliability Engineering
معرفی دوره
Course Introduction
مهندسی قابلیت اطمینان سایت (SRE) چیست؟
What is Site Reliability Engineering?
مقایسه SRE و DevOps: همسویی عملیاتی برای تحویل قابل اطمینان
SRE vs DevOps: Operational Alignment for Reliable Delivery
قابلیت اطمینان، در دسترس بودن و تابآوری در سیستمهای مدرن
Reliability, Availability, and Resilience in Modern Systems
شاخصهای سطح سرویس (SLI) و اهداف سطح سرویس (SLO)
Service Level Indicators and Service Level Objectives
بودجههای خطا و سیاستهای بودجهبندی
Error Budgets and Budget Policies
پروژه عملی: تعریف SLI و SLO برای یک برنامه نمونه - راهاندازی برنامه و اندازهگیری اولیه SLI
Hands-On: Defining SLIs and SLOs for a Sample Application - Sample Application Setup and Initial SLI Measurement
پروژه عملی: تعریف SLI و SLO برای یک برنامه نمونه - تعریف SLOها و بهبود عملکرد قابلیت اطمینان
Hands-On: Defining SLIs and SLOs for a Sample Application - Defining SLOs and Improving Reliability Performance
پروژه عملی: محاسبه بودجه خطا از روی SLO - محاسبه بودجه خطا
Hands-On: Calculating an Error Budget from an SLO - Error Budget Calculation
پروژه عملی: محاسبه بودجه خطا از روی SLO - میزان مصرف بودجه و تصمیمگیری برای انتشار
Hands-On: Calculating an Error Budget from an SLO - Budget Usage and Release Decision
مانیتورینگ، هشداردهی و عملیات مدیریت حوادث
Monitoring, Alerting, and Incident Operations
مبانی قابلیت مشاهده (Observability) برای سیستمهای قابل اطمینان
Observability Fundamentals for Reliable Systems
متریکها، لاگها و تریسها در SRE
Metrics, Logs, and Traces in SRE
پروژه عملی: راهاندازی محیط آزمایشگاهی SRE
Hands-On: Setting Up the SRE Lab Environment
ساخت داشبوردهای موثر SRE
Building Effective SRE Dashboards
اصول هشداردهی و کاهش خستگی ناشی از هشدارها (Alert Fatigue)
Alerting Principles and Reducing Alert Fatigue
پروژه عملی: نصب Prometheus و Grafana - نصب استک مانیتورینگ
Hands-On: Installing Prometheus and Grafana - Monitoring Stack Installation
پروژه عملی: نصب Prometheus و Grafana - تایید نصب و عملکرد
Hands-On: Installing Prometheus and Grafana - Prometheus and Grafana Verification
پروژه عملی: ساخت داشبورد SLO در گرافانا
Hands-On: Building an SLO Dashboard in Grafana
مدیریت حوادث برای سرویسهای قابل اطمینان
Managing Incidents for Reliable Services
بهترین روشهای On-Call و گردش کارهای ارجاع (Escalation)
On-Call Best Practices and Escalations Workflows
پروژه عملی: مدیریت ارجاعات On-Call با استفاده از GoAlert
Hands-On: Managing On - Call Escalations with GoAlert
پروژه عملی: نوشتن گزارش تحلیل پس از حادثه (Blameless Postmortem)
Hands-On: Writing a Blameless Incident Postmortem
اتوماسیون، ردیابی SLO، بازیابی GitOps و هوش مصنوعی در SRE
Automation, SLO Tracking, GitOps Recovery, and AI for SRE
استراتژیهای کاهش کارهای تکراری (Toil) و استانداردسازی Runbook
Toil Reduction Strategies and Runbook Standardization
پروژه عملی: ایجاد یک Runbook پایه برای SRE
Hands-On: Creating a Basic SRE Runbook
پروژه عملی: اتوماسیون وظایف SRE با Ansible Playbooks
Hands-On: Automating SRE Tasks with Ansible Playbooks
بررسیهای قابلیت اطمینان و تصمیمات انتشار
Reliability Reviews and Release Decisions
پروژه عملی: ردیابی SLOها و بودجههای خطا با Pyrra
Hands-On: Tracking SLOs and Error Budgets with Pyrra
نمایش نظرات