Continuity plan
za minutu. InfluxDB se používá k ukládání telemetrických dat. Grafana se používá jako webové uživatelské rozhraní pro inspekci telemetrie.
-
Alertování a notifikace: Monitorovací systém je nakonfigurován tak, aby generoval upozornění a notifikace v případě potenciálních selhání, jako je nízký prostor na disku, vysoké využití zdrojů nebo zvýšené chybovosti.
-
Monitorovací panely: Monitorovací panely jsou poskytovány v Grafaně, které zobrazují nejdůležitější metriky pro systém, jako je využití zdrojů, chybovost a doby odezvy.
-
Konfigurace monitorování: Pravidelně se provádějí revize a aktualizace konfigurace monitorování, aby se zajistilo, že je efektivní a odráží změny v systému.
-
Školení v monitorování: Školení jsou poskytována pro monitorovací tým a další relevantní strany o monitorovacím systému a monitorovacích panelech v Grafaně.
Architektura vysoké dostupnosti¶
TeskaLabs LogMan.io je nasazen v architektuře s vysokou dostupností (HA) s více uzly, aby se snížilo riziko jednotlivých bodů selhání.
Architektura vysoké dostupnosti je návrhový vzor, který má za cíl zajistit, aby systém zůstal funkční a dostupný, i v případě selhání nebo narušení.
V clusteru LogMan.io zahrnuje architektura vysoké dostupnosti následující komponenty:
-
Vyvažování zátěže: Distribuce příchozího provozu mezi více instancemi mikroservisů, čímž se zlepšuje odolnost systému a snižuje dopad selhání.
-
Redundantní úložiště: Ukládání dat redundatně napříč více úložnými uzly, aby se předešlo ztrátě dat v případě selhání úložiště.
-
Více brokerů: Použití více brokerů v Apache Kafka pro zlepšení odolnosti messaging systému a snížení dopadu selhání brokerů.
-
Automatické přepnutí: Automatické přepínací mechanismy, jako je volba vůdce v Apache Kafka, aby se zajistilo, že systém pokračuje v činnosti v případě selhání uzlu clusteru.
-
Monitorování a alertování: Použití monitorovacích a alertovacích komponentů k detekci potenciálních selhání a spuštění automatických přepínacích mechanismů, když je to nutné.
-
Postupné aktualizace: Aktualizace systému bez narušení jeho normálního provozu, tím, že se uzly aktualizují jeden po druhém, bez výpadku.
-
Replikace dat: Replikace logů napříč více uzly clusteru, aby se zajistilo, že systém pokračuje v činnosti, i když jeden nebo více uzlů selže.
Komunikační plán¶
Jasný a dobře komunikovaný plán pro reakci na selhání a komunikaci se zainteresovanými stranami pomáhá minimalizovat dopad selhání a zajistit, že všichni jsou na stejné vlně.
-
Identifikace zainteresovaných stran: Identifikujte všechny zainteresované strany, které je třeba informovat během a po katastrofě, jako jsou zaměstnanci, zákazníci, dodavatelé a partneři.
-
Účastnící organizace: Operátor LogMan.io, integrační strana a dodavatel (TeskaLabs).
-
Komunikační kanály: Komunikační kanály, které budou použity během a po katastrofě, jsou Slack, e-mail, telefon a SMS.
-
Plán eskalace: Specifikujte plán eskalace, aby se zajistilo, že správní lidé budou informováni ve správný čas během katastrofy a že komunikace je koordinována a efektivní.
-
Aktualizace a údržba: Pravidelně aktualizujte a udržujte komunikační plán, aby odrážel změny v organizaci, jako jsou nové zainteresované strany nebo komunikační kanály.