Přeskočit obsah

Continuity plan

za minutu. InfluxDB se používá k ukládání telemetrických dat. Grafana se používá jako webové uživatelské rozhraní pro inspekci telemetrie.

  1. Alertování a notifikace: Monitorovací systém je nakonfigurován tak, aby generoval upozornění a notifikace v případě potenciálních selhání, jako je nízký prostor na disku, vysoké využití zdrojů nebo zvýšené chybovosti.

  2. Monitorovací panely: Monitorovací panely jsou poskytovány v Grafaně, které zobrazují nejdůležitější metriky pro systém, jako je využití zdrojů, chybovost a doby odezvy.

  3. Konfigurace monitorování: Pravidelně se provádějí revize a aktualizace konfigurace monitorování, aby se zajistilo, že je efektivní a odráží změny v systému.

  4. Školení v monitorování: Školení jsou poskytována pro monitorovací tým a další relevantní strany o monitorovacím systému a monitorovacích panelech v Grafaně.

Architektura vysoké dostupnosti

TeskaLabs LogMan.io je nasazen v architektuře s vysokou dostupností (HA) s více uzly, aby se snížilo riziko jednotlivých bodů selhání.

Architektura vysoké dostupnosti je návrhový vzor, který má za cíl zajistit, aby systém zůstal funkční a dostupný, i v případě selhání nebo narušení.

V clusteru LogMan.io zahrnuje architektura vysoké dostupnosti následující komponenty:

  1. Vyvažování zátěže: Distribuce příchozího provozu mezi více instancemi mikroservisů, čímž se zlepšuje odolnost systému a snižuje dopad selhání.

  2. Redundantní úložiště: Ukládání dat redundatně napříč více úložnými uzly, aby se předešlo ztrátě dat v případě selhání úložiště.

  3. Více brokerů: Použití více brokerů v Apache Kafka pro zlepšení odolnosti messaging systému a snížení dopadu selhání brokerů.

  4. Automatické přepnutí: Automatické přepínací mechanismy, jako je volba vůdce v Apache Kafka, aby se zajistilo, že systém pokračuje v činnosti v případě selhání uzlu clusteru.

  5. Monitorování a alertování: Použití monitorovacích a alertovacích komponentů k detekci potenciálních selhání a spuštění automatických přepínacích mechanismů, když je to nutné.

  6. Postupné aktualizace: Aktualizace systému bez narušení jeho normálního provozu, tím, že se uzly aktualizují jeden po druhém, bez výpadku.

  7. Replikace dat: Replikace logů napříč více uzly clusteru, aby se zajistilo, že systém pokračuje v činnosti, i když jeden nebo více uzlů selže.

Komunikační plán

Jasný a dobře komunikovaný plán pro reakci na selhání a komunikaci se zainteresovanými stranami pomáhá minimalizovat dopad selhání a zajistit, že všichni jsou na stejné vlně.

  1. Identifikace zainteresovaných stran: Identifikujte všechny zainteresované strany, které je třeba informovat během a po katastrofě, jako jsou zaměstnanci, zákazníci, dodavatelé a partneři.

  2. Účastnící organizace: Operátor LogMan.io, integrační strana a dodavatel (TeskaLabs).

  3. Komunikační kanály: Komunikační kanály, které budou použity během a po katastrofě, jsou Slack, e-mail, telefon a SMS.

  4. Plán eskalace: Specifikujte plán eskalace, aby se zajistilo, že správní lidé budou informováni ve správný čas během katastrofy a že komunikace je koordinována a efektivní.

  5. Aktualizace a údržba: Pravidelně aktualizujte a udržujte komunikační plán, aby odrážel změny v organizaci, jako jsou nové zainteresované strany nebo komunikační kanály.