IT monitoring. Wat willen wij; reactief, proactief of voorspellend?

De discussie bij monitoring is altijd; zijn we nu proactief? Een mooie discussie waar je niet zo 123 uitkomt.

De business wil nooit gebeld worden door de klanten om te vertellen dat de dienstverlening niet beschikbaar is. Het bedrijf wil de klanten vertellen dat ze het al gesignaleerd hebben en dat ze bezig zijn met de oplossing of beter nog dat ze het al opgelost hebben.

Het is verstandig om na elk incident de juiste vragen te stellen om de volwassenheid van je IT organisatie te meten en bij te stellen waar nodig.

De volgende drie vragen vullen elkaar aan en helpen je:

  1. Kregen we een alert toen “het” down ging of belde de klant ons?
  2. Kunnen we een proactief alert krijgen voordat “het” down gaat?
  3. Kunnen we een trend spotten in het gedrag wat heeft geleid tot deze verstoring en kunnen we daar een alert opzetten zodat we het aan zien komen?

De bovenstaande vragen zijn direct gelinkt aan de volgende categorieën die ik zie:

Reactief – Alerts die opkomen bij een verstoring

Meerdere events kunnen naar boven komen bij een algehele systeemverstoring. Uiteindelijk zal één van deze events leiden tot een alert die je op de hoogte brengt van de verstoring. Dit kan komen van gebruikers die je bellen of van een monitoringsysteem.

Helaas is op dit moment al zo groot dat het impact heeft op de eindgebruiker en moet de brand geblust worden. Dit kan beter!

Proactief – Alerts die opkomen voor een verstoring

Deze alerts komen vaak van proactieve monitoringsystemen die je vertellen dat bepaalde onderdelen van een systeem kapot zijn of kapot aan het gaan zijn. Deze verstoringen hebben nog geen impact op de algehele beschikbaarheid van het systeem.

Alerts worden afgegeven omdat een bepaalde threshold overschreden is. Vaak zijn er meerdere niveaus zodat de status kan oplopen van goed naar slechter naar kritiek.

Thresholds zijn hard te configureren, bijvoorbeeld o.b.v. een SLA waarde, maar dit is niet wenselijk want verschillend gebruik van het systeem geeft andere resultaten.

De grote trend in de monitoring wereld op moment van schrijven is dat het monitoringsysteem een baseline opbouwd en gaat alarmeren op afwijkingen van deze baseline. Dit kan ook op de 3 niveaus zoals eerder gemeld, bijvoorbeeld 2 x afwijking t.o.v. baseline is slecht maar 3 x is kritiek.

Het is heel belangrijk dat je genoeg relevante data verzamelt over een langere periode en ook dat je het systeem, wat dit gedrag moet herkennen, helpt om patronen te herkennen. Veel tools kunnen dit zelf maar je moet zelf ook opletten dat je de tool niet de verkeerde conclusies laat trekken.

Een goed voorbeeld is hier de kerstperiode. Wanneer in het gehele jaar het aantal pintransacties gemiddeld XYZ per dag is zal dat het normale gedrag zijn wat de tool kent. Als tijdens kerst dit aantal verveelvoudigd zal dit leiden tot een alert vanwege afwijkend gedrag. Op dat moment moet je de tool vertellen dat dit voor deze periode normaal is en zo leert de tool bij.

Voorspellend – Alerts die je op de hoogte brengen van een mogelijke verstoring in de toekomst

Het hoogste niveau wat je kunt behalen is voorspellend. Alerts die aangeven uit welke hoek een verstoring komt en wanneer hij komt. Dit vereist een uitstekend data analyse platform. In dit platform moet data uit alle mogelijke systemen samenkomen om zo de juiste conclusies te kunnen trekken.

Ik verwacht dat dit in de toekomst zeer veel aandacht zal krijgen. Veel leveranciers claimen dit out-of-the-box te kunnen maar de ervaring is dat dit niet het geval is. Daarnaast zijn veel organisaties hier niet klaar voor. Soms willen zij de proactieve fase overslaan of half implementeren. Daarmee weet je zeker dat voorspellend helemaal niet gaat lukken.

Conclusie

In een volwassen IT organisatie zijn alle beschreven niveaus ingericht. Voorspellende alerts zijn belangrijk om te voorkomen dat gebruikers gaan bellen. Er is hier kans op alerts die uiteindelijk niet tot een verstoring hebben geleidt maar better safe than sorry!

Proactieve alerts zijn een basisbehoefte van elke IT organisatie omdat het ontbreken van deze signalen zal leiden tot een organisatie die altijd achter de feiten aanloopt en alleen maar brandjes blust.

Reactieve alerts zijn niet nutteloos. Op het moment dat je middels eerdere alerts bezig bent een grote verstoring te voorkomen kan het toch gebeuren dat je de eindgebruiker raakt. Op dat moment wil je een goede impact-bepaling kunnen doen en wil je de eindgebruiker op de hoogte brengen van de verstoring.

Voorspellend is waar iedereen niet naartoe wil maar lang niet iedereen weet hoe je er moet komen.Organisaties zijn er vaak ook niet klaar voor.

Ik weet dat veel IT’ers anders denken over deze definities en ik daag je uit ze hier te vermelden want daar kunnen ik en anderen alleen maar van leren.

Over Coen Meerbeek

Splunk consultant @ Blue Factory, eigenaar en oprichter @ BuzzardLabs, basketbalspeler en Xbox-gamer. Lees meer van Coen op Launchers.nl en Twitter.

Laat wat van je horen

*