Pożoga

Kopii bezpieczeństwa nie robisz do pierwszej utraty danych. Nie monitorujesz również do momentu, kiedy po udanym, pełnym grillowania, meczyków w TV, piwek i generalnie dobrej zabawy weekendzie wracasz do pracy… a tam czekają na ciebie zgliszcza, popiół i łzy.

pozoga

Do niedawna monitoring zdawał się prostym przedsięwzięciem. Kilka SNMP trapów, pingi, drobni agenci na hostach. Wszystko w blasku i chwale technologii open-source takich jak np. Nagios, Cacti itp. Wymagały one żmudnej konfiguracji, nierzadko doprowadzając w momencie próby do płaczu. Do dzisiaj mam konwulsje obrzydzenia, gdy przypominam sobie te stracone godziny spędzone nad konfiguracją zależności czy też własnych ekranów prezentacji. Fakt, gdy już się straciło całą młodość, a wszystkie, co bardziej strawne dziewczyny były już zajęte, można było się pochwalić kolegom swoim całkiem sprawnie działającym systemem monitoringu. Przy środowiskach, które zmieniały się stosunkowo rzadko takie podejście miało jeszcze jakiś sens. Aktualnie, podczas gdy codziennie tworzymy nowe maszyny wirtualne, usuwamy stare a nasza sieć przelewa się poprzez fizyczne przełączniki w wirtualne appliance, by za chwilę polecieć przez jakiś tunel, MPLS czy inne licho do chmury publicznej takie chałupnicze podejście może się okazać nieco zgubne. Oczywiście, możemy automatyzować, obmyślać strategię, wchodzić na z hymnem na ustach na barykady… tylko po co.

Na horyzoncie mamy szereg gotowych rozwiązań. Liczba systemów do monitoringu infrastruktury zwiększa się w tempie porównywalnym chyba jedynie do wzrostu ilości hipsterskich festiwali. Każdy z nich kusi jakąś nowalijką. Według obietnic, większość jest w stanie samodzielnie przetrząsnąć nasze podwórko i ujawnić wszelkie nasze najskrytsze sekreciki – poczynając od zapomnianych serwerów, poprzez zamurowane przełączniki, po przemilczane IPS’y. Same się skonfigurują, wygenerują raporty, kupią nam obiad i wyprowadzą psa na spacer. W niektórych z tych obietnic jest sporo prawdy, niektóre trzeba brać przez palce, jednak najważniejszą zmianami względem systemów monitoringu poprzedniej generacji są między innymi dwa, według mnie, bardzo istotne elementy – supermetryki i dynamiczne wykrywanie źródła awarii.

Jeżeli słowo supermetryki kojarzy ci się z metrykami przebranymi w opaski na oczy i peleryny to w zasadzie masz rację. Poza oczywiście faktem, że posiadają one również supermoce pozwalające na analizę aktualnych trendów w infrastrukturze, na których podstawie badane są wszelkie anomalie od stanu normlanego. Owocuje to systemem monitoringu, który nie posiada jedynie bezmyślnych widełek procentowych, wywołujących jakąś reakcje, ale jest w stanie zrozumieć infrastrukturę i pozwolić jej na pracę własnym rytmem. Reagując natomiast na odstępstwa od tego rytmu, np. backup wykonywujący się godzinę dłużej niż zwykle, nietypowe nocne obciążenie bazy danych itp. Drugim wspomnianym elementem jest dynamiczne wykrywanie źródła awarii. Można to przyrównać do bardzo złożonego drzewa zależności między elementami infrastruktury. Tak jak w systemach monitoringu poprzedniej generacji mogliśmy projektować grafy obrazujące jak nasza sieć czy też aplikacje są ze sobą połączone, przez co unikaliśmy w przypadku awarii serwera bazodanowego powodzi powiadomień o niedziałającym szeregu elementów, a dostawaliśmy dosyć konkretną informację, co jest uszkodzone. Aktualnie mechanizm ten poszedł o krok dalej. Dzięki między innymi agregacji logów z całego środowiska, system jest w stanie po wykryciu anomalii automatycznie sprowadzić w urządzeniach z nią związanych, co poszło nie tak. Dzięki czemu na końcu dostajemy powiadomienie, że serwer bazodanowy wcale nie jest uszkodzony, a winna przerwy w oglądaniu mundialu jest ogromna kolejka na karcie HBA w hypervisorze. Poza wyżej wspomnianymi mechanizmami, mamy jeszcze szereg innych elementów, które znacząco mogą ułatwić nam życie. Nie wspominając nawet o GUI, które to od czasów Nagiosa przeszło ewolucję, o której nie śniło się Darwinowi.

Sztuka monitoringu infrastruktury IT ma już za sobą kilkadziesiąt lat historii. Wiele zostało powiedziane, doświadczone i wywnioskowane. Wypadałoby wyjąć głowę z piasku, bo może się okazać, że już od dawna wszyscy jeżdżą super samochodami a my wciąż z uporem maniaka tuningujemy lektykę.

Felieton opublikowany w magazynie IT Professional.