Niedawno minął rok od startu, więc pomyślałem, że to dobry na podsumowanie co się przez ten czas wydarzyło w projekcie
Przebudowałem wykres linii czasu - historia sięga teraz aż 3 lat wstecz, doszły nowe metryki (czas nawiązania połączenia, TTFB, rozmiar odpowiedzi) oraz dodatkowe statystyki: percentyle p50, p75 i średnia. Łatwiej dzięki temu wyłapać, kiedy coś zaczyna delikatnie kuleć, zanim faktycznie padnie.
Pojawiły się push-e na telefon przez integrację z Pushoverem. Można też teraz samemu zdefiniować, które kody HTTP traktujemy jako "ok" - przydatne np. przy endpointach, które celowo zwracają 401 albo 403. Doszły też alerty o zbliżającym się końcu ważności certyfikatu SSL.
Nowość, z której jestem chyba najbardziej zadowolony - osobna podstrona dla każdej awarii. Są tam szczegóły zdarzenia plus automatyczna analiza AI, która próbuje wskazać, co mogło pójść nie tak (timeout, problem z DNS, błąd po stronie aplikacji itp.). Nie zastąpi zaglądania w logi, ale często daje pierwszy dobry trop.
Sporo zmian dla osób, które mają monitorów więcej niż kilka - rozbudowana lista z wyszukiwarką, sortowaniem i filtrowaniem. Przy paru monitorach to żaden problem, ale jak zaczyna ich być kilkadziesiąt, to bez tego ciężko cokolwiek odnaleźć.
Eksperymentalnie odpaliłem też dodatkowe, prostsze narzędzie: https://umonitor.eu/uptime-monitor/ - minimalistyczny monitor dostępności dla popularnych serwisów.
Jak zawsze otwarty jestem na uwagi i pomysły co dorzucić