Grössere System-Ausfälle gibt es zum Glück bei uns in der Migros Aare selten aber es kommt vor. Gestern geschah etwas, dass ich noch nie erlebt habe: zwei grosse Ausfälle die keinen Zusammenhang zueinander haben. Glücklicherweise nicht gleichzeitig.
Ich hatte Frühschicht und so begann es für mich frühmorgens um 06.30 Uhr als eine Filiale meldete dass bei ihnen alle Cardomaten nicht funktionieren. Da heute ein beachtlicher Teil der Einkäufe mit Debit- oder Kreditkarten bezahlt wird, ist dieser Ausfall für die Filiale umsatzgefährdend was wiederum für mich heisst: Dringend. Aufgrund der Uhrzeit durfte ich also gleich einen bemitleidenswerten Kollegen in Luzern aus dem Bett holen (nehme ich jedenfalls an). Bis jetzt war das noch kein grosses Problem, von einem Ausfall ganz zu Schweigen.
Etwas später kommt dann von einer anderen Filiale die Meldung dass bei Ihnen auch ein Cardomat nicht funktioniert. Da habe ich zwar die Stirn gerunzelt aber auf Grund des leicht anderen Fehlerbildes noch keinen Zusammenhang gesehen.
Das hat sich kurze Zeit später, als ein Grossteil der Filialen geöffnet hatte, geändert. Telefone im Sekundentakt. Annehmen – Erfassen – Auflegen – Ein Mal läuten – Annehmen usw. Die Einstufung „Grosses Problem“ haben wir gleich übersprungen auf „Ausfall“. Zum Glück bin ich inzwischen nicht mehr alleine. Die Standard Lösungen helfen alle nichts. Bei einigen Filialen sind alle Cardomaten betroffen, bei anderen nur ein Teil und bei wieder anderen offenbar gar keine. Wie lässt sich das erklären, wo ist der gemeinsame Nenner?
Die Znünipause geht schon mal flöten. Gegen Mittag kommt dann die Erklärung. Der Lieferant für die Software auf den Geräten hat in der Nacht ein Update eingespielt, leider ist ihm dabei ein Server abgeraucht (er hat’s anders umschrieben) und die Konfiguration auf den von ihm bearbeiteten Geräten war korrupt. Die Lösung war also ziemlich einfach: Konfiguration neu laden. Eine entsprechende Anleitung wird an die Filialen abgegeben und von da an war es deutlich ruhiger. Die Mittagspause ist gerettet.
Etwa um 14.30 Uhr, eine halbe Stunde vor meinem Feierabend, bekomme ich ein Telefonat mit der Meldung dass eine Datei nicht abgespeichert werden könne. Tatsächlich ist die Excel Datei offen aber das System meldet beim speichern dass die entsprechende Berechtigung fehlt. Schräg. Ich prüfe Schritt für Schritt ob der Benutzer die Schreibberechtigung auf den Ordnern hat, alles in Ordnung. Zum Schluss die Datei selbst: häh? Keine Informationen vorhanden. Auch andere Dateien im selben Ordner haben keine Einträge mehr. Was zum…? Mit einem Ohr höre ich dass meine Kollegen offenbar gerade ähnlich gelagerte Fälle bearbeiten.
Wir haben ein Tool mit dem wir sehen können wie viele Anrufer gerade in der Leitung warten. Ein Blick darauf verrät mir dass zwei Anrufer momentan Musik hören. Das gilt bei uns bereits als kleine Katastrophe. Ich vertröste den aktuellen Anrufer mit einem Rückruf und renne zu unseren Administratoren rüber. Das muss ich tun, weil das Telefonsystem mir in zwei Sekunden den nächsten Anrufer zuteilen wird aber irgendwie müssen unsere Admins ja erfahren dass wir ein Problem haben.
Zurück beim Arbeitsplatz ist die Anzahl wartender Anrufer bereits auf sechs angestiegen. Mittlere Katastrophe. Ein normales erfassen der Fälle ist jetzt unmöglich, wir nehmen nur noch den Namen und die Telefonnummer auf. Viele Benutzer wissen inzwischen dass sie bei Problemen erst mal den PC neu starten sollen, das verschlimmert leider die Sache noch da die Profildateien nicht mehr beschrieben werden können und ein Neustart an einer Fehlermeldung scheitert. Anzahl wartende Anrufe: über zehn. Grosse Katastrophe.
Mit sechs Leuten sind wir eigentlich heute recht gut besetzt aber natürlich bei weitem nicht genug für diesen Ansturm. Inzwischen hat sich die Anzahl knapp unter zwanzig eingependelt (Desaster), und das war der Moment als ich plötzlich alles lustig fand. Ich kann’s nicht erklären, ich musste einfach lachen. Die Situation war einfach so sureal. Meine Kollegen die alle einen gehetzten Eindruck erwecken und im 15 Sekundentakt das gleiche sagen, die Admins deren Köpfe noch zwei Zentimeter vor den Monitoren waren, die Chefs im Rücken.
Dabei war es gar nicht lustig. Irgendwann ging die Zahl dann runter, teilweise auch weil die Anrufer nicht länger gewartet haben. Kurz darauf wurde der Fehler dann auch gefunden und ausgemerzt. Jetzt haben wir den Spiess umgedreht. Alle Anrufer zurückrufen und informieren dass sie gefälligst wieder arbeiten sollen. War teilweise gar nicht nötig, viele haben das sowieso bemerkt.
Mein Feierabend war natürlich bereits überschritten und mit diversen kleineren Arbeiten die noch ausstanden auch noch nicht in Sichtweite. Er kam dann doch noch und das Fazit war: ich hatte über den Tag verteilt 59 Anrufe, normal sind etwa 15 bis 20. Was für ein Tag. Wenn ich es nur bei Problemen lustig habe, werden jetzt ein paar sehr triste Tage kommen.