Crowdstrike-Ausfall – Nur ein trivialer Programmierfehler?

CrowdStrike, ein führendes Unternehmen im Bereich Cybersicherheit, hat sich durch die Bereitstellung von fortschrittlichen Sicherheitslösungen einen Namen gemacht. Dennoch sind selbst die größten und erfahrensten Technologieunternehmen nicht immun gegen Ausfälle. Ein solcher Vorfall ereignete sich jüngst bei CrowdStrike, der durch einen trivialen Programmierfehler verursacht wurde, wie die Fachpresse sowie CrowdStrike[1] berichtet. Ein System, das für Verfügbarkeit sorgen soll, verhindert die Verfügbarkeit.

Dieser Beitrag beleuchtet die Hintergründe des Ausfalls, analysiert die möglichen Ursachen und diskutiert die Lehren, die daraus gezogen werden können.

Überblick über CrowdStrike und seine Bedeutung

CrowdStrike wurde 2011 gegründet und hat sich schnell zu einem Marktführer im Bereich Cybersicherheit entwickelt. Mit seinem cloudbasierten Plattform-Ansatz bietet das Unternehmen Schutz vor einer Vielzahl von Bedrohungen, darunter Malware, Ransomware und andere Cyberangriffe, wie man auf der Unternehmensseite lesen kann. Die Produkte von CrowdStrike werden von zahlreichen großen Unternehmen und Institutionen weltweit genutzt, was die Tragweite eines Ausfalls umso bedeutender macht.

Der Vorfall: Was ist passiert?

Der Vorfall ereignete sich im Juli 2024, als mehrere Kunden von CrowdStrike über Ausfälle und Störungen in den angebotenen Sicherheitsdiensten berichteten. Diese Störungen beeinträchtigten die Fähigkeit der Kunden, auf wichtige Sicherheitsfunktionen zuzugreifen und ihre Systeme effektiv zu überwachen.

Analyse des Fehlers: Ein triviale Programmierfehler?

Nach einer gründlichen und sorgfältigen Untersuchung durch die Entwickler von CrowdStrike konnten wir feststellen, dass der Ausfall auf einen eigentlich ganz einfachen Programmierfehler zurückzuführen war. Dem Untersuchungsbericht folgend gibt es umfangreiche Test- und Prüfszenarien, um die angeblich hohe Qualität des Produkts zu gewährleisten, was wirklich lobenswert ist.

Es ist schon erstaunlich, dass eine Längenprüfung des Arrays in einer Konfigurationsdatei nicht durchgeführt wurde. Solche Fehler sind leider schon seit Jahrzehnten bekannt. Es wäre schön, wenn jede gute Qualitätskontrolle solche Unzulänglichkeiten erkennen würde.

Es wäre auch interessant zu erfahren, welche Testverfahren bei der Software zum Einsatz kamen, bevor sie an Millionen von Kunden ausgerollt wurde. Schließlich ist es wichtig, dass solche Programme umfassend getestet werden, insbesondere wenn sie so tief im System integriert sind und so viele Berechtigungen haben.

Wir sind uns nicht sicher, ob hier die Qualitätskontrolle versagt hat. Aus dem Bericht geht hervor, dass es wohl ein unglücklicher Zufall war.

Ich möchte gerne darauf hinweisen, dass meiner Meinung nach einige wichtige Punkte nicht angesprochen wurden:

  • Insider Attack
  • Externer Einfluss
  • Ausführliches Test-Rolloutkonzept
  • Stufenweiser Rollout, nicht alles sofort und gleich

Gerade bei solchen Unternehmen ist es nicht ganz auszuschließen, dass es interne Mitarbeitende gibt, die ganz bewusst Fehler und Backdoors einsteuern könnten. Das ist natürlich ein Risiko, das man leider nie ganz ausschließen kann. Bei den meisten Firmen fehlt leider eine Konzeption gegen „Insider Attacks“.  Die Frage, die ich mir immer stelle, wie viel Geld muss man investieren, dass ich einen Programmierer und die Qualitätskontrolle bestechen kann?

Bedauerlicherweise erlebe ich häufig, dass Software nicht ausreichend getestet wird. Das liegt vermutlich daran, dass die Controller natürlich immer auf die Kosten schauen und nicht zwangsläufig auf die Qualität. Das gilt auch für einen stufenweisen Rollout.

Auswirkung des Ausfalls

„Zahlreiche Unternehmen sowie kritische Sektoren wie Flughäfen, Krankenhäuser, Banken und Behörden waren betroffen. Dabei handelte es sich nicht um einen Sicherheitsvorfall, sondern um ein Update in der Software Falcon. Über 8,5 Millionen Windows-Rechner weltweit waren betroffen“, wie https://www.itsecuritycoach.com/ berichtet. Darunter sind Delta Airlines, Microsoft, Visa, BMW, Allianz oder Ernst&Young. Weltweit aggierenden Unternehmen.

Grundsätzliche Fragen

Es steht die Frage im Raum, ob wirklich alles in die Cloud übertragen werden muss. Dies eröffnet Angreifern ein leichtes Spiel. Ein Angriff auf eine einzelne Firma ist nicht mehr erforderlich, stattdessen wird versucht, in eine zentrale Cloud einzudringen. Auf diese Weise können zeitgleich Dutzende von Firmen angegriffen werden.

Es stellt sich die Frage, ob der Fehler von Cloudstrike möglicherweise doch ein interner Angriff war. Schließlich hätten derartige Fehler in einem Stress-Test der Software auffallen müssen. Zudem ist zu hinterfragen, warum interne Programmierrichtlinien nicht beachtet wurden.

Des Weiteren ist zu eruieren, ob ein simultaner Rollout erforderlich ist. Ein schrittweises Vorgehen wäre bei solchen Updates sinnvoller, sodass nicht alle zeitgleich betroffen wären.

Es ist erforderlich, die gegenwärtig vorherrschende Monokultur der IT-Systeme zu überdenken. Die Verbreitung von Schädlingen in der Landwirtschaft ist ein bekanntes Problem, welches durch den Anbau einer einzigen Pflanzenart auf großer Fläche entsteht. Für Angreifer ein leichtes Spiel. Die Beschaffung eines Sicherheitslochs ermöglicht es, in Millionen von Rechnern einzudringen. Dies stellt einen Albtraum für Privatpersonen und Unternehmen und einen wunderbaren Traum für staatliche Organe dar.

 

Was bedeutet das für die digitale Vorsorge?

 

In vorangehenden Ausführungen wurde bereits von uns darauf verwiesen, dass bei der Nutzung von Passwortmanagern im Internet ein gesundes Maß an Skepsis geboten ist. Wir möchten an dieser Stelle betonen, dass wir nicht grundsätzlich gegen die Nutzung von Onlinediensten sind.

Das zuvor angeführte Beispiel demonstriert, dass es zu Funktionsstörungen kommen kann und die Speicherung der Kennwörter möglicherweise nicht den erforderlichen Sicherheitsstandards entspricht. Obgleich der Provider versichert, dass sämtliche Daten verschlüsselt seien, ist zu berücksichtigen, dass künftige Entwicklungen im Bereich der Quantentechnologie, Softwarefehler sowie rechtliche Vorgaben eine Entschlüsselung durch die Provider erforderlich machen könnten.

Bitte überlegen Sie genau, wem Sie ihre Zugangsdaten anvertrauen.

[1] https://www.crowdstrike.com/wp-content/uploads/2024/08/Channel-File-291-Incident-Root-Cause-Analysis-08.06.2024.pdf

 

 

Post by Armin

Comments are closed.