Die Single Point Fault Metric, abgekürzt SPFM, ist eine Hardware-Architektur-Metrik aus der funktionalen Sicherheit. Sie wird vor allem im Umfeld der ISO 26262 verwendet und bewertet, wie gut eine sicherheitsbezogene Hardware-Architektur gegen zufällige Hardwarefehler abgesichert ist, die unmittelbar oder trotz vorhandener Diagnose zu einer Verletzung eines Sicherheitsziels führen können. Die SPFM ist damit eine zentrale Kennzahl für die Bewertung von Hardware in sicherheitskritischen Systemen, insbesondere in Automotive-Anwendungen, aber auch in anderen Bereichen, in denen zufällige Hardwareausfälle systematisch analysiert und beherrscht werden müssen.

Inhalt

Im Kern beantwortet die SPFM eine einfache Frage: Welcher Anteil der sicherheitsbezogenen Hardwarefehler ist nicht als kritischer Einzelfehler oder nicht abgedeckter Restfehler wirksam? Je höher die Kennzahl, desto besser ist die Architektur gegen solche Fehlerarten geschützt. Der Idealwert liegt bei 100 Prozent. Ein Wert von 100 Prozent würde bedeuten, dass keine relevanten Single Point Faults und keine relevanten Residual Faults mehr vorhanden sind. In der Praxis wird dieser Idealwert selten erreicht. Entscheidend ist, ob der geforderte Zielwert für den jeweiligen Automotive Safety Integrity Level, kurz ASIL, eingehalten wird.

Die SPFM ist bei allen sicherheitsrelevanten Komponenten im Fahrzeug von besonderer Bedeutung.

Automobil ASIL-Klassifikationen Übersicht - SPFM spielt eine Rolle — Sicherheitssysteme im Fahrzeug (Quelle: TÜV Rheinland)

Definition

SPFM steht für Single Point Fault Metric. Übersetzt bedeutet das etwa „Metrik für Einzelfehler“. Der Begriff ist allerdings etwas enger zu verstehen: sowohl Single Point Faults als auch Residual Faults. Beide Fehlerarten sind für die Bewertung relevant, weil sie zu einer Verletzung eines Sicherheitsziels führen können.

Ein Single Point Fault ist ein Fehler, der ohne das gleichzeitige Auftreten eines weiteren unabhängigen Fehlers direkt zur Verletzung eines Sicherheitsziels führen kann. Das bedeutet: Ein einzelner Hardwarefehler reicht aus, um die Sicherheitsfunktion zu gefährden. Ein solcher Fehler ist aus Sicht der funktionalen Sicherheit besonders kritisch, weil keine zusätzliche Fehlerkombination erforderlich ist.

Ein Residual Fault ist ein Restfehler. Dabei existiert grundsätzlich ein Sicherheitsmechanismus, der einen Fehler erkennen oder beherrschen soll, aber dieser Mechanismus deckt den Fehler nicht vollständig ab. Der nicht diagnostizierte oder nicht beherrschte Anteil bleibt als Residual Fault übrig. Residual Faults entstehen also durch unvollständige Diagnoseabdeckung.

Berechnung

Die Single Point Fault Metric wird aus den Fehlerraten der sicherheitsbezogenen Hardwareelemente berechnet. Dabei werden die Fehlerraten der Single Point Faults und der Residual Faults ins Verhältnis zur gesamten sicherheitsbezogenen Fehlerrate gesetzt.

$\mathrm{SPFM} = 1 – \frac{ \sum \lambda_{\mathrm{SPF}} + \sum \lambda_{\mathrm{RF}} }{ \sum \lambda_{\mathrm{SR}} }$

Dabei gilt: $\lambda_{\mathrm{SPF}} = \text{Fehlerrate der Single Point Faults}$ $\lambda_{\mathrm{RF}} = \text{Fehlerrate der Residual Faults}$ $\lambda_{\mathrm{SR}} = \text{sicherheitsbezogene Fehlerrate}$

Die Formel kann auch als Anteil der nicht kritischen beziehungsweise beherrschten Fehlerraten verstanden werden: $\mathrm{SPFM} = \frac{ \sum \lambda_{\mathrm{SR}} – \sum \lambda_{\mathrm{SPF}} – \sum \lambda_{\mathrm{RF}} }{ \sum \lambda_{\mathrm{SR}} }$

Diese zweite Darstellung zeigt deutlicher, worum es geht: Von der gesamten sicherheitsbezogenen Fehlerrate werden die kritisch verbleibenden Anteile abgezogen. Übrig bleibt der Anteil der sicherheitsbezogenen Hardwarefehler, der aus Sicht der Single Point Fault Metric nicht als Single Point Fault oder Residual Fault wirksam bleibt.

Bedeutung der einzelnen Formelbestandteile

Die Fehlerrate $\lambda$ beschreibt, mit welcher statistischen Häufigkeit ein Hardwareelement ausfällt. In Safety-Analysen wird sie häufig in FIT angegeben. FIT steht für Failures in Time und bedeutet Fehler pro $10^9$ 109 Betriebsstunden. $1\,\mathrm{FIT} = 1 \text{ Fehler pro } 10^9 \text{ Stunden}$

Die Summe $\sum \lambda_{\mathrm{SR}}$ umfasst die sicherheitsbezogenen Fehlerraten der betrachteten Hardware. Nicht jeder denkbare Hardwarefehler ist sicherheitsbezogen. Relevant sind diejenigen Fehler, die in Bezug auf ein konkretes Sicherheitsziel betrachtet werden müssen. Die Single Point Fault Metric ist daher stets eine sicherheitsbezogene Architekturkennzahl.

Die Summe $\sum \lambda_{\mathrm{SPF}}$ enthält die Fehlerraten aller Fehler, die als Single Point Fault klassifiziert wurden. Diese Fehler sind besonders kritisch, weil sie ohne weitere Fehlerkombination zur Verletzung des Sicherheitsziels führen können.

Die Summe $\sum \lambda_{\mathrm{RF}}$ enthält die Fehlerraten der Restfehler. Ein Restfehler bleibt nach Berücksichtigung eines Sicherheitsmechanismus übrig. Typisch ist zum Beispiel ein Diagnosemechanismus mit einem bestimmten Diagnostic Coverage. Erkennt dieser Mechanismus 90 Prozent einer Fehlerart, verbleiben 10 Prozent als Restanteil. Dieser Restanteil kann als Residual Fault in die SPFM eingehen.

Beispielrechnung

Angenommen, eine sicherheitsbezogene Hardwareanalyse ergibt folgende Fehlerraten: $\sum \lambda_{\mathrm{SR}} = 1000\,\mathrm{FIT}$ $\sum \lambda_{\mathrm{SPF}} = 20\,\mathrm{FIT}$ $\sum \lambda_{\mathrm{RF}} = 30\,\mathrm{FIT}$

Dann ergibt sich: $\mathrm{SPFM} = 1 – \frac{20\,\mathrm{FIT} + 30\,\mathrm{FIT}}{1000\,\mathrm{FIT}}$ $\mathrm{SPFM} = 1 – \frac{50}{1000}$ $\mathrm{SPFM} = 1 – 0{,}05 = 0{,}95$

Als Prozentwert: $\mathrm{SPFM} = 95\,\%$

Das Ergebnis bedeutet: 95 Prozent der sicherheitsbezogenen Fehlerrate verbleiben nicht als Single Point Fault oder Residual Fault. 5 Prozent der sicherheitsbezogenen Fehlerrate sind aus SPFM-Sicht kritisch.

Zusammenhang mit FMEDA

Die Single Point Fault Metric wird typischerweise auf Basis einer FMEDA ermittelt. FMEDA steht für Failure Modes, Effects and Diagnostic Analysis. Dabei werden Hardwareelemente, Fehlermodi, Fehlerraten, Fehlerauswirkungen, Sicherheitsmechanismen und Diagnoseabdeckungen systematisch miteinander verknüpft.

In einer FMEDA wird für jedes relevante Hardwareelement analysiert, welche Fehlermodi auftreten können. Für jeden Fehlermodus wird bewertet, ob er sicherheitsrelevant ist, wie er sich auf das System auswirkt und ob ein Sicherheitsmechanismus vorhanden ist. Danach wird der Fehlermodus klassifiziert, beispielsweise als Safe Fault, Single Point Fault, Residual Fault oder Latent Fault.

Die SPFM entsteht also aus der Klassifikation konkreter Fehlerarten. Die Qualität der Metrik hängt deshalb stark von der Qualität der zugrunde liegenden FMEDA ab. Fehlerhafte Annahmen über Fehlermodi, falsche Diagnosedeckungsgrade oder unvollständige Bauteillisten führen zu einem falschen Wert.

Single Point Fault

Ein Single Point Fault ist ein Fehler, der allein eine Verletzung des Sicherheitsziels verursachen kann. Ein einfaches Beispiel ist ein Schaltelement, das in einem gefährlichen Zustand hängen bleibt, ohne dass eine Diagnose diesen Zustand erkennt und ohne dass eine redundante Abschaltmöglichkeit vorhanden ist.

In der Systemarchitektur sind Single Point Faults besonders problematisch. Sie zeigen, dass ein einzelner Hardwareausfall ausreicht, um die Sicherheitsfunktion zu verlieren oder eine gefährliche Ausgangsbedingung zu erzeugen. Die Reduktion von Single Point Faults ist daher ein Hauptziel bei der Verbesserung der SPFM.

Mögliche Maßnahmen gegen Single Point Faults sind Redundanz, Plausibilisierung, Überwachung, Fail-Safe-Zustände, Diagnosepfade, Watchdogs, Rücklesesignale, Strommessung, Spannungsüberwachung oder architektonische Trennung. Welche Maßnahme geeignet ist, hängt vom konkreten System, vom Fehlermodus und vom Sicherheitsziel ab.

Residual Fault

Ein Residual Fault entsteht, wenn ein Sicherheitsmechanismus vorhanden ist, aber nicht alle relevanten Fehler vollständig erkannt oder beherrscht werden. Der Residual Fault ist also der verbleibende kritische Anteil nach Diagnose.

Beispiel: Ein Sensorpfad wird durch eine Plausibilitätsprüfung überwacht. Diese Plausibilitätsprüfung erkennt viele Fehler, aber nicht alle. Wenn bestimmte Fehlerbilder innerhalb plausibler Grenzen bleiben, können sie unentdeckt bleiben. Der Anteil dieser nicht erkannten Fehler geht als Residual Fault in die Berechnung ein.

Mathematisch lässt sich der Restanteil eines Fehleranteils über den Diagnostic Coverage ausdrücken: $\lambda_{\mathrm{RF}} = \lambda_{\mathrm{fault}} \cdot \left( 1 – DC \right)$

Dabei ist $DC$ DC der Diagnostic Coverage als Faktor zwischen 0 und 1. Bei einem Diagnostic Coverage von 90 Prozent gilt: $DC = 0{,}90$

Dann verbleiben: $1 – DC = 0{,}10$

Also bleiben 10 Prozent der betreffenden Fehlerrate als Restfehler übrig.

Single Point Fault Metric und Diagnostic Coverage

Die SPFM ist eng mit dem Diagnostic Coverage verbunden, aber sie ist nicht dasselbe. Der Diagnostic Coverage beschreibt, wie gut ein bestimmter Sicherheitsmechanismus eine bestimmte Fehlerklasse erkennt oder beherrscht. Die Single Point Fault Metric dagegen ist eine Architekturmetrik, die über alle betrachteten sicherheitsbezogenen Hardwareelemente hinweg berechnet wird.

Ein hoher Diagnostic Coverage einzelner Mechanismen verbessert in der Regel die Single Point Fault Metric, weil dadurch Residual Faults kleiner werden. Allerdings reicht ein einzelner guter Diagnosemechanismus nicht automatisch aus. Wenn andere kritische Fehlermodi unentdeckt bleiben, kann die SPFM trotzdem zu niedrig sein.

Single Point Fault Metric im Verhältnis zur LFM

Neben der SPFM wird in der Hardwarebewertung häufig die Latent Fault Metric, kurz LFM, verwendet. Während die Metrik den Umgang mit Single Point Faults und Residual Faults bewertet, betrachtet die LFM schlafende Mehrfachfehler, also Latent Multiple Point Faults.

Die LFM wird mit folgender Formel beschrieben: $\mathrm{LFM} = 1 – \frac{ \sum \lambda_{\mathrm{MPF,L}} }{ \sum \lambda_{\mathrm{SR}} – \sum \lambda_{\mathrm{SPF}} – \sum \lambda_{\mathrm{RF}} }$

Dabei gilt: $\lambda_{\mathrm{MPF,L}} = \text{Fehlerrate der latenten Mehrpunktfehler}$

Latente Mehrpunktfehler führen nicht allein zur Verletzung eines Sicherheitsziels. Sie werden erst dann kritisch, wenn ein weiterer unabhängiger Fehler hinzukommt. Trotzdem müssen sie betrachtet werden, weil sie über längere Zeit unentdeckt im System vorhanden sein können.

SPFM und LFM bewerten also unterschiedliche Aspekte der Hardwarearchitektur. Die SPFM betrachtet unmittelbar kritische Einzel- und Restfehler. Die LFM betrachtet versteckte Mehrpunktfehler, die erst in Kombination gefährlich werden.

Single Point Fault Metric im Verhältnis zur PMHF

Eine weitere wichtige Kennzahl ist die PMHF. PMHF steht für Probabilistic Metric for random Hardware Failures. Während SPFM und LFM Architekturmetriken sind, betrachtet die PMHF die probabilistische Gesamtfehlerrate gefährlicher zufälliger Hardwareausfälle.

Vereinfacht kann die PMHF aus den relevanten gefährlichen Anteilen gebildet werden: $\mathrm{PMHF} = \sum \lambda_{\mathrm{SPF}} + \sum \lambda_{\mathrm{RF}} + \sum \lambda_{\mathrm{MPF,L}}$

Die PMHF wird als Fehlerrate angegeben, beispielsweise in FIT oder als Ausfallwahrscheinlichkeit pro Stunde. SPFM und LFM sind dagegen dimensionslose Verhältniswerte, die häufig in Prozent angegeben werden.

Damit erfüllen die Kennzahlen unterschiedliche Aufgaben. Die SPFM beantwortet die Frage, wie gut die Architektur gegen Single Point Faults und Residual Faults geschützt ist. Die LFM beantwortet die Frage, wie gut latente Mehrpunktfehler beherrscht werden. Die PMHF beantwortet die Frage, wie hoch die verbleibende gefährliche zufällige Hardwarefehlerrate ist.

Warum die Single Point Fault Metric wichtig ist

Die SPFM zwingt Entwickler dazu, Hardwareausfälle nicht nur qualitativ zu betrachten, sondern quantitativ einzuordnen. Ohne eine solche Metrik könnte eine Architektur zwar plausibel wirken, aber dennoch zu viele gefährliche Einzel- oder Restfehler enthalten.

Gerade bei komplexen elektronischen Systemen ist diese quantitative Betrachtung wichtig. Mikrocontroller, Sensoren, Aktoren, Spannungsversorgungen, Treiberstufen, Speicher, Kommunikationsschnittstellen und Überwachungsschaltungen besitzen jeweils eigene Fehlermodi. Diese Fehlermodi können unterschiedliche Auswirkungen auf Sicherheitsziele haben.

Die SPFM macht sichtbar, an welchen Stellen die Architektur zu schwach ist. Wenn die Metrik den geforderten Zielwert nicht erreicht, liegt der kritische Anteil in der Summe der Single Point Faults und Residual Faults. Dann muss analysiert werden, welche Fehlermodi den größten Beitrag liefern. Häufig sind wenige dominante Fehlermodi mit hohen Fehlerraten oder schlechter Diagnoseabdeckung.

Typische Maßnahmen

Eine SPFM kann verbessert werden, indem die Fehlerraten der Single Point Faults und Residual Faults reduziert werden. Dafür gibt es mehrere technische Wege.

Erstens können Single Point Faults durch Architekturmaßnahmen beseitigt oder reduziert werden. Dazu gehören redundante Pfade, unabhängige Abschaltmechanismen, Rücklesefunktionen, Monitore, Vergleichslogiken oder Watchdogs. Ziel ist, dass ein einzelner Fehler nicht mehr unmittelbar zur Verletzung des Sicherheitsziels führt.

Zweitens können Residual Faults durch bessere Sicherheitsmechanismen reduziert werden. Wenn ein Fehler bereits diagnostiziert wird, aber der Diagnostic Coverage nicht ausreicht, kann eine verbesserte Diagnose helfen. Beispiele sind engere Plausibilitätsgrenzen, zusätzliche Messkanäle, zyklische Tests, End-to-End-Überwachung, RAM-Tests, Flash-CRC-Prüfungen, Clock-Monitoring oder Spannungsüberwachung.

Drittens kann die Fehlerrate einzelner Komponenten reduziert werden. Wenn ein Bauteil mit hoher Fehlerrate einen großen Beitrag zur kritischen Summe liefert, kann ein robusteres Bauteil oder eine andere Schaltungstopologie helfen.

Viertens kann die Sicherheitsfunktion architektonisch anders verteilt werden. Manchmal entsteht ein schlechter SPFM-Wert, weil zu viel Sicherheitsverantwortung an einem einzelnen Hardwarepfad hängt. Eine andere Aufteilung von Überwachung, Steuerung und Abschaltung kann die Metrik verbessern.

Einordnung für Embedded-Systeme

In Embedded-Systemen betrifft die Single Point Fault Metric viele typische Hardwarebereiche. Dazu gehören Mikrocontroller, Taktversorgung, Speicher, Spannungsregler, Sensorik, Aktorik, Leistungstreiber, Kommunikationsschnittstellen und externe Überwachungsschaltungen.

Ein Mikrocontroller kann beispielsweise durch CPU-Fehler, Speicherfehler, Registerfehler, Peripheriefehler oder Clock-Fehler betroffen sein. Sicherheitsmechanismen können Lockstep-Architekturen, RAM-Tests, Flash-Prüfsummen, MPU-Konfigurationen, Watchdogs, Clock-Monitore oder interne Safety-Mechanismen sein.

Bei Sensoren spielen Fehler wie Kurzschluss, Unterbrechung, Drift, Stuck-at-Werte oder plausible, aber falsche Signale eine Rolle. Bei Aktoren und Leistungstreibern sind Fehler wie Kurzschluss nach Versorgung, Kurzschluss nach Masse, offene Last, Hängenbleiben eines Ausgangs oder thermische Überlast relevant.

Die SPFM zwingt dazu ihren Beitrag zur gefährlichen Fehlerrate zu bewerten. Dadurch wird sichtbar, ob die Sicherheitsarchitektur nur formal vorhanden ist oder ob sie die kritischen Fehleranteile tatsächlich reduziert.

Bedeutung für ASIL-Bewertungen

Im Automotive-Kontext wird die Single Point Fault Metric in Abhängigkeit vom ASIL bewertet. Höhere ASIL-Stufen stellen höhere Anforderungen an die Hardwarearchitektur. Ein System mit ASIL D benötigt strengere Nachweise als ein System mit ASIL B.

Die SPFM ist dabei kein isolierter Nachweis. Sie ist Teil der Hardwarebewertung und steht im Zusammenhang mit Sicherheitszielen, technischen Sicherheitsanforderungen, FMEDA, Sicherheitsmechanismen, LFM und PMHF. Ein bestandener SPFM-Wert ersetzt nicht die übrigen Nachweise. Er zeigt nur, dass die Architektur bezüglich Single Point Faults und Residual Faults den geforderten Zielbereich erreicht.

Zurück zum Glossar

Threat and Risk Assessment