Il tuo sistema è affidabile? Scoprilo grazie all’MTBF

Verifiche sistemi tratta da: http://www.cfd-engineering.it/impianti/_WFC/Source/WFC_Med/Media/4474HXC9.jpg

La materia dell’affidabilità dei sistemi, dei processi nonché dei prodotti è un campo vastissimo all’interno del quale si sente la necessità di fare ordine utilizzando figure di merito studiate ad hoc. Così discendono una serie di concetti che rendono questa materia strutturata e rigorosa. Quella di oggi è un’introduzione al “tempo medio tra i guasti” MTBF ma approfondiremo anche l’MTTF, l’MTTFd, il ROCOF e l’MTTR ed i parametri RAM: affidabilità (Reliability), disponibilità (Availability), manutenibilità (Maintainability).

Quando si decide di realizzare un qualunque sistema, o prodotto, che è frutto di un processo produttivo, esiste la necessità di garantirne la manutenibilità ma anche la durata nel tempo. Così, la teoria probabilistica suggerisce la necessità di introduzione di una serie di figure di merito che ci permettano di caratterizzare non soltanto la vita ma anche la resa degli oggetti in esame.

Il sistema, o il prodotto, nel tempo potrebbe aver bisogno di essere revisionato e quindi sarà necessario effettuare uno studio statistico, o caratterizzare in termini statistici, sui tempi e sui modi di intervento. Ad esempio, se una ditta ha in gestione un impianto di illuminazione stradale, sarà altamente sconveniente, dal punto di vista economico, effettuare verifiche ispettive giornaliere per controllare che tutte le lampade all’interno degli apparecchi siano in funzione e non effettivamente danneggiate. Piuttosto sarà una scelta intelligente quella di caratterizzare il sistema specifico sulla base di un’analisi accurata di tutti gli interventi di cui può aver bisogno. Sempre rimanendo nell’ambito di questo esempio, potremmo subito ragionare sul fatto che un impianto di illuminazione stradale avrà bisogno della sostituzione delle lampade, della pulizia periodica degli apparecchi, della revisione dell’impianto elettrico e per ciascuno di questi interventi sarà necessario considerare il costo della manodopera, degli eventuali pezzi che sono da sostituire e così via dicendo.

Affrontare questi interventi dal punto di vista statistico garantisce, come tutti noi facilmente intuiamo, che i costi generali di intervento si riducono perché è molto meno costoso poter andare sul posto a sostituire 10 lampade fulminate piuttosto che mettere in campo tutto il sistema di gestione della sostituzione di una lampada per ciascuna che si sia fulminata volta per volta. Se si comincia a considerare che una lampada dura in media 10.000 ore (anche se questa è una cifra indicativa e assolutamente non precisa perché dipende da tanti fattori tra cui il tipo di lampada!), che gli apparecchi d’illuminazione vanno puliti tanto più frequentemente quanto maggiore è la quantità di smog cui sono esposti (perché se l’impianto si trova in una galleria molto lunga certamente avviene prima), e via dicendo, si mette a sistema tutta una serie di fattori che rendono la gestione più efficace ed organica.

Ma questo discorso non vale, certamente, soltanto per l’esempio che abbiamo citato ma anche per la manutenzione necessaria su un impianto industriale che effettui una determinata operazione, ad esempio una saldatrice.

È evidente, quindi, che queste considerazioni possono essere applicate a qualunque aspetto della vita produttiva del tessuto industriale così come lo conosciamo oggi.

Vediamo allora quali sono le figure di merito che possono aiutare a caratterizzare questi processi.

 

MTBF = Mean time between failure

Letteralmente vuol dire “tempo medio fra guasti”; si tratta di una stima sul tempo che intercorre tra il verificarsi di un “fallimento” (che noi traduciamo propriamente con guasto) ed il successivo. In pratica è una misura dell’affidabilità del sistema, del processo o del prodotto. L’oggetto dell’analisi è quasi irrilevante se si considera che il concetto è quello della durata media. Questo indicatore può essere calcolato come la media temporale aritmetica tra i guasti del sistema in esame. Si tratta, tipicamente, di un modello che prevede l’ipotesi che non appena il sistema si sia “guastato”, venga immediatamente ripristinato. Questa ipotesi risulta esemplificativa ed utile in questo momento, anche se, vedremo tra un attimo, che non è esattamente così perché esiste un’altra figura di merito di interesse che prende il nome di “mean time to repair” (MTTR) il cui scopo è proprio quello di caratterizzare il tempo medio che intercorre tra il guasto e la successiva riparazione.

È chiaro che questi indicatori contribuiscono al processo di revisione, di controllo e, se vogliamo, di mantenimento dello standard qualitativo. In quest’ottica è necessario, soprattutto, definire che cosa per noi è un guasto ovvero che tipo di sistema stiamo analizzando e come può guastarsi. Altra cosa che è necessario considerare e che il sistema viene assunto riparabile ma questo non è necessariamente sempre vero ed è per questo che bisogna considerare il tipo di guasto ed il tipo di sistema, o di processo.

Per capire come un sistema può guastarsi è necessario, prima di tutto, definire il concetto di guasto che però risulta piuttosto intuitivo perché per guasto possiamo intendere qualunque tipo di alterazione o malfunzionamento o anomalia operativa rispetto alle condizioni di progetto del sistema. Ciò vuol dire che non appena il processo dovesse produrre un prodotto anche solo leggermente non conforme a quello risultante dall’operazione di un macchinario perfettamente funzionante, allora sussiste il concetto di guasto. Ovviamente questo non è sempre rigorosamente vero in questo modo perché, a seconda di una serie di parametri tra cui il budget disponibile, è possibile che ci siano alterazioni “tollerate” che garantiscono comunque un prodotto conforme alle specifiche anche se non rigidamente “perfetto”.

Per verificare che un sistema o un processo stiano funzionando in maniera corretta sarà necessario prevedere un’ispezione di tutti i prodotti che si ritiene utile controllare. L’analisi che può essere effettuata in questo caso può prevedere l’utilizzo di metodi di campionamento per attributi per variabili.

La stima del valore MTBF rappresenta un elemento importante, quindi, nello sviluppo dei processi e così una serie di figure professionali inquadrate nello studio e nella caratterizzazione di questi parametri sono deputate a verificare e validare i processi secondo metodi o standard che si riferiscono a campi specifici oppure che sono codificati. Alcuni esempi in tal senso sono rappresentati da MIL-HDBK-217F, Telcordia SR332, Siemens Norm, FIDES,UTE 80-810 (RDF2000). Scopo di questi metodi è quello di concentrare gli sforzi di progetto per cercare di migliorare quelli che sono i suoi punti deboli.

Tenendo a mente i concetti espressi fino a questo momento, ci si riferisce al MTBF come alla somma dei “periodi di funzionamento”, ovvero gli intervalli di tempo che intercorrono tra l’inizio del “downtime” fino alla fine del “uptime”, rapportato al numero di guasti che sono occorsi.

Questa figura di merito può essere, spesso, indicata con la lettera θ e può essere anche definita in funzione del valore atteso della funzione densità di probabilità di fallimento (ovvero come funzione densità di tempo intercorso fino al guasto successivo) calcolando

per la quale funzione, ovviamente, vale la relazione cumulativa

 

Oltre l’MTBF

Ci sono molte grandezze caratteristiche e figure di merito significative che possono essere utilizzate in sostituzione oppure in contemporanea con quella di cui abbiamo parlato; esiste il MTBSA (acronimo di Mean Time Between System Abort) ed anche MTBCF (che sta per Mean Time Between Critical Failures) oppure ancora il MTBUR (sigla che significa Mean Time Between Unit Replacement). Ciascuna di esse risulta utile a seconda dell’applicazione, pertanto questa nomenclatura viene utilizzata anche per effettuare una differenziazione tra i tipi differenti di guasto che possono occorrere. In particolare è, ora, il caso di specificare che il guasto non è necessariamente impedente per il funzionamento o definitivo ma può essere anche, come accennato in precedenza, una “deriva” del processo. Un esempio tipico potrebbe essere la realizzazione della filettatura di un tubo d’acciaio che ha necessità di essere rigidamente uguale a se stessa per garantire lo standard ma il processo potrebbe produrre filettatura leggermente anomale come risultato di una macchina la cui precisione sta degradando nel tempo.

Piuttosto che il calcolo dell’MTBF, a volte, si preferisce utilizzarne l’indicatore MTTF, ovvero il cosiddetto “tempo medio al guasto”. Questa scelta viene spesso adottata nel caso in cui stiamo parlando di sistemi il cui funzionamento viene completamente ripristinato a seguito di un guasto. Questo è concettualmente diverso da quello che succede con l’MTBF perché questo secondo indicatore “rileva” l’intervallo di tempo che intercorre tra guasti in un sistema che venga riparato. Esiste, infine, l’MTTFd che è fondamentalmente lo stesso indice ma considera soltanto i guasti dei quali potrebbero generare situazioni pericolose, ad esempio danni irreversibili ai macchinari oppure condizioni di funzionamento che non rispettano gli standard sulla sicurezza.

 

Calcolo degli indicatori

È importante, adesso, accennare alla metodologia di calcolo dell’MTTF e dell’MTTFd. Per entrambi definiamo B10 il numero di operazioni che il dispositivo sarà in grado di effettuare entro e non oltre il 10% del campione di quelli che risulteranno danneggiati e con B10d  l’analoga quantità riferita al caso di potenziale danno. Se nop rappresenta il numero delle operazioni che il processo che segue, avremo:

MTTF = B10/(0.1 nop) e MTTFd = B10d/(0.1 nop)

 

Tasso di guasto

Con il termine “tasso di guasto” si vuole indicare la frequenza con la quale un componente di un sistema, elettronico o meno, tende a rompersi. Questa cifra di merito viene espressa in termini di unità danneggiate per ogni ora (di funzionamento). Viene, generalmente, indicata con la lettera λ e riveste un ruolo di grande importanza nell’affidabilità.

Il tasso di guasto di un sistema dipende, solitamente, dal tempo con un tasso che varia nell’ambito del ciclo di vita del sistema stesso. Immaginando di rivolgere la nostra attenzione al caso di un’automobile, il suo tasso di guasto per un certo numero di anni di servizio (supponiamo cinque) può essere molto più grande rispetto al tasso di guasto riferito ad un periodo di tempo della stessa durata ma precedente. Per essere chiari, i primi cinque anni di utilizzo la macchina subirà meno riparazioni rispetto ai secondi cinque anni e così via nel tempo. È questo il motivo per cui negli interventi di manutenzione programmata, nelle previsioni e nei tagliandi si cerca di controllare i vari componenti dell’automobile in funzione della sua età, calcolata dal momento dell’immatricolazione. È, infatti, altamente improbabile un danno alla cinghia di trasmissione dopo 5000 km o che renda necessaria la sostituzione degli pneumatici dopo soli 2000 però, ecco, il termine usato è proprio quello giusto: è improbabile. E questo dipende dal fatto che, tipicamente, l’usura è di un certo tipo e si suppone che sia più o meno omogenea in maniera trasversale rispetto al tipo di automobile in esame e che si possa standardizzare il tempo medio di funzionamento senza guasti, assimilando che l’auto sia il sistema è che i suoi componenti siano i pezzi che possono danneggiarsi.

Nella pratica, il tempo medio tra i guasti, l’MTBF, viene spesso utilizzato in luogo del tasso di guasto. Questa approssimazione è valida ed utile quando il tasso di guasto può essere assunto costante, il che corrisponde al caso in cui il sistema in esame sia comunque complesso e costituito da diversi componenti. In alcuni campi applicativi, poi, questa assunzione risulta particolarmente utile; esempi di questa affermazione sono gli ambiti aerospaziale e militare.

Per questo particolare studio viene, spesso e volentieri, utilizzato un diagramma noto come “vasca da bagno”, come riportato in figura

A tale curva si fa anche riferimento con il nome di “periodo di vita utile”.

Il motivo per il quale si preferisce utilizzare l’MTBF è dato dal fatto che l’uso di numeri interi positivi grandi in modulo, di solito, risulta poco intuitivo o comunque non semplice; quindi, in luogo di cifre come 150.000 ore oppure 100.000 km, si utilizzano i numeri più piccoli come 1,5 oppure 3 all’ora.

L’MTFB è un parametro importante quando si vuole caratterizzare un sistema specie quando il tasso di guasto ha necessità di essere gestito con grande attenzione; un esempio sopra tutti è quello cui abbiamo già fatto cenno in precedenza, ovvero quando il guasto del sistema possa portare un impianto industriale a lavorare in condizioni potenzialmente dannose per la salute dei lavoratori. Ecco per quale motivo questa figura di merito compare spesso nei parametri di progetto che si desidera inseguire, quindi diventa una specifica. Da questo parametro, inoltre, dipenderà, ovviamente, anche la sequenza degli interventi di manutenzione e di controllo. Specifiche politiche di gestione potrebbero portare anche all’istituzione di scadenze di controllo intermedie che non siano soltanto verifiche ispettive esterne ma anche interne all’azienda.

Nell’ambito di particolari processi, detti processi di rinnovamento, in cui il tempo di riparazione di un guasto può essere trascurato e la probabilità del guasto rimane costante nel tempo, il tasso di guasto può semplicemente essere visto come l’inverso dell’MTBF.

Un criterio simile viene utilizzato nell’industria del trasporto, specialmente quando parliamo di ferrovie e trasporto su gomma; lì un parametro “cruciale” è rappresentato dall’MDBF, ovvero la “distanza media (percorsa) tra i guasti”. Questa figura di merito viene introdotta al fine di correlare le distanze percorse con i carichi trasportati ed i mezzi utilizzati.

I tassi di guasto sono fattori importanti quando si voglia calcolare variabili come il premio di un’assicurazione, i costi di manutenzione del sistema, ma trova largo impiego anche nel campo del commercio più in generale e della finanza perché risulta fondamentale per dimensionare una grande quantità di parametri.

Vediamo di darne, però, una definizione più formale; possiamo definire il tasso di guasto come “il numero totale di guasti tra oggetti di una popolazione rapportato al tempo di operatività dell’intera popolazione nell’ambito di uno specificato intervallo di rilevazione, in condizioni specificate. (MacDiarmid, et al.)

Anche se il tasso di guasto viene spesso considerato come la probabilità che il guasto si verifichi in uno specifico intervallo temporale che non abbia visto guasti prima dell’istante di tempo di osservazione, questa grandezza non rappresenta affatto una probabilità perché può superare il valore unitario. Non si tratta dunque di una variabile la cui cumulativa verifica sia la somma della probabilità totale.

Inoltre, il fatto che questa grandezza sia espressa in percentuale potrebbe essere percepito come una misura relativa, specialmente se dovesse essere calcolato per sistemi che siano ripristinabili o che non abbiano un tasso di guasto costante. Può essere definito, grazie all’utilizzo della funzione “affidabilità” R(t), come il rapporto

λ(t)=f(t)/R(t)

in cui la funzione f indica il tempo che intercorre fino al primo guasto mentre R(t)=1-F(t). Quest’ultima posizione è lecita in quanto F è una funzione cumulativa. Se si fa riferimento, dunque, ad un intervallo di tempo Δt, si ha:

λ(t)=(R(t)-R(t+ Δt))/ (Δt R(t))

Così, la funzione λ dimostra di essere una probabilità condizionata alla funzione densità del guasto. La condizione è rappresentata dal fatto che il guasto può non aver avuto luogo entro l’istante di osservazione.

 

Il concetto di rischio

Da quanto detto finora discende che esiste, ed è pregnante, il concetto di rischio associato al fatto che il guasto si sia verificato. Così esistono due figure in merito fondamentali che riescono a descrivere queste possibilità e sono: l’hazard rate ed il ROCOF (Rate of OCcurence Of Failure).

Questa grandezza non è affatto omologa al tasso di guasto, benché molti facciano confusione. Il rischio, ovvero “hazard rate”, è un concetto diverso dal ROCOF così come sono diversi entrambi dal tasso di guasto perché il ROCOF può essere utilizzato solamente per sistemi che siano ripristinabili e quindi riparabili.

Se si vuole calcolare il tasso di guasto anche per intervalli di tempo più piccoli si ottiene la “hazard function”, che indichiamo con h(t); questa grandezza diventa il tasso di guasto istantaneo (!) se l’intervallo temporale lo facciamo tendere a zero

calcoliamo, dunque, questa grandezza come limite di h(t). È evidente che un tasso di guasto continuo dipenda dalla distribuzione F(t) che, come abbiamo già detto, è una funzione cumulativa ed è deputata a descrivere la probabilità di guasto fino al tempo t.

Pertanto possiamo scrivere:

Così la “hazard function” può essere definita come:

I tassi di guasto possono essere espressi utilizzando qualunque unità di misura temporale ma, come si intuisce da quello che è stato detto in precedenza, è molto più comune l’utilizzo delle ore piuttosto che di minuti o secondi, per via delle grandi (in modulo) quantità in gioco. È anche molto frequente che queste grandezze siano espresse con notazione ingegneristica, ovvero in parti per milione (ppm).

 

I guasti nel tempo

Esiste un’altra figura di merito, un ulteriore tasso che è necessario considerare ed è il FIT, acronimo di Failures In Time, cioè “guasti nel tempo”; si tratta del numero di guasti che ci si può aspettare che avvengano in 1 miliardo di ore di funzionamento del dispositivo. Il numero così grande suggerisce che l’industria che maggiormente può beneficiare dall’introduzione di questa figura di merito è proprio quella dei semiconduttori, per i quali il tasso di guasto è estremamente basso proprio perché si segue il diagramma a vasca da bagno.

Esiste una relazione precisa tra il FIT e l’MTBF ed è la seguente:

MTBF = 1,000,000,000 x 1/FIT.

 

Mean Time to Repair (MTTR)

Questa cifra è significativa perché si utilizza per dare una misura della manutenibilità dei sistemi che è possibile riparare. Rappresenta il tempo medio necessario per effettuare la riparazione del componente danneggiato e può essere espressa matematicamente come il tempo totale speso per effettuare operazioni di manutenzione correttiva diviso per il numero totale di interventi di manutenzione nel periodo di tempo specificato.

Una delle grandezze che resta “esclusa” da questa analisi è il tempo necessario per far pervenire i ricambi oppure perché gli operatori si portino sul luogo dove deve essere effettuato l’intervento e questo dipende dal fatto che questi fattori vengono tenuti in conto nelle dinamiche logistiche e amministrative e possono rientrare nel bilancio del “Downtime”.

Esistono progetti (processi) che fanno parte di una classe che prende il nome di “fault-tolerant”, ovvero resistenti ai guasti. Si tratta di sistemi che possono essere realizzati grazie al principio della ridondanza oppure che, in qualche modo, sono in grado di autoripararsi. Qui l’MTTR viene tipicamente considerato comprensivo del tempo di “latenza” del guasto, ovvero il tempo necessario perché il guasto venga rilevato (oppure divenga evidente).

L’MTTR è, come intuitivamente da tutto questo discorso si arguisce, parte delle condizioni contrattuali proprio per l’azienda che nell’esempio precedente aveva in gestione l’impianto di illuminazione stradale oppure di una società di revisione esterna che controlli il processo di fabbricazione di quell’automobile di cui si parlava prima. Una delle condizioni che si potrebbe chiedere di rispettare è che l’intervento ed il ripristino delle condizioni ottimali di funzionamento avvengano entro e non oltre le 24 ore, cosa assai frequente quando il rischio per la salute dei lavoratori diventa alto.

Ad ogni modo, sempre rimanendo nel contesto del contratto di manutenzione, potrebbe essere molto importante effettuare una distinzione sulla base del fatto che l’MTTR misuri il tempo medio tra l’istante in cui il guasto viene scoperto perché è palese fino al momento in cui il sistema viene ripristinato (Mean Time to Recovery) piuttosto che una misura del tempo trascorso tra il momento in cui inizia la riparazione e quello in cui il sistema viene ripristinato (Mean Time To Repair).

 

I parametri RAM

Caratteristiche che sono fondamentali per i sistemi, comunque essi siano conformati si tratta di: affidabilità (Reliability), disponibilità (Availability), manutenibilità (Maintainability).

Anche in questi casi, e per queste specifiche aree, vengono definiti degli standard e dei criteri al livello legislativo. Com’è noto esistono norme e regole tecniche che possono rappresentare standard dei jure o de facto oppure essere del tutto volontarie. A seconda del tipo di norma alla quale si fa riferimento i criteri possono essere diversi e per questo conviene far riferimento ad una norma che specifica esattamente di che tipo di grandezze stiamo parlando.

Secondo le UNI 10147:

  • affidabilità: è la probabilità che il sistema operi nei modi prestabiliti così come da specifiche di funzionamento per un dato periodo di tempo in date condizioni;
  • disponibilità: attitudine di un sistema, in un dato istante, a svolgere le funzioni prestabilite, come da specifiche di funzionamento, nelle condizioni operative prescritte, supponendo che siano stati assicurati gli opportuni interventi di manutenzione necessaria al suo mantenimento in efficienza;
  • manutenibilità: è la proprietà di un sistema ad essere mantenuto, definita come la probabilità che un’azione di manutenzione attiva possa essere eseguita durante un intervallo di tempo dato, in condizioni date mediante l’uso di procedure e mezzi prescritti. In generale i requisiti qualitativi di manutenibilità sono riconducibili ad accessibilità, estraibilità e manipolabilità.

I parametri RAM, così come dalla UNI 10147, sono sempre soggetti a modifica e aggiornati nel corso del tempo. Le disposizioni cui si fa riferimento oggi sono direttive ISO (International Organization for Standardization) cui tutti gli Stati membri devono fare riferimento e che devono impegnarsi a recepire e far applicare.

 

In chiusura

Queste, è chiaro, sono solo alcune delle grandezze che intervengono quando si cerca di stabilire, studiare, caratterizzare un sistema o un processo ma rappresentano una solida base grazie alla quale si può provare a tenere sotto controllo quella componente aleatoria di cui parlava Murphy perché il significato delle sue parole non era davvero la resa della scienza al caso ma uno sprone agli scienziati per ragionare provando a tenere sotto controllo tutti i parametri che servono in modo da non avere quelle sgradite sorprese che un po’ tutti tendiamo ad etichettare come “sfiga”.

 

Quello che hai appena letto è un Articolo Premium reso disponibile affinché potessi valutare la qualità dei nostri contenuti!

 

Gli Articoli Tecnici Premium sono infatti riservati agli abbonati e vengono raccolti mensilmente nella nostra rivista digitale EOS-Book in PDF, ePub e mobi.
volantino eos-book1
Vorresti accedere a tutti gli altri Articoli Premium e fare il download degli EOS-Book? Allora valuta la possibilità di sottoscrivere un abbonamento a partire da € 2,95!
Scopri di più

2 Comments

  1. Emanuele Emanuele 4 ottobre 2012
  2. Piero Boccadoro Piero Boccadoro 4 ottobre 2012

Leave a Reply