You are on page 1of 31

22 aprile 2013

Elementi di epidemiologia per la valutazione comparativa di esito

SOMMARIO
OBIETTIVI DEL CORSO - AREA METODOLOGICA ......................................................................... 2 1. MISURE DI OCCORRENZA E DI ASSOCIAZIONE..................................................................... 3 1.1. 1.2. 1.3. 1.4. 1.5. 1.6. DUE DEFINIZIONI FONDAMENTALI: PREVALENZA E INCIDENZA ............................. 3 IL PRIMO PASSO: IL CONTEGGIO DEI CASI ...................................................................... 3 LE PROPORZIONI .................................................................................................................... 4 Lincidenza cumulativa...................................................................................................... 4 I TASSI ....................................................................................................................................... 5 GLI ODDS .................................................................................................................................. 7 LE MISURE DI ASSOCIAZIONE ............................................................................................ 7 Le misure assolute di associazione .................................................................................... 8 Le misure relative di associazione..................................................................................... 9 Odds ratio e rischio relativo ............................................................................................ 10 Rischi relativi per esposizioni su pi livelli .................................................................... 11 Rischi relativi: i confronti possibili nel Programma Nazionale Esiti .............................. 12 Rischi relativi: outcome positivo o negativo? .......................................................... 13

1.3.1.

1.6.1. 1.6.2. 1.6.3. 1.6.4. 1.6.5. 1.6.6. 2. 2.1. 2.2. 2.3.

LA VALIDITA DELLO STUDIO ................................................................................................... 14 GLI ERRORI SISTEMATICI IN EPIDEMIOLOGIA ............................................................. 14 IL CONFONDIMENTO ........................................................................................................... 15 IL CONTROLLO DEL CONFONDIMENTO ......................................................................... 17 La misura della gravit .................................................................................................... 18 Luso della misura di gravit: la standardizzazione diretta ............................................. 19 La standardizzazione indiretta ......................................................................................... 21 Risk adjustment versus propensity adjustment ............................................................... 21 La modificazione di effetto ............................................................................................. 22

2.3.1. 2.3.2. 2.3.3. 2.3.4. 2.3.5. 3. 3.1. 3.2. 3.3.

VERIFICA DI IPOTESI E INTERVALLI DI CONFIDENZA ....................................................... 24 LERRORE CASUALE ............................................................................................................ 24 LA LOGICA DEI TEST STATISTICI ...................................................................................... 24 GLI INTERVALLI DI CONFIDENZA .................................................................................... 28 Ampiezza dellintervallo e test statistici ......................................................................... 29

3.3.1.

BIBLIOGRAFIA PER EVENTUALI APPROFONDIMENTI ............................................................. 30

OBIETTIVI DEL CORSO - AREA METODOLOGICA


Il calcolo e linterpretazione delle misure che saranno descritte durante il corso di formazione ci aiuteranno nelle attivit di valutazione della qualit dellassistenza, rispondendo a domande quali: lincidenza di alcuni esiti negativi dellassistenza ospedaliera (come la mortalit dopo un ricovero o le complicanze dopo un intervento) sta aumentando o sta diminuendo? Esistono alcune strutture ospedaliere o aree di residenza in cui questi esiti sfavorevoli avvengono con maggiore frequenza? E possibile identificare le possibili cause correlate allincidenza di questi esiti? La qualit dellassistenza sanitaria migliorata dopo lintroduzione di cambiamenti organizzativi o strutturali?

1. MISURE DI OCCORRENZA E DI ASSOCIAZIONE


1.1. DUE DEFINIZIONI FONDAMENTALI: PREVALENZA E INCIDENZA
Lincidenza fa riferimento alloccorrenza di nuovi casi di malattia durante un determinato periodo di osservazione (dato di flusso). La prevalenza indica la proporzione di individui in una popolazione che presentano la malattia in uno specifico momento temporale (dato di stock). Incidenza e prevalenza sono misure distinte, che non devono essere confuse. Lincidenza misura la transizione dallo stato di non-malattia allo stato di malattia; la prevalenza misura la probabilit che un soggetto, casualmente selezionato da una popolazione, abbia gi la malattia di interesse. Lincidenza basata sullinsorgenza di nuovi casi di malattia; la prevalenza basata sul numero totale dei casi di malattia, indipendentemente da quando la malattia cominciata.

1.2. IL PRIMO PASSO: IL CONTEGGIO DEI CASI


La misura della frequenza di malattia in una popolazione ha inizio con un semplice conteggio dei casi, descrivendo: il numero di nuovi casi di malattia durante un periodo di tempo (conteggio di incidenza); il loro numero in un particolare istante temporale (conteggio di prevalenza). Nelle valutazioni comparative, tuttavia, necessario che il conteggio (per esempio, il numero di complicanze dopo un intervento chirurgico) sia espresso in relazione alla dimensione della popolazione da cui i casi hanno avuto origine. Cerchiamo di chiarire meglio con un esempio. Supponiamo di voler confrontare la mortalit a 30 giorni dal ricovero per infarto miocardico acuto (IMA) tra due strutture ospedaliere: lOspedale Andrea Costa di Porretta Terme e lAzienda Ospedaliero-Universitaria Careggi di Firenze. NellOspedale Andrea Costa di Porretta si sono verificati 10 decessi, a fronte di 47 decessi osservati nellOspedale Careggi. Trattandosi di nuovi casi di malattia, avvenuti in un follow-up di 30 giorni a partire dalla data di ricovero, siamo di fronte a un conteggio di incidenza. Tuttavia questa informazione non sufficiente per effettuare una valutazione comparativa tra le due strutture, perch non abbiamo tenuto in considerazione il numero totale dei ricoveri per infarto del miocardio effettuati dalle due strutture, solo 75 nel caso dellOspedale Andrea Costa di Porretta, ben 726 nel caso del Careggi. Per esprimere il conteggio dei casi in relazione alla dimensione della popolazione, necessario calcolare quelle grandezze che lepidemiologia chiama misure di occorrenza: le proporzioni e i tassi.
3

1.3. LE PROPORZIONI
La proporzione un rapporto in cui il numeratore costituisce un sottoinsieme del denominatore. Varia tra zero e uno ed adimensionale, ovvero, priva di unit di misura. Infatti, le proporzioni sono puri numeri poich non vengono espresse in metri, anni o altre unit di misura. Le proporzioni possono essere utilizzate per misurare sia la prevalenza sia lincidenza. Ipotizziamo che tra i 726 pazienti ricoverati per infarto miocardico acuto nellospedale Careggi, al momento dallammissione ospedaliera, 124 erano affetti da diabete. Il rapporto 124/726, che restituisce un valore percentuale pari a 17,1%, esprime la prevalenza di diabete nella coorte di infartuati del Careggi, calcolata alla data dellammissione ospedaliera. Il calcolo di queste prevalenze riveste un ruolo fondamentale nelle valutazioni comparative di esito, perch ci permette di caratterizzare i pazienti ricoverati nei diversi ospedali oggetto di analisi, in funzione di tutte le caratteristiche demografiche e cliniche presenti nei sistemi informativi sanitari.

1.3.1. LINCIDENZA CUMULATIVA


Ma vediamo adesso in che modo possibile utilizzare le proporzioni come misura dellincidenza. Torniamo agli ospedali Andrea Costa di Porretta e Careggi di Firenze. Si vuole calcolare la mortalit a 30 giorni dal ricovero per infarto miocardico acuto nelle due strutture. Nel primo ospedale si erano verificati 10 decessi su un totale di 75 ricoveri. Nel secondo ospedale si erano verificati 47 decessi su un totale di 726 ricoveri. Lincidenza cumulativa, anche nota come rischio, una misura di incidenza basata sulle proporzioni. E calcolata come rapporto tra il numero di nuovi casi di malattia avvenuti durante un determinato periodo di osservazione e il numero di soggetti inizialmente esposti a rischio. Calcoliamo, quindi, i rischi per ciascuna delle due strutture. La tabella 1 riprende i dati del Programma Nazionale Esiti relativi alle due strutture prese a esempio e mostra come calcolare il rischio e come esprimerlo.

periodo di osservazione

Tabella 1. Infarto miocardico acuto: mortalit a 30 giorni dal ricovero

Struttura ospedaliera

Numero di ricoveri per infarto 75 726

Numero di deceduti

Calcolo del rischio

Rischio

Ospedale Andrea Costa di Porretta Azienda O-U Careggi di Firenze

10 47

10/75 47/726

13,33% 6,47%

Numero di pazienti inizialmente esposti a rischio

Numero di nuovi casi di malattia

Si noti come, per un corretto calcolo e una corretta interpretazione di questa misura necessario che tutti i soggetti siano stati osservati per un identico periodo di tempo (follow-up) e che questo sia chiaramente esplicitato nella presentazione dei rischi. Nellesempio, lospedale Andrea Costa di Porretta, quindi, pur avendo un minor numero di decessi, ha un rischio di morte pi elevato rispetto allospedale Careggi di Firenze.

1.4. I TASSI
Laltra misura di occorrenza che consente di esprimere il conteggio dei casi in relazione alla dimensione della popolazione il tasso, che consente di sintetizzare in ununica grandezza sia la frequenza di una malattia (quanti pazienti sviluppano la malattia) sia la sua velocit (quando i pazienti sviluppano la malattia). Al contrario della proporzione, che pu essere utilizzata per misurare sia lincidenza sia la prevalenza, il tasso pu essere utilizzato soltanto per misurare lincidenza. Noto anche come densit di incidenza, il tasso viene calcolato rapportando il numero di nuovi casi di malattia sviluppati durante il periodo di osservazione, al totale degli anni-persona. Pu variare tra 0 e infinito e, al contrario del rischio, ha unit di misura: il (tempo)-1. A questo punto necessario approfondire il concetto di anni-persona. Per ciascun individuo, gli anni persona quantificano il periodo di esposizione al rischio, che inizia con lingresso del paziente nello studio (la data di un ricovero, di un intervento chirurgico o di una diagnosi) e pu terminare:nel momento in cui si verifica lesito di interesse (in questo esempio, ipotizziamo che si tratti del decesso per tutte le cause); nel momento in cui termina lo studio (in questo esempio, ipotizziamo che la durata dello studio sia di quattro anni);
5

nel momento in cui il paziente sia perso al follow-up (soggetti per i quali, da un certo momento in poi, non pi possibile ottenere le informazioni necessarie per lo svolgimento dello studio, per esempio i pazienti che emigrano verso zone non coperte dai sistemi informativi disponibili).

In figura 1 viene schematizzato il follow-up di uno studio di coorte cui partecipano tre pazienti. Il paziente numero 1 conclude lo studio senza aver manifestato lesito di interesse (quindi, dopo 4 anni di osservazione); gli altri due pazienti manifestano lesito in tempi differenti, il paziente numero 2 presenta lesito dopo 2 anni mentre il paziente numero 3 presenta lesito dopo 1 anno.

D = esito, dallinglese death o disease

Il tasso viene calcolato dividendo la somma degli esiti per la somma degli anni-persona, ovvero: 2/(4+2+1) = 0,29 esiti per anno-persona. Eseguendo lo stesso calcolo per lo studio schematizzato in figura 2, si ottiene un tasso pari a: 2/(4+3+3) = 0,20 esiti per anno-persona.

In entrambi gli studi, un paziente su tre manifesta lesito di interesse (rischio) tuttavia, i pazienti schematizzati in figura 2 hanno una maggiore sopravvivenza, che si traduce in un tasso di mortalit pi basso. Adesso risulta pi chiaro il motivo per cui lunit di misura del tasso il (tempo)-1. Semplicemente perch il tempo (che nellesempio espresso in anni-persona) appare al denominatore della misura di occorrenza. Si noti, infine, come il rischio sia totalmente insensibile alla sopravvivenza dei pazienti deceduti: sia nello studio schematizzato in figura 1 sia in quello schematizzato in figura 2, il rischio assume valore 2/3 = 0,67.

1.5. GLI ODDS


Oltre alle proporzioni e ai tassi, esiste una terza misura di occorrenza di malattia: lodds. Lodds una trasformata della proporzione , definita come segue: odds = /(1-). Molti autori descrivono lodds come una probabilit in termini di scommessa, poich esprime la probabilit che un determinato esito si verifichi () rispetto alla probabilit che lesito non si verifichi (1-). E adimensionale e pu variare da 0 a infinito. Quando lesito in studio raro (per esempio, nel caso di proporzioni minori o uguali al 5%) la proporzione e il suo analogo odds saranno approssimativamente equivalenti. Lodds trova la sua maggiore applicazione negli studi caso-controllo (Rothman K, Greenland S. Case-control studies. In: Rothman K, Greenland S, eds. Modern Epidemiology. 2nd ed. Philadelphia: Lippincott Williams & Wilkins; 1998: 93-114) ed la misura di riferimento di uno dei pi diffusi modelli di regressione, la regressione logistica, utilizzata nel Programma Nazionale Esiti per la specificazione dei modelli predittivi (questo argomento sar ampiamente trattato nel capitolo 3 della guida metodologica).

1.6. LE MISURE DI ASSOCIAZIONE


Le misure di associazione vengono calcolate per quantificare leffetto di unesposizione sulloccorrenza di malattia. Vengono calcolate confrontando loccorrenza di malattia tra un gruppo di esposti e un gruppo di non esposti a un determinato fattore. Lassociazione pu essere: positiva, se lesposizione un fattore di rischio, ovvero gli esposti hanno una maggiore incidenza di malattia rispetto ai non esposti; negativa, se lesposizione un fattore protettivo, ovvero gli esposti hanno una minore incidenza di malattia rispetto ai non esposti; neutrale, se gli esposti e i non esposti hanno una incidenza simile di malattia.
7

Tuttavia, non sempre la popolazione in studio viene classificata in due gruppi, gli esposti e i non esposti. Infatti, lesposizione pu essere a livelli multipli, come la stadiazione di una patologia, la struttura ospedaliera in cui avvenuto un ricovero o larea geografica di residenza. Le misure di associazione possono essere classificate in due tipi: misure assolute e misure relative. Entrambe confrontano loccorrenza di malattia tra esposti e non esposti, ci che le differenzia la modalit con cui viene effettuato il confronto.

1.6.1. LE MISURE ASSOLUTE DI ASSOCIAZIONE


Le misure assolute di associazione sono basate sulla differenza tra rischi (risk difference) o tra tassi (rate difference): Differenza tra rischi = rischio negli esposti rischio nei non esposti Differenza tra tassi = tasso negli esposti tasso nei non esposti Queste misure, anche note come misure di impatto, consentono di calcolare quanti casi di malattia sono attribuibili allesposizione. Cerchiamo di chiarire questo concetto con un esempio, tratto dallepidemiologia occupazionale. Si supponga che 20.000 lavoratori siano stati arruolati in uno studio di coorte. Al momento dellarruolamento (data in cui sono entrati a far parte dello studio), gli individui sono stati classificati in esposti e non esposti a una particolare sostanza chimica sulla base del tipo di lavoro che svolgevano al momento dellarruolamento. Tutti i lavoratori sono stati seguiti per un periodo di cinque anni al fine di stabilire se i soggetti esposti avessero un incremento del rischio di morire per cancro. I dati raccolti sono sintetizzati in tabella 2. Tabella 2. Deceduti ed esposti a rischio per tipologia di esposizione Esposti N. di soggetti inizialmente esposti a rischio Deceduti 4.000 28 Non esposti 16.000 64

Il rischio negli esposti : 28/4.000 = 0,007 = 7 per 1.000 lavoratori. Il rischio nei non esposti : 64/16.000 = 0,004 = 4 per 1.000 lavoratori. La differenza tra i rischi : 7 per 1.000 - 4 per 1.000 = 3 per 1.000 lavoratori. Pertanto, negli esposti, ogni 1.000 lavoratori, 3 decessi per cancro sono attribuibili allesposizione e avrebbero potuto essere evitati fornendo adeguate protezioni ai dipendenti.

1.6.2. LE MISURE RELATIVE DI ASSOCIAZIONE


Le misure relative di associazione sono basate sul rapporto tra rischi (risk ratio o rischio relativo) tra tassi (rate ratio) o tra odds (odds ratio): Risk Ratio o rischio relativo = rischio negli esposti/rischio nei non esposti Rate Ratio = tasso negli esposti/tasso nei non esposti Odds Ratio = odds negli esposti/odds nei non esposti Queste misure esprimono la forza dellassociazione tra lesposizione e la malattia e consentono di calcolare di quante volte gli esposti hanno una maggiore (o minore) probabilit di sviluppare la malattia rispetto ai non esposti. Torniamo al nostro confronto tra lOspedale Andrea Costa di Porretta e lAzienda OspedalieroUniversitaria Careggi di Firenze. Nel paragrafo 1.3.1 abbiamo calcolato il rischio (lincidenze cumulativa) di mortalit nei due ospedali. Tabella 3. Infarto miocardico acuto: mortalit a 30 giorni dal ricovero Struttura ospedaliera Numero di ricoveri per infarto 75 726 Numero di deceduti Calcolo del rischio Rischio

Ospedale Andrea Costa di Porretta Azienda O-U Careggi di Firenze

10 47

10/75 47/726

13,33% 6,47%

Per ottenere una misura relativa di effetto sufficiente calcolare il rapporto tra i due rischi: 13,33%/6,47% = 2,06. In questo caso, il rischio dellAzienda O-U Careggi (6,47%) si trova al denominatore del rapporto, pertanto lAzienda O-U Careggi viene assunta come categoria di riferimento (reference category). Il rischio relativo (risk ratio), generalmente abbreviato in RR, dunque pari a 2,06. Si noti come, trattandosi di un rapporto, il rischio relativo un numero puro poich non ha unit di misura. Il calcolo del rischio relativo in questo caso ci dice che lOspedale Andrea Costa ha un rischio di morte a 30 giorni dal ricovero in caso di infarto miocardico pi che doppio rispetto allAzienda O-U Careggi. In altre parole, lOspedale Andrea Costa di Porretta ha un rischio del 106% superiore rispetto a quello dellAzienda O-U Careggi. In questo caso, lincremento percentuale viene calcolato come segue: (RR 1,00) x 100 = (2,06-1,00) x 100 = 106%. Va ricordato che in tutte le misure relative di associazione, il valore 1,00 rappresenta luguaglianza tra le misure di occorrenza negli esposti e nei non esposti, quindi, lindipendenza tra lesposizione e la malattia.
9

1.6.3. ODDS RATIO E RISCHIO RELATIVO


Proviamo a vedere che cosa sarebbe successo se, nellesempio precedente, invece di calcolare il rischio relativo avessimo calcolato lodds ratio. Come descritto nel paragrafo 1.5, lodds definito come /(1-), dove rappresenta il rischio. Dunque, gli odds di malattia nei due ospedali saranno:
13,33%

per lospedale Andrea Costa di Porretta, odds = 0,1333/(10,1333) = 0,15


6,47%

per il Careggi, odds = 0,0647/(10,0647) = 0,07. Adesso sar sufficiente calcolare il rapporto tra i due odds: 0,15/0,07 = 2,14. Come si vede in questo caso, lodds ratio (2,14) costituisce una buona approssimazione del rischio relativo (2,06). Questo si verifica quando lesito in studio un evento raro, che pu essere definito come un evento il cui rischio inferiore al 10%, anche se alcuni autori utilizzano la soglia del 5%. Nellesempio proposto, il rischio complessivo, per linsieme delle due strutture, pari a (10+47)/(726+75) = 0,07 = 7%. Siamo, pertanto, in una situazione limite, anche perch una delle due strutture, lAndrea Costa di Porretta, ha un rischio superiore al 10%. Quando levento non raro, gli odds ratio vanno interpretati alla luce del fatto che sono sempre pi estremi del rischio relativo, ovvero sempre pi lontani dal valore 1,00. Nel grafico di pagina seguente, viene riportata la variazione di un odds ratio allaumentare della frequenza dellesito, in un esempio in cui il rischio relativo pari a 2,00. Come si vede, allaumentare della frequenza dellesito lodds ratio si discosta molto dal rischio relativo.

10

1.6.4. RISCHI RELATIVI PER ESPOSIZIONI SU PI LIVELLI


Torniamo adesso al nostro confronto tra strutture ospedaliere e aggiungiamo altri due ospedali nellanalisi. Tabella 4. Infarto miocardico acuto: mortalit a 30 giorni dal ricovero Struttura ospedaliera Numero di ricoveri per infarto 138 577 75 726 Deceduti Rischio Rischio relativo

Ospedale di Civitanova Marche Azienda Ospedaliera di Reggio-Emilia Ospedale Andrea Costa di Porretta Azienda O-U Careggi di Firenze

8 57 10 47

5,80% 9,88% 13,33% 6,47%

0,90 1,53 2,06 1,00

In tabella 4, sono stati riportati i rischi relativi per ciascun ospedale. LAzienda O -U Careggi, essendo stata assunta come categoria di riferimento, ha un valore pari a 1,00, a indicare che tutte le altre strutture presenti nella tabella saranno confrontate con questo ospedale. Osservando i rischi relativi riportati nellultima colonna, si nota come questi abbiano diverse direzioni e diverse intensit.
11

LAzienda Ospedaliera di Reggio-Emilia e lOspedale di Porretta hanno la stessa direzione ma diverse intensit. La direzione la stessa perch entrambi i rischi relativi sono maggiori di 1, a indicare una maggiore mortalit dei due ospedali rispetto alla categoria di riferimento, lAzienda OU Careggi. Tuttavia le intensit sono diverse: mentre lOspedale di Porretta presenta un rischio del 106% maggiore rispetto al lAzienda O-U Careggi, lAzienda Ospedaliera di Reggio-Emilia ha un rischio del 53% maggiore rispetto allAzienda O-U Careggi. Lintensit , pertanto, minore. LOspedale di Civitanova Marche si differenzia invece dagli altri perch ha una direzione diversa. Infatti, il suo rischio relativo inferiore allunit, a indicare un rischio minore rispetto allAzienda O-U Careggi, il 10% in meno, in questo caso. E necessario prestare attenzione quando si ottengono rischi relativi inferiori allunit. Infatti, il rischio relativo pu variare da 0 a infinito. Pertanto, i fattori protettivi avranno rischi relativi compresi nel ristretto intervallo tra 0,00 e 1,00, mentre i fattori di rischio avranno rischi relativi compresi nel pi ampio intervallo tra 1,00 e infinito. Da questo deriva che i rischi relativi maggiori di 1,00 non sono direttamente confrontabili con quelli minori di 1,00, perch la scala diversa. Per esempio, un rischio relativo di 2,00 (raddoppio la probabilit di un evento) e un rischio relativo di 0,50 (dimezzo la probabilit di un evento), che chiaramente presentano direzioni opposte, hanno la stessa intensit. Eppure, nel primo caso gli esposti hanno un rischio del 100% in pi rispetto ai non esposti mentre nel secondo caso gli esposti hanno un rischio del 50% in meno rispetto ai non esposti. La scala , dunque diversa, ma lintensit la stessa. Infatti, generalizzando , dire che A il doppio di B (RR = 2,00) contiene la medesima informazione che dire: B la met di A (RR = 0,50).

1.6.5. RISCHI RELATIVI: I CONFRONTI POSSIBILI NEL PROGRAMMA NAZIONALE ESITI


Finora abbiamo utilizzato i rischi relativi per confrontare tra loro le strutture ospedaliere. Tuttavia, possibile operare confronti di altra natura. Infatti, i risultati di una struttura ospedaliera possono essere confrontati con un valore medio, con un gruppo selezionato di strutture o con il risultato della stessa struttura in un periodo differente. Nel Programma Nazionale Esiti, oltre ai confronti testa a testa, gi descritti nei paragrafi precedenti, possibile confrontare ciascuna struttura e ciascuna area geografica con la media nazionale e con un benchmark, costituito dalle strutture o dalle aree geografiche che presentano i risultati pi favorevoli. Per esempio, come abbiamo gi riportato, lOspedale Andrea Costa di Porretta presenta un rischio di mortalit a 30 giorni dal ricovero per infarto miocardico acuto pari al 13,33%. Il rischio calcolato a livello nazionale pari al 10,28%, mentre il gruppo di strutture con i risultati pi favorevoli (il benchmark appunto), presenta un rischio pari al 5,75%. Pertanto, il rischio relativo rispetto alla media nazionale per lOspedale Andrea Costa di Porretta sar pari a 13,33% / 10,28% = 1,30 mentre il rischio relativo rispetto al benchmark sar pari a 13,33% / 5,75% = 2,32.
12

1.6.6. RISCHI RELATIVI: OUTCOME POSITIVO O NEGATIVO?


Nel paragrafo 1.6.4 abbiamo introdotto il concetto di direzione del rischio relativo. Osservando se il rischio relativo maggiore o minore di 1,00 possibile capire se la struttura ospedaliera o larea di residenza in studio presenta esiti pi favorevoli o meno favorevoli rispetto alla categoria di riferimento. Tuttavia, linterpretazione dei rischi relativi non pu prescindere dalla natura delloutcome in studio, che pu essere negativo o positivo. Per esempio, la mortalit a 30 giorni da un ricovero per infarto miocardico acuto costituisce chiaramente un outcome negativo. Al contrario, lintervento chirurgico entro 48 ore a seguito di una frattura del collo del femore costituisce senza dubbio un outcome positivo. Per chiarire con un esempio concreto, analizziamo i risultati dellOspedale di Civitanova Marche in relazione a questi due indicatori (mortalit a 30 giorni dopo infarto e intervento chirurgico entro 48 ore dopo frattura di femore). I rischi relativi sono calcolati rispetto alla media nazionale.
Infarto miocardico acuto: mortalit a 30 giorni dal ricovero

Rischio Ospedale di Civitanova Marche Italia 5,80% 10,28%

Rischio relativo 0,56 1,00

Frattura del collo del femore: intervento chirurgico entro 48 ore

Rischio Ospedale di Civitanova Marche Italia 52,72% 33,11%

Rischio relativo 1,59 1,00

Pur avendo direzioni opposte, entrambi i rischi relativi evidenziano una situazione favorevole per lOspedale di Civitanova Marche. Infatti, la mortalit a 30 giorni dallinfarto del 44% inferiore rispetto alla media nazionale mentre la probabilit di ricevere un intervento chirurgico entro le 48 ore del 59% superiore rispetto alla media nazionale.

Prima di procedere con gli altri argomenti del corso, opportuno puntualizzare che i rischi e i rischi relativi che abbiamo presentato in questo capitolo possono essere definiti grezzi, poich su queste misure non sono state applicate le tecniche per il controllo del confondimento che verranno descritte nei capitoli successivi.

13

2. LA VALIDITA DELLO STUDIO


2.1. GLI ERRORI SISTEMATICI IN EPIDEMIOLOGIA
Gli errori sistematici, anche noti come distorsioni o bias, possono influenzare sostanzialmente i risultati di uno studio, a causa di errori di classificazione o a difetti del disegno che allontanano dal valore reale le misure di occorrenza e di associazione calcolate nello studio. Per comprendere meglio il concetto di errore sistematico, ipotizziamo che lepidemiologo debba compiere un esercizio di tiro al bersaglio e che il valore reale della misura di interesse, per esempio un tasso o un rischio relativo, sia nel centro esatto del bersaglio. Ogni prova pu essere vista come un tentativo del ricercatore di stimare correttamente il parametro di interesse. Oltre allerrore casuale, che non ha una direzione ben precisa e caratterizza qualsiasi processo di misura (bersaglio a sinistra), pu essere presente un difetto insito nello strumento utilizzato dallepidemiologo (pensate a una pistola con la canna deviata) che imprime ad ogni tentativo un errore sempre uguale, spostando i risultati dello studio verso una direzione ben precisa (bersaglio a destra). La validit di uno studio fa riferimento alla sua capacit di ridurre al minimo tutte le possibili distorsioni, ovvero tutti gli errori di misura che portano sistematicamente verso una sovrastima o verso una sottostima delle misure oggetto di interesse.

Stima molto valida (non distorta)

Stima poco valida (distorta)

E possibile classificare gli errori sistematici in tre grandi tipologie: bias di selezione, bias di informazione e bias di confondimento. In questo manuale, le prime due tipologie saranno presentate con pochi approfondimenti metodologici, limitandone la trattazione ad alcune definizioni basilari. Ampio spazio sar invece dedicato al concetto di confondimento, fondamentale per linterpretazione dei dati del Programma Nazionale Esiti. Il bias di selezione legato allarruolamento dei soggetti in studio, nel caso in cui questi non vengano selezionati in modo casuale. Pensiamo alle valutazioni comparative di esito e pensiamo, per esempio, allindicatore mortalit a 30 giorni da un ricovero per infarto miocardico acuto.
14

Potremmo trovarci di fronte a un bias di selezione se alcune delle strutture valutate avessero codificato come infarto anche casi nei quali non erano pienamente soddisfatti tutti i criteri per porre questa diagnosi, selezionando, come conseguenza, soggetti con una diversa condizione clinica, pi grave o meno grave rispetto a quella indicata dal protocollo dello studio. In queste strutture, i risultati ottenuti non potranno essere considerati come rappresentativi di una popolazione di pazienti con infarto del miocardio e i confronti con gli altri ospedali saranno necessariamente falsati dal diverso criterio di selezione utilizzato. Il bias di informazione invece legato a una errata attribuzione dellesposizione o dellesito e consiste nella classificazione dei pazienti o dei ricoveri in un gruppo (esposti rispetto a non esposti, con esito rispetto a senza esito) diverso da quello al quale dovrebbero essere assegnati, generando cos una errata classificazione (misclassificazione). E opportuno sottolineare che le esposizioni di maggiore interesse, nel Programma Nazionale Esiti, sono costituite dalla struttura ospedaliera o dallarea di residenza. Un caso di misclassificazione dellesposizione potrebbe avvenire nelle valutazioni comparative della mortalit a trenta giorni da unangioplastica coronarica. Nei casi in cui la procedura venga eseguita in service, lintervento (con il relativo esito) potrebbe essere erroneamente attribuito alla struttura di ricovero e non alla struttura in cui stata effettivamente eseguita langioplastica (esterna per esempio allospedale valutato). Infatti, utilizzando le informazioni del Sistema Informativo Ospedaliero non possibile tracciare il percorso del paziente nei casi in cui una procedura segua questo particolare iter organizzativo. Per una pi ampia presentazione e discussione degli errori sistematici in epidemiologia, si rimanda a: Rothman K, Greenland S. Modern Epidemiology. 2nd ed. Philadelphia: Lippincott Williams & Wilkins; 1998: 93-114.

2.2. IL CONFONDIMENTO
Nel capitolo precedente abbiamo introdotto una misura di effetto, il rischio relativo, che ci permette di capire se una determinata struttura ospedaliera o area di residenza abbia esiti pi favorevoli o meno favorevoli rispetto a una categoria di riferimento, che pu essere la media nazionale, un benchmark o unaltra struttura ospedaliera. Ipotizziamo di avere analizzato la mortalit a 30 giorni dal ricovero per infarto miocardico acuto in una determinata struttura ospedaliera, lOspedale A, e di avere ottenuto un rischio relativo rispetto alla media nazionale pari a 1,55. Pertanto, lOspedale A presenta una mortalit del 55% superiore rispetto alla media nazionale. A che cosa pu essere attribuibile questo risultato sfavorevole? Questo eccesso di rischio esprime realmente una peggiore qualit dellassistenza rispetto alla media nazionale? Per una valutazione pi completa, si decide di confrontare le caratteristiche demografiche e cliniche dei pazienti ricoverati nellOspedale A con quelle del totale dei pazienti ricoverati per infarto in Italia. In tabella 5 sono riportate alcune delle caratteristiche di cui possibile disporre attraverso il Sistema Informativo Ospedaliero.
15

Tabella 5. Mortalit a 30 giorni dal ricovero per infarto miocardico acuto: confronto tra le caratteristiche demografiche e cliniche

Ospedale A Rischio grezzo (%) Et in anni (media) Diabete (%) Pregresse malattie cerebrovascolari (%) 15,93% 75 25 20

Italia 10,28% 68 14 8

Come si vede dalla tabella, i pazienti trattati nellOspedale A hanno una situazione clinica pi sfavorevole rispetto alla media nazionale. Sono pi anziani, hanno una maggiore prevalenza di diabete e una maggiore proporzione di soggetti con pregresse malattie cerebrovascolari. Questo rende pi difficile il confronto tra i due gruppi perch non possibile distinguere leffetto dellOspedale dalleffetto della diversa distribuzione delle patologie. Perch dunque lOspedale A ha una mortalit maggiore rispetto alla media nazionale? Si tratta realmente di un problema legato alla qualit dellassistenza o dipende soltanto dalla maggiore complessit clinica dei suoi pazienti? Questa confusione di effetti prende il nome di confondimento, un errore sistematico (in epidemiologia si utilizzano i sinonimi: distorsione o bias) che impedisce di determinare correttamente leffetto dellesposizione sullesito. Diamo a questo punto una definizione pi formale di fattore confondente. Un fattore pu essere definito confondente se: causalmente associato con lesito; in altre parole, il fattore confondente deve essere associato allesito in studio come causa e non come effetto. Nellesempio appena proposto, in base alle conoscenze a priori, let avanzata, il diabete e le pregresse malattie cerebrovascolari sono causalmente associati con la mortalit da ricovero per infarto. Queste caratteristiche vengono spesso definite fattori di rischio, poich, se presenti, aumentano la probabilit che si verifichi lesito in studio; associato con lesposizione; ci vuol dire che le distribuzioni dei fattori confondenti devono essere diverse tra esposti e non esposti. Nellesempio, la distribuzione dellet (sintetizzata dal suo valore medio), del diabete e delle pregresse malattie cerebrovascolari sono sostanzialmente diverse tra esposti (i pazienti trattati nellospedale A) e non esposti (il totale dei pazienti ricoverati per infarto in Italia); non deve costituire un passaggio intermedio nel percorso causale tra lesposizione e la malattia; ci significa che il fattore confondente non deve essere un effetto dellesposizione. Cerchiamo di chiarire meglio: se lesposizione in studio fosse costituita dalluso di un farmaco antipertensivo e lesito fosse la mortalit per infarto, la pressione arteriosa rilevata dopo linizio del trattamento non pu essere considerata un fattore confondente. Infatti, questo valore pressorio sarebbe un effetto dellesposizione, attraverso il quale il farmaco riduce, nel lungo periodo, la mortalit per infarto.
16

Torniamo alla tabella 5: Ospedale A Rischio grezzo (%) Et in anni (media) Diabete (%) Pregresse malattie cerebrovascolari (%) 15,93% 75 25 20 Italia 10,28% 68 14 8

Et, diabete e pregressi eventi cerebrovascolari sono fattori di rischio per la mortalit (e soddisfano quindi lassociazione causale con lesito), sono associati allesposizione e non possono certamente essere un effetto dellassistenza ospedaliera (non sono quindi un passaggio intermedio nel percorso tra esposizione e malattia). Sono, pertanto, fattori confondenti. Il rischio relativo grezzo di 1,55 quindi sovrastimato dal confondimento, perch parte delleccesso di rischio osservato nellOspedale A spiegato dalla maggiore complessit clinica dei suoi pazienti. Questo rende necessario lutilizzo di metodi statistici per il controllo del confondimento.

2.3. IL CONTROLLO DEL CONFONDIMENTO


Nel Programma Nazionale Esiti il confondimento viene controllato mediante tecniche di riskadjustment. Questo metodo si articola in due fasi essenziali: la costruzione di una misura di gravit che descrive il rischio a priori, ovvero la complessit clinica del paziente. Questa misura dipender dalle caratteristiche anagrafiche, dalla gravit della patologia in studio e dalle patologie concomitanti dei pazienti; luso di tale misura per ottenere rischi e rischi relativi aggiustati, che consentono un confronto valido anche tra gli ospedali o le aree di residenza i cui pazienti hanno, come nellesempio presentato nella tabella 5, diversi livelli di gravit.

17

2.3.1. LA MISURA DELLA GRAVIT


La procedura analitica usata per la costruzione della misura di gravit prende il nome di modello predittivo, un modello statistico finalizzato a predire lesito sulla base delle caratteristiche misurate sul paziente, alcune delle quali potranno essere fattori confondenti. Pertanto, le tecniche di risk adjustment prevedono, nella fase iniziale, lanalisi della relazione tra i potenziali fattori confondenti e lesito in studio. Nel Programma Nazionale Esiti, il modello predittivo segue un approccio empirico: alla base di tale approccio sta la necessit, da sempre riconosciuta nellambito degli studi osservazionali di tipo eziologico, di identificare i fattori confondenti e controllarne leffetto con specifico riferimento alla popolazione studiata. Lapproccio empirico prevede la costruzione di una misura di gravit specifica della popolazione in studio, realizzata attraverso lanalisi della relazione multivariata tra le caratteristiche misurate sul paziente (i predittori) e lesito considerato. Lo strumento generalmente utilizzato per la costruzione di una misura di gravit empirica il modello di regressione multipla, come la regressione lineare, la regressione logistica o la regressione di Cox, a seconda che lesito in studio sia una variabile continua (per esempio pressione arteriosa sistolica), dicotomica (per esempio mortalit a 30 giorni dopo ricovero per infarto miocardico acuto), un tempo di sopravvivenza o di attesa (per esempio tempo di attesa per lintervento di sostituzione del collo del femore a seguito di ricovero per frattura). I modelli predittivi empirici hanno un notevole vantaggio rispetto agli score prognostici come lEuroscore o il Charlson Comorbidity Index. Infatti, luso di score o di modelli preconfezionati esterni presuppone che la relazione tra predittori ed esito sia costante tra le popolazioni, assunto raramente verificato nella realt. Vediamo adesso un esempio concreto di modello predittivo. Lesito di natura dicotomica (deceduto rispetto a non deceduto) pertanto usiamo la regressione logistica multivariata. La misura di effetto prodotta da questo modello lodds ratio che, come descritto nel paragrafo 1.6.3, costituisce una buona approssimazione del rischio relativo nel caso in cui lesito sia un evento raro. In tabella 6 vengono presentate alcune delle caratteristiche dei pazienti che il modello ha identificato come potenziali fattori confondenti in base alla loro associazione multivariata con lesito. Nella seconda colonna della tabella viene riportato il numero dei pazienti con le singole caratteristiche: per esempio i pazienti di genere femminile sono 32.319, quelli con pregresso tumore maligno sono 5.547 e cos via. Nella terza colonna sono riportati gli odds ratio grezzi, nella quarta gli odds ratio aggiustati. Infatti, abbiamo precedentemente definito il modello come multivariato; questo vuol dire che il modello in grado di analizzare contemporaneamente tutte le variabili misurate sul paziente. E grazie a questa caratteristica che lodds ratio pu essere aggiustato, per poter misurare leffetto indipendente dei singoli fattori di rischio, tenendo costanti i valori assunti da tutte le altre variabili presenti nel modello.
18

Tabella 6. Modello predittivo. Infarto miocardico acuto: mortalit a 30 giorni dal ricovero. Predittore Et in anni Genere (donne vs uomini) Tumori maligni Diabete Malattie ematologiche Cardiomiopatie Scompenso cardiaco Malattie cerebrovascolari Pregresso by-pass aorto-coronarico Pregressa angioplastica coronarica Numero 32.319 5.547 9.774 3.999 1.121 6.896 5.663 5.078 11.837 Odds ratio grezzo 1,09 1,85 2,17 1,68 2,69 2,13 2,66 2,55 0,47 0,39 Odds ratio aggiustato 1,08 1,02 1,69 1,21 1,33 1,44 1,36 1,55 0,58 0,44

Proviamo a interpretare qualche odds ratio cos ottenuto. Per ogni aumento di un anno di et, il rischio di morire a 30 giorni dal ricovero per infarto aumenta dell8% (odds ratio = 1,08). Al contrario, le differenze di genere sono trascurabili perch lodds ratio prossimo al valore di 1,00 (odds ratio = 1,02) valore che, come descritto nel primo capitolo, esprime lindipendenza tra lesposizione (in questo caso il genere del paziente) e lesito in studio (in questo caso il decesso a 30 giorni). I tumori maligni costituiscono invece un fattore di rischio: la loro presenza aumenta del 69% la mortalit a 30 giorni (odds ratio = 1,69). Anche il diabete, le malattie ematologiche, le cardiomiopatie e lo scompenso cardiaco sono fattori di rischio. Infatti, tutte queste patologie concomitanti presentano un odds ratio maggiore di 1. Il pregresso by-pass aorto-coronarico invece un fattore protettivo, essendo associato a una riduzione relativa del rischio pari al 42%, ottenuto come (1-0,58) x 100. Valutazioni analoghe valgono per la pregressa angioplastica coronarica.

2.3.2. LUSO DELLA MISURA DI GRAVIT: LA STANDARDIZZAZIONE DIRETTA


Attraverso il modello predittivo abbiamo costruito la misura di gravit, da intendersi come un insieme di fattori di rischio misurati sul paziente, per ciascuno dei quali stato stimato leffetto indipendente sullesito in studio. A questo punto, nel Programma Nazionale Esiti, il confronto tra le strutture ospedaliere e le aree di residenza avviene attraverso una metodologia chiamata standardizzazione diretta. Dal punto di vista operativo, la standardizzazione diretta viene applicata mediante modelli statistici multivariati in cui, oltre alle variabili selezionate come fattori di rischio, sono presenti alcune variabili speciali (chiamate dummy) che rappresentano lospedale o larea di residenza. Questo metodo utili zza la
19

distribuzione dei fattori di rischio di una popolazione di riferimento come base per tutti i confronti. Per ciascuno degli indicatori valutati, la popolazione di riferimento costituita dallinsieme di tutti i ricoveri osservati a livello nazionale. Attraverso i parametri stimati dai modelli statistici, per ciascuna struttura e area di residenza vengono calcolati i rischi aggiustati, denominati nel sito come rischi adj. Questi rendono ininfluente la diversa distribuzione dei fattori di rischio e consentono un confronto valido tra tutti i gruppi oggetto di interesse. Infatti, dopo laggiustamento, i rischi possono essere interpretati come se tutte le strutture e tutte le aree presentassero la stessa distribuzione dei fattori di rischio (et, sesso, gravit della patologia e comorbilit) della popolazione di riferimento. Pertanto, dopo laggiustamento, le differenze osservate tra gli ospedali non potranno pi essere attribuibili alla diversa gravit dei pazienti e rifletteranno le reali differenze nella qualit delle cure. Il rapporto tra due rischi aggiustati costituisce un rischio relativo aggiustato, denominato nel sito come RR adj. Vediamo un esempio in relazione alla mortalit a 30 giorni dal ricovero per infarto miocardico acuto.

LAzienda O-U Umberto I di Roma ha un rischio grezzo di mortalit a 30 giorni dal ricovero per infarto pari al 12,25%, che diventa 19,63% dopo laggiustamento per gravit. Questi pazienti, prima dellaggiustamento, non erano confrontabili con la media nazionale perch presentavano una minore complessit clinica rispetto al totale dei pazienti ricoverati per infarto in Italia. Applicando all Azienda O-U Umberto I la distribuzione nazionale delle caratteristiche-paziente, quali et, sesso e patologie concomitanti, il rischio della struttura aumenta. Ricordando che la mortalit a livello nazionale pari al 10,28%, il rischio relativo aggiustato si ottiene dal rapporto 19,63/10.28 = 1,91. Pertanto, dopo aver reso ininfluente leffetto della diversa gravit dei pazienti, lUmberto I di Roma presenta un rischio di mortalit del 91% superiore rispetto alla media nazionale. Avendo applicato a tutti gli ospedali la stessa distribuzione per gravit (quella osservata a livello nazionale), tutte le strutture ospedaliere sono confrontabili sia tra di loro sia con la media nazionale.

20

2.3.3. LA STANDARDIZZAZIONE INDIRETTA


La standardizzazione indiretta (non usata nel Programma Nazionale Esiti) una possibile alternativa alla standardizzazione diretta. Anche questa metodologia prevede l utilizzo di una popolazione di riferimento e si basa sul calcolo del numero atteso di esiti in ciascuno dei gruppi messi a confronto, ovvero il numero di esiti che ci si aspetterebbe in quellospedale o in quellarea di residenza sulla base della distribuzione, nel gruppo stesso, dei fattori di rischio considerati. Questo valore atteso viene calcolato sulla base della relazione tra fattori di rischio ed esito che si osserva nella popolazione di riferimento. Una volta che per ciascuno dei gruppi a confronto si derivato lesito atteso, possibile calcolare, per ciascun ospedale o area di residenza, il rapporto standardizzato (RS): RS = esito osservato/esito atteso Questo rapporto misura di quante volte lesito nel gruppo considerato pi frequente (o meno frequente) di quanto lo sarebbe sulla base della distribuzione, nel gruppo stesso, dei fattori di rischio e sulla base della relazione tra i fattori di rischio e lesito nella popolazione di riferimento. In questo senso, valori di RS >1 (o <1) indicano una maggiore (o minore) frequenza dellesito considerato nel gruppo in studio rispetto al riferimento, al netto delle possibili differenze nella distribuzione dei fattori di rischio. La standardizzazione indiretta permette dunque un confronto risk-adjusted tra gli esiti osservati in un gruppo e quelli osservati nella popolazione di riferimento. Tuttavia, nel Programma Nazionale Esiti, si preferito non utilizzare questa procedura poich il confronto valido solo se viene effettuato tra ciascun gruppo e il riferimento, ma non possibile utilizzare i valori del rapporto standardizzato per confrontare gli ospedali o le aree di residenza tra loro.

2.3.4. RISK ADJUSTMENT VERSUS PROPENSITY ADJUSTMENT


Come descritto nel paragrafo 2.3.1, le tecniche di risk adjustment prevedono, nella prima fase delle analisi, lo studio della relazione tra i potenziali fattori confondenti e lesito. Esiste un approccio alternativo e simmetrico a questa metodologia, noto col nome di propensity adjustment (non usata nel Programma Nazionale Esiti) che nella prima fase si focalizza sulla relazione tra i potenziali fattori confondenti e lesposizione. Una volta calcolata la probabilit di esposizione in base alle caratteristiche demografiche e cliniche del paziente, tale misura, chiamata propensity score, viene opportunamente integrata nellanalisi finale, quella che indaga la relazione tra esposizione ed esito. In altri termini, mentre la prima fase finalizzata a identificare i fattori predittivi dellesposizione, la seconda si focalizza sulla relazione tra esposizione ed esito, utilizzando il propensity score come unico fattore di aggiustamento. Nel Programma Nazionale Esiti, questa tecnica per il controllo del confondimento non stata utilizzata perch di difficile applicazione nei casi in cui lesposizione sia costituita da un elevato
21

numero di livelli, come nel caso delle strutture ospedaliere. Inoltre, le tecniche basate sul propensity adjustment sono incentrate sulla sintesi di tutti i potenziali fattori confondenti in ununica variabile, il propensity score, da utilizzare nei processi di aggiustamento e trovano maggiore applicazione nei casi in cui il numero dei fattori confondenti sia molto elevato rispetto al numero degli esiti osservati. Tuttavia, nei contesti in cui si ha a disposizione un notevole numero di esiti, come nelle valutazioni comparative a livello nazionale o regionale, le metodologie di risk adjustment e propensity adjustment conducono a risultati praticamente identici. Per approfondimenti sul tema si consigliano le seguenti pubblicazioni: Rosenbaum P, Rubin D. The central role of the propensity score in observational studies for causal effects. Biometrika 1983;70:41-45. DAgostino R. Propensity score methods for bias reduction in the comparison of a treatment to a non-randomized control group. Statistics in Medicine 1998;17:2265-2281.

2.3.5. LA MODIFICAZIONE DI EFFETTO


Si parla di modificazione di effetto quando leffetto dellesposizione sullesito diverso in funzione dei valori assunti da un terzo fattore chiamato appunto modificatore deffetto. Nel caso pi semplice di un modificatore di effetto dicotomico, leffetto dellesposizione sullesito sar diverso in assenza o in presenza di questo fattore. Nel caso di un modificatore di effetto, non ha senso interrogarsi sulleventuale ruolo dello stesso fattore come confondente e tanto meno proporsi di calcolare una misura di associazione aggiustata, poich questa stima, calcolata come media di misure troppo diverse tra loro, non consentirebbe una corretta interpretazione dei risultati. Nellambito della valutazione comparativa degli esiti importante definire a priori, sulla base delle evidenze disponibili o di specifiche ipotesi di ricerca, quali sono i fattori di cui si voglia indagare il ruolo di possibile modificatore di effetto. Nel Programma Nazionale Esiti possibile valutare la modificazione di effetto per genere, poich i rischi aggiustati per struttura ospedaliera o area di residenza possono essere visualizzati distintamente per uomini e donne. Segue un esempio sulla mortalit a 30 giorni dal ricovero per infarto miocardico acuto.

22

Per una corretta valutazione dei risultati, si puntualizza che tutti i rischi, sia per gli uomini sia per le donne, sono stati aggiustati mediante standardizzazione diretta, applicando a ciascuna struttura ospedaliera la distribuzione nazionale delle caratteristiche del paziente (si veda il paragrafo 2.3.2). Pertanto, tutti i rischi aggiustati mostrati nellesempio sopra sono confrontabili tra loro. Anche in questo caso, i rischi relativi aggiustati (RR ADJ) sono espressi rispetto alla media nazionale complessiva (calcolata, quindi, sul totale di uomini e donne) che, per questo indicatore, pari al 10,28%.

23

3. VERIFICA DI IPOTESI E INTERVALLI DI CONFIDENZA


3.1. LERRORE CASUALE
Alla base degli argomenti che verranno presentati in questo capitolo c il concetto di errore casuale. Ipotizziamo ancora una volta che lepidemiologo debba compiere un esercizio di tiro al bersaglio e che il valore reale della misura di interesse, per esempio un tasso o un rischio relativo, sia nel centro esatto del bersaglio. Lerrore casuale deriva dal fatto che lepidemiologo ha a disposizione un numero limitato di osservazioni per soddisfare gli obiettivi della sua ricerca. Queste osservazioni sono costituite dai pazienti o dai ricoveri inclusi nelle analisi. Ogni ricovero fornisce uninformazione elementare sulla qualit dellassistenza dellospedale cui fa riferimento, pertanto allaumentare del numero di queste osservazioni lepidemiologo potr trarre conclusioni pi solide e le stime dei rischi o dei rischi relativi ottenute dal suo studio saranno pi precise.

Stima poco precisa (elevato errore casuale)

Al contrario dellerrore sistematico, descritto nel paragrafo 2.1, lerrore casuale non ha una direzione ben precisa e si distribuisce uniformemente intorno al vero valore del parametro di interesse (ad esempio un rischio relativo). C unaltra differenza rilevante tra le due tipologie di errore. Mentre lerrore sistematico indipendente dalla numerosit campionaria (ovvero dal numero delle osservazioni analizzate), lerrore casuale diminuisce allaumentare del numero delle osservazioni, consentendo di ottenere stime sempre pi precise.

3.2. LA LOGICA DEI TEST STATISTICI


Nel primo capitolo abbiamo introdotto una misura di effetto, il rischio relativo, che ci permette di capire se una determinata struttura ospedaliera o area di residenza presenta esiti pi favorevoli o meno favorevoli rispetto a una categoria di riferimento, che pu essere la media nazionale, un benchmark o unaltra struttura ospedaliera. Nel secondo capitolo abbiamo introdotto le tecniche per il controllo del confondimento. Utilizzando queste metodologie possibile calcolare il rischio relativo aggiustato, che consente di operare
24

confronti tra ospedali o aree di residenza rendendo statisticamente ininfluente leffetto della diversa distribuzione dei fattori di rischio. Soffermiamoci su un esempio concreto, analizzando la proporzione di pazienti che ricevono tempestivamente un intervento chirurgico a seguito di frattura del collo del femore. Si ricorda che, in questo contesto, il termine rischio un sinonimo di proporzione (vedi paragrafo 1.3.1).

Per lOspedale di Castel San Pietro Terme, in Provincia di Bologna, la probabilit di ricevere un intervento chirurgico entro le 48 ore del 30% superiore rispetto alla media nazionale (media nazionale = 33,11%). Ma questo risultato favorevole statisticamente significativo? Per rispondere a questa domanda, necessario spendere alcune parole sulla logica dei test statistici. Questa branca della statistica prende il nome di verifica di ipotesi o anche analisi della significativit. In alcuni contesti, lanalisi di un campione di dati ha come obiettivo anche quello di prendere una decisione sulla base delle informazioni contenute nei dati stessi. A tale proposito, i test statistici possono fornire utili elementi di valutazione sulla base di tre grandezze fondamentali. La forza della misura di associazione: di quanto si allontana il rischio relativo rispetto al valore 1,00 di indifferenza? Il numero di osservazioni analizzate: sullosservazione di quanti ricoveri sto basando le mie conclusioni? La frequenza dellesito in studio: lesito che sto valutando raro, come per esempio la mortalit a 30 giorni dallintervento di bypass aorto-coronarico, o comune (non raro), come per esempio la proporzione di parti con taglio cesareo primario? La verifica di ipotesi, che una branca dellinferenza statistica, attraverso la combinazione di questi tre elementi consente di ottenere il valore della p (p-value), che esprime la probabilit di sbagliare per effetto del caso se dichiariamo che il risultato dellospedale che stiamo analizzando diverso rispetto a una determinata categoria di riferimento. Torniamo al nostro esempio sulla frattura del collo del femore: per lOspedale di Castel San Pietro Terme il test statistico produce un valore della p pari a 0,072 (esprimendolo in percentuale 7,2%).

25

Il test mette a confronto il risultato dellOspedale di Castel San Pietro Terme (intervento tempestivo nel 43,09% dei casi) col risultato medio nazionale (intervento tempestivo nel 33,11% dei casi). Proviamo a interpretare il valore della p: la probabilit di sbagliare per effetto del caso se dichiariamo che in questo ospedale la proporzione di pazienti operati entro le 48 ore diversa dalla media nazionale pari al 7,2%. In altre parole, 7,2% la probabilit di sbagliare per effetto del caso se si conclude che il risultato dellOspedale di Castel San Pietro Terme veramente migliore rispetto alla media nazionale. Per convenzione, un rischio relativo viene considerato statisticamente significativo se il valore della p prodotto dal test statistico minore o uguale a 0,05. Secondo questa logica, la probabilit di errore che siamo disposti ad accettare nel dichiarare che il risultato di un ospedale veramente diverso dalla media nazionale (e non lo sia per effetto del caso) deve essere inferiore al 5%. In conclusione, il rischio relativo aggiustato dellOspedale di Castel San Pietro Terme non statisticamente significativo perch il valore della p (0,072) maggiore di 0,05. Pertanto non abbiamo abbastanza elementi per escludere che la differenza tra questo Ospedale e la media nazionale sia interamente attribuibile alleffetto del caso.

26

In base al rischio relativo aggiustato e al test statistico possibile classificare il risultato di ogni ospedale in tre categorie: 1. strutture con esiti pi favorevoli rispetto alla media nazionale (valore della p 0,05); 2. strutture con esiti non significativamente diversi dalla media nazionale (valore della p > 0,05); 3. strutture con esiti meno favorevoli rispetto alla media nazionale (valore della p 0,05). Segue un esempio sullanalisi della mortalit a 30 giorni dal ricovero per infarto miocardico acuto. In ascissa riportato il rischio aggiustato espresso in percentuale. Le tre categorie sono distinte da colori diversi, come da legenda. Infarto miocardico acuto: mortalit a 30 giorni dal ricovero

Nellesempio seguente, che vuole confrontare lIRCCSF Ospedale Maggi di Milano e lIRCCSF S. Matteo di Pavia , invece, possibile evidenziare come il risultato del test sia strettamente legato al numero dei ricoveri analizzati.

27

Pur presentando rischi relativi rispetto alla media praticamente identici, lIRCCSF Ospedale Maggi non raggiunge la significativit statistica (valore della p > 0,05) a causa del limitato numero di osservazioni (140 ricoveri analizzati nel 2011) mentre lIRCCSF S. Matteo (468 ricoveri analizzati nel 2011) presenta un valore della p = 0,029, che indica una mortalit significativamente pi elevata rispetto alla media nazionale.

3.3. GLI INTERVALLI DI CONFIDENZA


Oltre ai test statistici sui rischi relativi, possibile calcolare per ciascuna misura di associazione un intervallo di valori tale da essere confidente, a un determinato livello di probabilit, che esso includa il valore reale del rischio relativo. Ipotizziamo di aver stimato per una data struttura ospedaliera un rischio relativo, rispetto alla media nazionale, pari a 1,95 e di avere calcolato attorno a esso il seguente intervallo di confidenza al 95%: 1,08-3,33. Cosa significa? Siamo confidenti al 95% che questo intervallo (da 1,08 a 3,33) comprenda il valore reale del rischio relativo, ovvero il valore che avremmo osservato per quella struttura allaumentare indefinito del numero delle prove (i ricoveri analizzati). Lampiezza dellintervallo di confidenza fornisce, pertanto, unindicazione sulla precisione della stima. Ipotizziamo adesso di avere confrontato tra loro due strutture ospedaliere e di avere ottenuto un rischio relativo pari a 2,00. In tabella 7 vengono proposti tre scenari in cui il rischio relativo appena ottenuto viene calcolato a partire da diverse numerosit campionarie. Tabella 7. Ampiezza dellintervallo e numerosit campionaria Rischio relativo 2,00 2,00 2,00 Numerosit campionaria* 100 200 400 Livello di confidenza 95% 95% 95% Intervallo di confidenza 0,74-5,43 0,99-4,05 1,21-3,30

* equamente distribuita tra esposti (Ospedale A) e non esposti (Ospedale B)

Dallosservazione dei risultati emerge che lampiezza dellintervallo di confidenza diminuisce allaumentare della numerosit campionaria, a indicare una maggiore precisione della stima del rischio relativo.

28

Analizziamo, adesso, la relazione tra ampiezza dellintervallo e livello di confidenza. I risultati sono presentati in tabella 8. Tabella 8. Ampiezza dellintervallo e livello di confidenza Rischio relativo 2,00 2,00 2,00 Numerosit campionaria* 400 400 400 Livello di confidenza 90% 95% 99% Intervallo di confidenza 1,31-3,04 1,21-3,30 1,04-3,86

* equamente distribuita tra esposti (Ospedale A) e non esposti (Ospedale B).

Dallosservazione dei risultati presentati nella tabella emerge che lampiezza dellintervallo aumenta allaumentare del livello di confidenza. Infatti, a parit di numerosit campionaria, lunico modo che abbiamo per incrementare il livello di confidenza quello di aumentare lampiezza dellintervallo, che essendo pi ampio avr una maggiore probabilit di comprendere il valore reale del rischio relativo.

3.3.1. AMPIEZZA DELLINTERVALLO E TEST STATISTICI


Si supponga nuovamente di avere calcolato un rischio relativo pari a 2,00 per confrontare gli esiti tra due strutture ospedaliere, di avere effettuato un test statistico e di avere ottenuto un valore di p pari a 0,161. Questo valore maggiore della soglia convenzionale di 0,05, pertanto, la nostra misura di associazione statisticamente non significativa. Si supponga inoltre che per questo rischio relativo pari a 2,00 sia stato calcolato anche lintervallo di confidenza al 95%. Ebbene, esiste una relazione che lega lampiezza dellintervallo di confidenza al risultato del test. Infatti, se lintervallo di confidenza al 95% comprende il valore 1,00, per esempio lintervallo tra 0,74 e 5,43, allora il corrispondente test statistico non significativo (valore della p > 0,05) e non possibile escludere con sufficiente evidenza empirica che le differenze osservate tra le due strutture siano da attribuire alleffetto del caso. Il valore 1,00 riveste una particolare importanza in questa valutazione perch, come descritto nel paragrafo 1.6.2, esprime lindipendenza tra lesposizione e lesito, ovvero la totale assenza di qualsiasi effetto. Tornando allesempio, lintervallo di confidenza tra 1,21 e 3,30 non sarebbe compatibile col risultato del test. Infatti il valore della p era > 0,05 ma lintervallo di confidenza non comprende il valore 1,00, chiaramente esterno allintervallo.

29

BIBLIOGRAFIA PER EVENTUALI APPROFONDIMENTI


Agabiti N, Davoli M, Fusco D, Stafoggia M, Perucci CA. Comparative evaluation of health services outcomes. Epidemiol Prev. 2011 Mar-Apr;35(2 Suppl 1):1-80. (download) Amato L, Colais P, Davoli M, Ferroni E, Fusco D, Minozzi S, Moirano F, Sciattella P, Vecchi S, Ventura M, Perucci CA. Volume and health outcomes: evidence from Systematic Reviews and from evaluation of Italian hospital data. Epidemiol Prev. 2013 Mar-Jun;37 (2-3 Suppl 2):1-100. (download) DAgostino R. Propensity score methods for bias reduction in the comparison of a treatment to a non-randomized control group. Statistics in Medicine 1998;17:2265-2281. Rosenbaum P, Rubin D. The central role of the propensity score in observational studies for causal effects. Biometrika 1983;70:41-45. Rothman K, Greenland S. Modern Epidemiology. 2nd ed. Philadelphia: Lippincott Williams & Wilkins; 1998: 93-114. Rothman K, Greenland S. Case-control studies. In: Rothman K, Greenland S, eds. Modern Epidemiology. 2nd ed. Philadelphia: Lippincott Williams & Wilkins; 1998: 93-114.

30

You might also like