1 Aim of variable transformations

1.1 Inizializzazione:

vengono caricati i packages necessari per realizzare questo documento

Data Frame Summary

X

Dimensions: 93 x 3
Duplicates: 49
No Variable Stats / Values Freqs (% of Valid) Graph
1 sfebbr [integer] Mean (sd) : 5.5 (5.1) min < med < max: 0 < 4 < 30 IQR (CV) : 6 (0.9) 20 distinct values
2 trattamento [factor] 1. B 2. C
44(47.3%)
49(52.7%)
3 livelloRischio [factor] 1. alto 2. basso
61(65.6%)
32(34.4%)

Generated by summarytools 0.9.6 (R version 4.0.2)
2020-09-16

Dall’analisi dei residui o dalla rappresentazione grafica delle varianze in funzione delle medie per dati raggruppati ci si potrebbe rendere conto che la varianza appare funzione della media:

Un grafico di residui in funzione di valori stimati che mostra una possibile eteroscedasticità

Si veda per esempio la figura , ottenuta dai residui di un modello lineare adattato per descrivere i tempi di guarigione in funzione di alcuni fattori prognostici e diagnostici.

L’andamento dei residui in ordinata sembra variare di più al crescere dei valori stimati. Anche il grafico fornito da R (nella figura ) sembra confermare tale indicazione.

{Un grafico deviazione standard vs medie calcolate in 4 gruppi}{eteros3}

Nella figura sono stati invece rappresentati le deviazioni standard in funzione delle medie per la stessa variabile in 4 diversi gruppi di pazienti (esempio visto a lezione)

In pratica stiamo vedendo che ci? potrebbe essere un indizio del fatto che da:

\[ % \CV{Y_i}=g(\EV{Y_i}), \] mentre usualmente assumiamo

\[ % \CV{Y_i}=\sigma^2 %(p.e. \CV{Y_i}=\sigma^2 (\EV{Y_i})^{\theta}) \]

si può in prima battuta cercare una trasformazione \(Z_i=f(Y_i)\) che renda le nuove variabili \(Z\) con varianza uguale.

Sappiamo che se \[ %\EV{Y_i}=\eta_i \qqbox{e} \CV{Y_i}=g(\eta_i), \]

possiamo approssimare i primi due momenti di \(Z_i=f(Y_i)\) mediante le note relazioni (ricavate sviluppando in serie in \(\eta_i\) e troncando al primo termine):

\[\begin{eqnarray*} \EV{f(Y_i)} &\approx& f(\eta_i);\\ \CV{f(Y_i)} &\approx& \inbrackets{f'(y_i)_{y_i=\eta_i}}^2 \CV{Y_i}=\\ &=& \inbrackets{f'(y_i)_{y_i=\eta_i}}^2 g(\eta_i)\\ \end{eqnarray*}\]

per cui occorre trovare una \(f(Y_i)\) tale che: \[ \CV{f(Y_i)} \approx k^2 \qqbox{(costante)} \]

e quindi: \[ f'(y_i)_{y_i=\eta_i} = \frac{k}{ \sqrt{g(\eta_i)}} \Longrightarrow f(y_i) = \int \frac{k}{ \sqrt{g(y)}} \diff{y} \]