Capitolo 6

Analisi della Regressione

L'analisi di regressione è un approccio per modellare la relazione lineare tra due variabili.

Metodo dei minimi quadrati

L'approccio alla regressione dei minimi quadrati ordinari (in inglese OLS: Ordinary Least Squares) consente di stimare i parametri di un modello lineare. L'obiettivo di questo metodo è determinare il modello lineare che minimizza la somma degli errori al quadrato tra le osservazioni in un insieme di dati e quelle previste dal modello. Esplora il metodo OLS attraverso i quattro "infami" dataset contenuti nel Quartetto di Anscombe.

Scegli uno dei quartetti da investigare.

Trascina e rilascia dati di punti per capire come questo ha effetto sulla linea OLS.

Clic su una colonna della tabella di regressione per capire di più in merito a questo parametro.

\(\displaystyle{n}\) \(\displaystyle{\bar{\cssId{xMEAN}{x}}}\) \(\displaystyle{\bar{\cssId{yMEAN}{y}}}\) \(\displaystyle{\hat{\cssId{BETA0}{B_{0}}}}\) \(\displaystyle{\hat{\cssId{BETA1}{B_{1}}}}\) \(\displaystyle{SSE}\)
Modello

Correlazione

La correlazione è una misura della relazione lineare tra due variabili. È definita per un campione come segue ed ha valore compreso tra +1 e -1 inclusi:

$$r = \dfrac{s_{xy}}{\sqrt{s_{xx}}\sqrt{s_{yy}}}$$

\(s_{xy},s_{xx},s_{yy}\) sono definite come:

$$\begin{align*} s_{xy} &=\sum^n_{i=1} (x_i-\bar{x})(y_i-\bar{y})\\ s_{xx} &=\sum^n_{i=1} (x_i-\bar{x})^2\\ s_{yy} &=\sum^n_{i=1} (y_i-\bar{y})^2 \end{align*}$$

Può anche essere intesa come il coseno dell'angolo formato dalla linea ordinaria minima quadrata determinata in entrambe le dimensioni variabili. Esplora questo concetto attraverso il famoso dataset dei fiori Iris di Edgar Anderson.

Scegli quale specie vuoi conoscere.

Clic su una cella della matrice di correlazione per visualizzare la correlazione fra questi tratti.

Lunghezza Sepalo Larghezza Sepalo Lunghezza Petalo Larghezza Petalo
Lunghezza Sepalo
Larghezza Sepalo
Lunghezza Petalo
Larghezza Petalo

Analisi della Varianza

L'Analisi della Varianza (ANOVA) è un metodo statistico per testare se gruppi di dati hanno la stessa media. L'ANOVA generalizza il test-t per due o più gruppi comparando la somma della radice degli errori all'interno e fra gruppi.

Scegli uno di questi dataset da investigare

Trascina i rilasci i dati puntuali per esplorare come questo ha affetto nel risultato del test di ANOVA

Clic su una colonna della tabella ANOVA per conoscere di più riguardo questo parametro.

\(\displaystyle{SSE}\) \(\displaystyle{df}\) \(\displaystyle{MS}\) \(\displaystyle{F}\) \(\displaystyle{p}\)
Trattamento
Errore
Totale