Chi Vuole essere Comunque Normale?

Una semplice guida per la distribuzione Normale, la mediana, quartili, valori anomali e il Box e Whiskers plot. Chi vuole essere comunque normale?
statistiche, sistemi automatizzati di statistiche, statistiche, gestione dei dati, rapido di dati, correlviz, datakleenr

Nutrire La Vostra Creatività

Chi Vuole essere Comunque Normale?

“Nel 21 ° Secolo, è inaccettabile che quasi il 50% dei diplomati non riescono a raggiungere gradi di media”

Citazione di un Politico Britannico, circa 2010-ish

Quando ho sentito questo in diretta su BBC News 24, ho quasi caduto dalla sedia.

Anche con la più rudimentale comprensione di dati e statistiche, questa è davvero una cosa stupida da dire, e queste sono le persone che sono in esecuzione il paese (presumibilmente)!

Se si sta andando per citare una statistica che è stata consegnata in un report, o anche se hai lavorato fuori di te, è meglio dannatamente bene a capire cosa stai dicendo. Non riescono a farlo e si può guardare piuttosto sciocco in prime-time televisivo.

Questo politico – nome omesso per proteggere l’idiota (anche perché non ricordo chi era) – chiaramente non hanno idea di cosa stava parlando, ma lo ha detto con una tale passione e la convinzione che l’intervistatore probabilmente non se ne accorge.

O forse era solo sniggering tranquillamente all’interno.

Perché era così sbagliato? Diamo un’occhiata e vedere…

Non è necessario essere stupidi per essere un politico, ma certamente aiuta.

Per capire perché la bella politico è stato così sbagliato, dobbiamo prendere uno sguardo alla ‘Normale’ di distribuzione, scopri come ottenere uno e che cosa fare con esso.

Io so che cosa è come quando qualcuno parla di distribuzioni – il tuo cervello va in stand-by e i tuoi occhi si offuscano.

Ma il bastone di tutto un po ‘ – stiamo andando a guardare questo da un punto di vista della visualizzazione di dati, non utilizzare complicati calcoli e confusione statistiche.

Prometto che questo sarà tutto così facile…

Che cosa è una Distribuzione Normale?

Prendiamo l’esempio dell’altezza dei bambini della scuola per scoprire come un ‘Normale’ distribuzione avviene.

Immaginate di andare a scuola e ha preso tutti i bambini delle loro classi (non in realtà non si potrebbe ottenere arrestato!).

Misurare la loro altezze e scrivere ogni misura di una palla da tennis (diverse palle da tennis, non è lo stesso…).

Diciamo che il più breve alunno si è un po ‘ più di 0,9 m e la più alta è di poco meno di 1,9 m.

Ora prendete 10 pattumiere (se stai leggendo questo su un laghetto di bidoni della spazzatura) e mettili in fila una accanto all’altra di fronte al parco giochi muro. Scrivere ‘0.9 m 1.0 m’ più a sinistra bin, ‘1.0 m 1.1 m’ a bin, e continuare a fare questo in incrementi di 0.1 m fino a raggiungere l’ultima bin; ‘1,8 m 1,9 m’.

Ora avrete 10 scomparti disposti da sinistra a destra con il seguente alunno le misure di altezza con scritto sulla fronte:

  • 0.9 m a 1,0 m
  • 1.0 m 1.1 m
  • 1.1 m a 1,2 m
  • 1,2 m e 1,3 m
  • 1.3 m 1.4 m
  • 1.4 m per 1,5 m
  • 1.5 m 1,6 m
  • 1.6 m 1.7 m
  • 1.7 m a 1,8 m
  • 1.8 m 1,9 m

Ignorare il fatto che c’è un piccolo cross-over tra adiacente bidoni – stiamo cercando di mantenere questo semplice…

Ora provate a convincere le coccole a mettere le palle nel corretto cestini – di un compito difficile, lo so, ma chi ha detto di essere un esperto di statistica è stato facile?

La palla etichettati con 1.21 m va in ‘1,2 m e 1,3 m’ bin, la palla con 1,76 m scritti su di esso entra in ‘1,7 m per 1,8 m’ bin, e così via.

Contare le palle in ogni bin e poi la vernice pattumiera coperchio-dimensioni di palle da tennis al di sopra di ciascuno dei bidoni – uno per ogni palla contati (cioè per ogni alunno). Se ci sono un sacco di ragazzi delle scuole, si può dipingere una palla per ogni dieci alunni.

Si dovrebbe ottenere qualcosa che assomiglia a questo:

A contarli tutti, e a contarli tutti.
Altrimenti un paio di sarà probabilmente andare mancanti.

Se noi misuriamo l’altezza di ogni dipinto stack di palle da tennis – il numero di ragazzi delle scuole di ogni alunno altezza staffa – possiamo tracciare un Istogramma (un impilate verticalmente bar-chart) che rappresenta l’altezza di distribuzione dei bambini della scuola. Collegare le cime del bar insieme e poi levigante li dovremmo ottenere qualcosa di simile a questo:

Istogramma di una cucina con mobili Curva a Campana

Come si può vedere, la media allievo di altezza, è proprio nel mezzo, qualunque sia la misura di ‘media’ in uso e le loro altezze sono distribuiti equamente e, simmetricamente, ogni lato del centro.

Questo è chiamato un ‘Normale’ di distribuzione, aka una Gaussiana o Curva a Campana, e in genere è visto in tutta la natura. Cose che seguano una distribuzione Normale sono:

  • Altezze di persone
  • La pressione del sangue
  • La temperatura del corpo
  • Punteggi di QI
  • I pesi e le dimensioni della cosa prodotta da una macchina

Non c’è un numero standard di contenitori per uso durante il campionamento di dati come questo, ma di solito il numero di contenitori per uso aumenta con la quantità di dati che abbiamo.

Spero che si può vedere che la quantità di dati e il numero di gruppi aumenta, il più agevole la curva diventa, quindi, se vuoi esprimere i tuoi dati in modo accurato è necessario raccogliere un sacco di dati.

Utilizzando Distribuzioni Normali

OK, ora sappiamo che una distribuzione Normale è e come riconoscerlo, ma cosa possiamo fare con esso?

Beh, per un importo fisso di dati distribuiti normalmente, il generale la forma della curva a campana non cambia, ma si può ottenere più alto e più sottile o più corti e più larghi.

Hanno un pensare che per un momento – se si prende una classe di alunni faranno la stessa età e sarà probabilmente essere tutti della stessa altezza. Le altezze sono meno variazione – la differenza tra il percorso più breve e più alto sarà relativamente piccolo (la distribuzione sarà stretta) – e non ci sarà più allievo heights più vicino al centro (la distribuzione sarà più alto).

D’altra parte, se si prende alunni di tutte le classi in una scuola ci sarà una più ampia gamma di età e una maggiore variazione di altezze. Più alunni saranno trovati nelle code (lontano dal centro) e meno raggruppati attorno alla media, rendendo per una più ampia e più breve di distribuzione.

Quindi, la larghezza e il punto centrale di distribuzione può dire molto circa i tuoi dati.

Proviamo a confrontare le altezze dei bambini a 2 noto immaginario scuole.

Immaginate di andare al tuo locale scuola di Hogwarts e ha preso tutti i bambini delle loro classi…

OK, quindi non si conosce il trapano da ora – è esattamente lo stesso di prima. Segui questa punta sia per Hogwarts e St Trinians.

Prendere la media allievo altezza in entrambe le scuole (punti centrali del vostro distribuzioni Normali) e la trama come un Istogramma. Sovrapposizione di distribuzione Normale per ogni scuola su Istogramma e si dovrebbe ottenere qualcosa che assomiglia a questo:

Istogramma – St Trinians v Hogwarts

Queste curve a campana non si sovrappongono molto. Certamente non ci sono sovrapposizioni centrale porzioni, ma ci può essere una piccola sovrapposizione nelle code. Questo ci dice che ci possa essere una reale differenza in altezza tra gli alunni a questi 2 immaginario scuole.

Box-and-Whisker Plot

Così ora sappiamo come utilizzare curve a campana per confrontare i diversi gruppi in modo descrittivo, ma come cercare di mettere un po ‘ di numeri su questo per darci una migliore sensazione per quello che sta succedendo nei dati (non ho intenzione di andare in test statistici di significatività, la fiducia o p-valori – lascio questi per un post futuro).

Sappiamo che la larghezza della curva a campana è importante, quindi cerchiamo di misura.

Godere di questo post del blog? Condividerlo con il mondo.

Se prendiamo i dati e la line up dal più piccolo al più grande, si può prendere il valore medio a rappresentare il centro dei nostri dati; l’altezza media degli alunni di questa scuola. Sono sicuro che si riconoscono questa è la mediana.

Ora abbiamo suddiviso i nostri dati a metà, con esattamente la metà degli alunni è inferiore alla mediana e mezzo di altezza.

Se prendiamo il valore centrale (mediana) della metà inferiore di dati e fare lo stesso con la metà superiore, ora abbiamo diviso i nostri dati in 4 parti con un uguale numero di alunni in ogni trimestre.

I punti centrali della inferiore e la metà superiore sono chiamati il 1 ° e il 3 ° Quartile, spesso abbreviato in Q1 e Q3.

Il 1 ° e il 3 ° Quartile dare un buon feeling con la larghezza della distribuzione dei dati.

Per una distribuzione Normale, Q1 e Q3 sono equidistanti dalla linea mediana, ma la loro distanza dalla mediana può variare quando i dati non sono simmetrici (non Normale).

Quindi, se ognuno di questi quarti di sezioni di dati contiene un numero uguale di alunni, poi al centro 2 quarti deve contenere esattamente la metà di tutti gli alunni. Questa è chiamata la differenza interquartile (IQR) ed è la differenza tra Q3 e Q1:

IQR = Q3 – Q1

Penso che si può vedere che queste misure sarebbe molto utile per visualizzare l’Istogramma in modo che siamo in grado di ottenere una migliore comprensione dell’alunno in altezza.

Possiamo anche tracciare i valori massimo e minimo per mostrare la gamma di altezze della scuola, ma che non ci danno molto di un’idea di qualsiasi altezze estreme (alte o basse). Invece, siamo in grado di decidere come diversa altezza dovrebbe essere prima di poter dire che non si adatta comodamente con il resto dei dati. Questi punti sono chiamati outlier e, spesso, è calcolato come più estrema di 1,5 IQRs lontano da Q1 e Q3. In altre parole:

Alta Outlier > 3t + (1.5 x IQR)

Bassi Valori Anomali

Saperne Di Più

Se siete interessati a saperne di più sul contenuto in questo post del blog abbiamo cercato i migliori blog, libri, corsi di video e altre cose provenienti da tutto il internet. Alcuni possono essere gratuiti, mentre altri non possono, e per aiutarvi a decidere usiamo le seguenti valutazioni:

– Contenuti GRATUITI
– costa meno di 10 £/$/Euro
– costa meno di 50 £/$/Euro
– costa meno di 100 £/$/Euro
– costi più di 100 £/$/Euro

Disclosure: alcune di queste risorse possono essere link di affiliazione, e si può guadagnare una commissione di affiliazione per gli acquisti che si fanno quando si utilizzano questi collegamenti

Puoi trovare ulteriori informazioni nel nostro TCs

Post Del Blog

Come Mentire Con le Statistiche, Parte 1: Tabelle 2×2
Questa serie di blog è quello di dare una comprensione di come gli altri si inganna. Se conosci il conster del trucchi del mestiere, sarete meglio in grado di individuare quando lui cerca di tirare un veloce uno.

Come rendere Efficace l’Analisi di Correlazione in 3 Semplici Passaggi
Ci sono solo 3 semplici passi per scoprire la storia dei vostri dati con le associazioni e correlazioni.
Vi sveliamo qui…

Like this post? Please share to your friends:
Lascia un commento

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: