Hajontaluvut

Keskihajonta

Keskihajonta mittaa, kuinka lähelle toisiaan havaintoarvot mitta-asteikolla sijoittuvat. Jotta keskihajonta voidaan laskea, mitta-asteikolla on pystyttävä laskemaan erotuksia. Keskihajonta lasketaan keskiarvoa apuna käyttäen. Laskukaava saattaa vaikuttaa hiukan erikoiselta. Sen ymmärtäminen auttaa keskihajonnan käsitteen ymmärtämistä ja merkityksen tulkintaa, vaikka kaavaa ei nykyään tarvitse välttämättä edes tuntea, kun käyttää tilastollisia tietokoneohjelmia. Excelissäkin keskihajonta lasketaan funktiolla Keskihajonta().

Keskihajonta on pienimmillään nolla. Silloin kaikki havaintoarvot ovat yhtä suuria (keskiarvon suuruisia) ja jokaisen havaintoarvon ero keskiarvoon nähden on nolla

 Mitä enemmän havaintoarvot poikkeavat toisistaan, sitä suurempia ovat erot keskiarvoon nähden ja sitä suurempi on keskihajonta.

Seuraavassa on kolme jakaumaa, joista jokaisella on sama keskiarvo mutta erilainen jakauma (hajonta).

 

Seuraavissa kolmessa jakaumassa keskihajonta on kaikissa sama mutta keskiarvo eri. Esimerkeistä käynee ilmi, miksi keskiarvoa kuuluu sijaintilukuihin ja keskihajonta hajontalukuihin.

 

Pyri edellisten kuuden jakauman perusteella hahmottamaan, mitä havaintoarvoilta vaaditaan, jotta keskihajonta on nolla ja millaisen jakauman keskihajonta on suurin. Voit tutkia edeltäviä esimerkkejä ja niiden aineistoja tarkemmin tästä (Excel-taulukko).

 

Viereisessä taulukossa on Oulun tammikuun sademäärät vuosilta 1974-1999. Keskiarvo kyseiseltä ajalta on 29,6 mm. Taulukon C-sarakkeeseen on laskettu kunkin vuosikohtaisen havaintoarvon ja keskiarvon 29,6 mm erotus. Näistä erotuksista osa on plusmerkkisiä ja osa miinusmerkkisiä. Jos erotuksista poistetaan etumerkit (eli otetaan luvuista itseisarvot) ja lasketaan näin saatujen (positiivisten) lukujen keskiarvo, saadaan yksinkertainen mittari havaintoarvojen hajonnalle. Tätä lukua kutsutaan keskipoikkeamaksi. Keskipoikkeaman ainoa etu on, että se on helppo laskea. Sillä ei ole paljoakaan käyttöä. (Huom. Jos lasketaan keskiarvo suoraa erotuksista (etumerkkeineen), saadaan aina nolla. Miksi?)

Keskihajontaa ei pidä sotkea keskipoikkeamaan. Voidaan syystä sanoa, että tilastomatematiikka alkaa keskihajonnasta. Keskihajonnan merkitystä ei voi tajuta ellei tunne sen laskukaavaa.

Keskihajonnan laskeminen alkaa samalla tavalla kuin keskipoikkeaman laskeminen: lasketaan havaintoarvojen ja keskiarvon erotukset. Nämä erotukset korotetaan toiseen potenssiin (kannattaa huomata, että lukujen laaduksi tulee tässä vaiheessa neliömillimetri ja numeroarvot voivat olla suuria). Näin saadut luvut lasketaan yhteen. Saatu summa jaetaan luvulla joka on yhtä pienempi kuin havaintojen määrä. Tässä havaintoja on 26 vuodelta, joten jakaja on 26 - 1 = 25. Jakolaskun tuloksen laatu on edelleen neliömillimetrejä, tässä 5035,45/25 = 201,418 mm2. Kun jakolaskun tuloksesta otetaan neliöjuuri, saadaan lopulta tunnusluku, jota kutsutaan keskihajonnaksi (laatu on jälleen millimetriä!). Tammikuun sademäärän keskihajonnaksi tulee 14,19 mm.

Seuraavat kaksi kaaviota havainnollistavat (?) vielä laskelmien kulkua. Ensin on esitetty graafisesti vuosikohtaiset erotukset keskiarvon suhteen Oulun tammikuun sademääristä. Erotusten summa on aina nolla, joten se ei kelpaa hajonnan mittariksi.

Erotusten neliöt ja niistä laskettu osamäärä kuvataan seuraavassa kaaviossa. Erotusten neliöt eivät voi olla negatiivisia, joten niiden (alempi kaavio) summa on sitä suurempi, mitä suurempia ovat erotukset keskiarvosta laskettuna (ylempi kaavio). Huomaa erilaiset y-akselin asteikot kaavioissa.

Yllä olevan kaavion pylväiden yhteenlaskettu korkeus (eli erotusten neliöiden summa) on 5035,45 mm2. Se jaettuna luvulla 25 (eli havaintojen lukumäärä vähennettynä yhdellä) on puolestaan 201,418 mm2 (vaakasuora viiva kaaviossa on piirretty tälle korkeudelle). Tästä luvusta otettu neliöjuuri 14,19 mm on Oulun tammikuun sademäärien keskihajonta.

Seuraavaa kaavion on kuvattu aikasarjana tammikuun sademäärät Oulussa vuosilta 1974-1999. Lisäksi kaaviossa on kaksi vaakasuoraa viivaa. Ylempi (punainen) viiva on korkeudella keskiarvo plus yksi hajonnan mitta eli 29,56 + 14,19 = 43,8. Alempi (sininen) viiva on puolestaan korkeudella keskiarvo miinus yksi hajonnan mitta eli 29,56 - 14,19 = 15,4.

Kuukauden sademäärä on niin monen osatekijän yhteisvaikutuksen tulos, että sademäärän vaihtelua voidaan pitää satunnaisena. On mahdotonta sanoa aikaisempien vuosien perusteella, mikä seuraavan vuoden tammikuun sademääräksi tulee. On kuitenkin pystytty osoittamaan, että niin sanottua normaalijakaumaa noudattavan ilmiön arvoista 67 % asettuu yhden hajonnan sisään keskiarvosta katsottuna. Jälleen on korostettava, että 26 vuoden aineisto on liian pieni pitävien johtopäätösten tekemiseen. Tässä aineistossa sademäärä on hajonnan säteellä keskiarvosta 20 kertaa 26:sta (77 % tapauksista). Voidaan sanoa, että sademäärä noudattaa normaalijakaumaa ainakin likimain. Pitemmän ajan aineistosta normaalijakauma kävisi paremmin ilmi (ellei ilmasto ole muuttunut!).