Vedlegg 3 - Chebyshevs teorem

Dette vedlegget er i stor grad bygget på Hartmann et al. (2018b).

Vi diskuterte i noe detalj hvordan vi kan bruke normalfordelingen til å si noe om hvordan verdier i et datasett kan antas å falle innenfor en gitt avstand fra gjennomsnittet (Hartmann et al. 2018b):

Normalfordeling med standardavvik

Figure 9.1: Normalfordeling med standardavvik

Vi kan ut fra normalfordeingen si at

  • 68 % av observajsonene vil ligge innenfor ett standardavvik fra gjennomsnittsverdien
  • 95 % av observasjonene vil ligge innenfor to standradavvik fra gjennomsnittsverdien
  • 99.7 % av observasjonene vil ligge innenfor tre standardaavik fra gjennomsnittsverdien

Dette kalles ofte for den empiriske regelen (“the empirical rule”), og gjelder kun normalfordelte data. Chebyshevs teorem gjelder imidlertid alle fordelinger. Normalfordelingen gir oss at datapunkter med en viss sannsynlighet ligger innenfor en viss avstand fra gjennomsnittsverdien. Det samme sier Chebyshevs teorem om datafordelinger som ikke er normalfordelte: bare en gitt mengde datapunkter kan ligge mer enn en gitt avstand fra gjennomsnittsverdien.

Teoremet uttrykkes slik (Hartmann et al. 2018b):

For ethvert nummer k større enn 1 vil minst \(1-1/\)k\(^2\) av dataverdiene ligge innenfor k standardavvik fra gjennomsnittet.

Teoremet kan generisk kan framstilles slik:

Chebyshevs teorem

Figure 9.2: Chebyshevs teorem

For ethvert numerisk datasett gjelder:

  1. Minst ¾ av datapunktene ligger innenfor to standardavvik av gjennomsnittet – altså i intervallet mellom endepunktene \(\overline{x}\pm2s\) for et utvalg og \(\overline{x}\pm2\sigma\) for populasjoner.
  2. Minst 8/9 av datapunktene ligger innenfor tre standardavvik av gjennomsnittet – altså i intervallet mellom endepunktene \(\overline{x}\pm3s\) for et utvalg og \(\overline{x}\pm3\sigma\) for populasjoner.
  3. Minst \(1-1/\)k\(^2\) av datapunktene ligger mellom k standardavvik av gjennomsnittet – altså i intervallet mellom endepunktene \(\overline{x}\pm\)k\(s\) for et utvalg og \(\overline{x}\pm\)k\(\sigma\) for populasjoner.

Ut fra tabellen under ser vi at dersom vi velger scroller til k = 2 vil 75 % av verdiene ligge innenfor (altså 75 % innenfor 2 standardavvik).

k auc.percent
1.0 0
1.1 17
1.2 31
1.3 41
1.4 49
1.5 56
1.6 61
1.7 65
1.8 69
1.9 72
2.0 75
2.1 77
2.2 79
2.3 81
2.4 83
2.5 84
2.6 85
2.7 86
2.8 87
2.9 88
3.0 89
3.1 90
3.2 90
3.3 91
3.4 91
3.5 92
3.6 92
3.7 93
3.8 93
3.9 93
4.0 94

Vi kan også vise en grafisk framstilling av Chebyshevs teorem med fokus på prosenter (y-aksen) mot k (x-aksen).

Chebyshevs teorem - prosent

Figure 9.3: Chebyshevs teorem - prosent

Når vi vet at minst 75% av distribusjonen ligger innenfor \(\overline{x}\pm2s\) vet vi også at maksimalt 25% ligger utenfor. Likeledes for \(\overline{x}\pm3s\) vil maksimalt 11,11 % av distribusjonen ligge utenfor. Så mens reglene for normalfordeling kun gjelder for normalfordelte eller tilnærmet-normalfordelte datasett, er Chebyshevs teorem et faktum som gjelder alle datadistribusjoner og som beskriver minimumsandelen av observasjoner/datapunkter som ligger innenfor hhv +/- 1, 2 og 3 standardavvik fra gjennomsnittet.