Statistische gegevens, centrum- en spreidingsmaten en grafische voorstellingen van statistische gegevens
Centrummaten van een gegevensverzameling
Definitie
Centrummaten zijn kwantitatieve kenmerken waarmee men het "centrum" of het "midden" van een gegevensverzameling beschrijft. De drie belangrijkste centrummaten zijn het gemiddelde (
of ), de mediaan en de modus. Zij vatten een verzameling data samen tot één karakteristiek getal dat als representatief beschouwd wordt voor de dataset.Belangrijke concepten
Gemiddelde
Het gemiddelde is de som van alle waarden gedeeld door het aantal waarden in de dataset. Men gebruikt doorgaans het symbool
voor het rekenkundig gemiddelde bij steekproeven, of de letter indien het om een volledige populatie gaat. Het gemiddelde is gevoelig voor extreme waarden (uitbijters), omdat deze het resultaat sterk kunnen beïnvloeden.Mediaan
De mediaan is het midden van een geordende dataset. Indien het aantal gegevens oneven is, is de mediaan het echte midden, indien het aantal gegevens even is, is de mediaan het rekenkundig gemiddelde van de twee middelste waarden na ordening. De mediaan is robuuster ten opzichte van uitbijters, omdat slechts de positie van de gegevens telt en niet hun waarde.
Modus
De modus is de waarde die het vaakst voorkomt in de dataset. Er kunnen meerdere modi bestaan indien verschillende waarden even vaak voorkomen als hoogste frequentie. Het is mogelijk dat er geen modus is (bijvoorbeeld indien alle waarden slechts eenmaal voorkomen) of dat de dataset multimodaal is.
Formules en berekeningen
Gemiddelde ([INLINE_EQUATION]𝑥̄[/INLINE_EQUATION] of [INLINE_EQUATION]µ[/INLINE_EQUATION]):
waarbij:
de individuele gegevens zijn
het aantal gegevens in de dataset
Mediaan:
Orden de gegevens van klein naar groot.
Oneven aantal gegevens ([INLINE_EQUATION]n[/INLINE_EQUATION] is oneven):
Mediaan = Waarde op positie
Even aantal gegevens ([INLINE_EQUATION]n[/INLINE_EQUATION] is even):
Mediaan = Gemiddelde van waarden op posities
enModus:
Zoek de waarde(n) met de hoogste frequentie.
Praktijkvoorbeelden
Voorbeeld 1: Dataset met uitbijter
Gegeven de dataset: 3, 5, 8, 8, 9, 15, 47
Gemiddelde:
Mediaan: De gerangschikte dataset heeft
(oneven), dus mediaan is het 4e getal: 8.Modus: Het getal 8 komt het vaakst voor (2 keer), dus modus is 8.
Hier beïnvloedt de uitbijter (47) significant het gemiddelde, minder de mediaan en modus.
Voorbeeld 2: Even aantal data, dubbele modus
Gegeven de dataset: 4, 4, 5, 6, 7, 7, 9, 11
Gemiddelde:
Mediaan: Er zijn 8 gegevens. De middelste twee zijn de 4e (6) en 5e (7) waarde:
Modus: Zowel 4 als 7 komt tweemaal voor. Dit is een bimodale distributie.
Veel gemaakte fouten
Vergeten de data eerst te ordenen bij het bepalen van de mediaan, waardoor een foutieve waarde wordt geselecteerd.
Bij het gemiddelde de formule verkeerd toepassen door een rekenfout te maken met de som of het aantal gegevens (
).Verkeerd omgaan met frequenties in het bepalen van de modus bij grote of gegroepeerde gegevensreeksen.
Foutieve interpretaties bij datasets met meer dan één modus of geen modus.
Spreidingsmaten
Definitie
Spreidingsmaten geven de mate van spreiding of variatie in een dataset weer. Waar centrummaten enkel "het midden" beschrijven, tonen spreidingsmaten hoe breed of smal de verdeling rondom het centrum is.
Belangrijke concepten
Standaarddeviatie (
)De standaarddeviatie, genoteerd met het symbool
, is een maat voor de gemiddelde afstand van alle gegevens tot het gemiddelde van de gegevens. Een lage standaarddeviatie duidt op concentratie rond het gemiddelde, een hoge waarde op verspreiding.Variantie (
)De variantie,
, is het gemiddelde van de gekwadrateerde afwijkingen van elke waarde ten opzichte van het gemiddelde. Door het kwadrateren wordt vermijden dat positieve en negatieve afwijkingen elkaar opheffen. Dit maakt de variantie en standaarddeviatie geschikt als spreidingsmaat.Min-max afstand
De min-max afstand is het verschil tussen de grootste en kleinste waarde in de geordende dataset.
Spreidingsbreedte
Spreidingsbreedte is een synoniem voor min-max afstand, dus het verschil tussen het hoogste en het laagste gegeven.
Decielafstand
De decielafstand meet het verschil tussen het 9de deciel (
, de waarde waar 90% van de gegevens onder ligt) en het 1ste deciel ( ). Deze maat is minder gevoelig voor uitbijters dan de spreidingsbreedte.Kwartielafstand (Interkwartielafstand, IQR)
De interkwartielafstand, genoteerd als
, is het verschil tussen het derde kwartiel ( , 75ste percentiel) en het eerste kwartiel ( , 25ste percentiel). De geeft de spreiding weer van het middelste deel (50%) van een dataset, en is robuust tegen uitbijters.Formules en berekeningen
Variantie ([INLINE_EQUATION]σ²[/INLINE_EQUATION]):
waarbij:
een individuele waarde is
het gemiddelde is
het aantal gegevens is
Standaarddeviatie ([INLINE_EQUATION]σ[/INLINE_EQUATION]):
Min-max afstand/Spreidingsbreedte:
Decielafstand:
waarbij
en de 1ste en de 9de decielen zijn.Kwartielafstand ([INLINE_EQUATION]IQR[/INLINE_EQUATION]):
Procedure:
Sorteer de data.
Bepaal de mediaan (
of med).is de mediaan van de onderste helft.
is de mediaan van de bovenste helft.
Praktijkvoorbeelden
Voorbeeld 1: Spreidingsmaten van een dataset
Beschouw de dataset: 2, 4, 4, 5, 8, 10, 12, 13, 17