Wiskunde

Statistische gegevens, centrum- en spreidingsmaten en grafische voorstellingen van statistische gegevens

Centrummaten van een gegevensverzameling

Definitie

Centrummaten zijn kwantitatieve kenmerken waarmee men het "centrum" of het "midden" van een gegevensverzameling beschrijft. De drie belangrijkste centrummaten zijn het gemiddelde (𝑥ˉ𝑥̄ of µµ), de mediaan en de modus. Zij vatten een verzameling data samen tot één karakteristiek getal dat als representatief beschouwd wordt voor de dataset.

Belangrijke concepten

Gemiddelde

Het gemiddelde is de som van alle waarden gedeeld door het aantal waarden in de dataset. Men gebruikt doorgaans het symbool 𝑥ˉ𝑥̄ voor het rekenkundig gemiddelde bij steekproeven, of de letter µµ indien het om een volledige populatie gaat. Het gemiddelde is gevoelig voor extreme waarden (uitbijters), omdat deze het resultaat sterk kunnen beïnvloeden.

Mediaan

De mediaan is het midden van een geordende dataset. Indien het aantal gegevens oneven is, is de mediaan het echte midden, indien het aantal gegevens even is, is de mediaan het rekenkundig gemiddelde van de twee middelste waarden na ordening. De mediaan is robuuster ten opzichte van uitbijters, omdat slechts de positie van de gegevens telt en niet hun waarde.

Modus

De modus is de waarde die het vaakst voorkomt in de dataset. Er kunnen meerdere modi bestaan indien verschillende waarden even vaak voorkomen als hoogste frequentie. Het is mogelijk dat er geen modus is (bijvoorbeeld indien alle waarden slechts eenmaal voorkomen) of dat de dataset multimodaal is.

Formules en berekeningen

Gemiddelde ([INLINE_EQUATION]𝑥̄[/INLINE_EQUATION] of [INLINE_EQUATION]µ[/INLINE_EQUATION]):

x=x1+x2++xnn\overline{x} = \frac{x_{1} + x_{2} + \cdots + x_{n}}{n}

waarbij:

  • x1,x2,...,xnx_{1}, x_{2}, ..., x_{n} de individuele gegevens zijn

  • nn het aantal gegevens in de dataset

Mediaan:

  • Orden de gegevens van klein naar groot.

  • Oneven aantal gegevens ([INLINE_EQUATION]n[/INLINE_EQUATION] is oneven):

Mediaan = Waarde op positie n+12\frac{n+1}{2}

  • Even aantal gegevens ([INLINE_EQUATION]n[/INLINE_EQUATION] is even):

Mediaan = Gemiddelde van waarden op posities n2\frac{n}{2} en n2+1\frac{n}{2} + 1

Modus:

  • Zoek de waarde(n) met de hoogste frequentie.

Praktijkvoorbeelden

Voorbeeld 1: Dataset met uitbijter

Gegeven de dataset: 3, 5, 8, 8, 9, 15, 47

  • Gemiddelde: x=3+5+8+8+9+15+477=95713,57\overline{x} = \frac{3 + 5 + 8 + 8 + 9 + 15 + 47}{7} = \frac{95}{7} \approx 13,57

  • Mediaan: De gerangschikte dataset heeft n=7n = 7 (oneven), dus mediaan is het 4e getal: 8.

  • Modus: Het getal 8 komt het vaakst voor (2 keer), dus modus is 8.

Hier beïnvloedt de uitbijter (47) significant het gemiddelde, minder de mediaan en modus.

Voorbeeld 2: Even aantal data, dubbele modus

Gegeven de dataset: 4, 4, 5, 6, 7, 7, 9, 11

  • Gemiddelde: x=4+4+5+6+7+7+9+118=538=6,625\overline{x} = \frac{4 + 4 + 5 + 6 + 7 + 7 + 9 + 11}{8} = \frac{53}{8} = 6,625

  • Mediaan: Er zijn 8 gegevens. De middelste twee zijn de 4e (6) en 5e (7) waarde: Mediaan=6+72=6,5\text{Mediaan} = \frac{6 + 7}{2} = 6,5

  • Modus: Zowel 4 als 7 komt tweemaal voor. Dit is een bimodale distributie.

Veel gemaakte fouten

  • Vergeten de data eerst te ordenen bij het bepalen van de mediaan, waardoor een foutieve waarde wordt geselecteerd.

  • Bij het gemiddelde de formule verkeerd toepassen door een rekenfout te maken met de som of het aantal gegevens (nn).

  • Verkeerd omgaan met frequenties in het bepalen van de modus bij grote of gegroepeerde gegevensreeksen.

  • Foutieve interpretaties bij datasets met meer dan één modus of geen modus.

---

Spreidingsmaten

Definitie

Spreidingsmaten geven de mate van spreiding of variatie in een dataset weer. Waar centrummaten enkel "het midden" beschrijven, tonen spreidingsmaten hoe breed of smal de verdeling rondom het centrum is.

Belangrijke concepten

Standaarddeviatie (σσ)

De standaarddeviatie, genoteerd met het symbool σσ, is een maat voor de gemiddelde afstand van alle gegevens tot het gemiddelde van de gegevens. Een lage standaarddeviatie duidt op concentratie rond het gemiddelde, een hoge waarde op verspreiding.

Variantie (σ2σ²)

De variantie, σ2σ², is het gemiddelde van de gekwadrateerde afwijkingen van elke waarde ten opzichte van het gemiddelde. Door het kwadrateren wordt vermijden dat positieve en negatieve afwijkingen elkaar opheffen. Dit maakt de variantie en standaarddeviatie geschikt als spreidingsmaat.

Min-max afstand

De min-max afstand is het verschil tussen de grootste en kleinste waarde in de geordende dataset.

Spreidingsbreedte

Spreidingsbreedte is een synoniem voor min-max afstand, dus het verschil tussen het hoogste en het laagste gegeven.

Decielafstand

De decielafstand meet het verschil tussen het 9de deciel (D9D9, de waarde waar 90% van de gegevens onder ligt) en het 1ste deciel (D1D1). Deze maat is minder gevoelig voor uitbijters dan de spreidingsbreedte.

Kwartielafstand (Interkwartielafstand, IQR)

De interkwartielafstand, genoteerd als IQRIQR, is het verschil tussen het derde kwartiel (Q3Q₃, 75ste percentiel) en het eerste kwartiel (Q1Q₁, 25ste percentiel). De IQRIQR geeft de spreiding weer van het middelste deel (50%) van een dataset, en is robuust tegen uitbijters.

Formules en berekeningen

Variantie ([INLINE_EQUATION]σ²[/INLINE_EQUATION]):

σ2=i=1n(xix)2n\sigma^2 = \frac{\displaystyle\sum_{i=1}^{n}(x_{i} - \overline{x})^2}{n}

waarbij:

  • xix_{i} een individuele waarde is

  • x\overline{x} het gemiddelde is

  • nn het aantal gegevens is

Standaarddeviatie ([INLINE_EQUATION]σ[/INLINE_EQUATION]):

σ=σ2\sigma = \sqrt{\sigma^2}

Min-max afstand/Spreidingsbreedte:

Spreidingsbreedte=max(xi)min(xi)\text{Spreidingsbreedte} = \text{max}(x_{i}) - \text{min}(x_{i})

Decielafstand:

Decielafstand=D9D1\text{Decielafstand} = D_{9} - D_{1}

waarbij D1D₁ en D9D₉ de 1ste en de 9de decielen zijn.

Kwartielafstand ([INLINE_EQUATION]IQR[/INLINE_EQUATION]):

IQR=Q3Q1\text{IQR} = Q_3 - Q_1

Procedure:

  1. Sorteer de data.

  2. Bepaal de mediaan (Q2Q₂ of med).

  3. Q1Q₁ is de mediaan van de onderste helft.

  4. Q3Q₃ is de mediaan van de bovenste helft.

Praktijkvoorbeelden

Voorbeeld 1: Spreidingsmaten van een dataset

Beschouw de dataset: 2, 4, 4, 5, 8, 10, 12, 13, 17

    Test je kennis met deze examenoefeningen