Kendalls tau
Kendalls rangcorrelatiecoëfficiënt, of kortweg Kendalls т (tau), is in de statistiek een correlatiecoëfficiënt gebaseerd op de rangnummers van de data in plaats van op de data zelf. Het is daarmee een verdelingsvrije maat voor correlatie, ook geschikt voor data die slechts op ordinale schaal gemeten zijn. De coëfficiënt is in 1938 ingevoerd door de Britse statisticus Maurice Kendall en naar deze genoemd.
Laat een steekproef zijn van het tweetal simultaan verdeelde stochastische variabelen en . De toetsingsgrootheid Kendalls т is gedefinieerd door:
- ,
waarin het aantal concordante paren en het aantal discordante paren in de steekproef is. Hierbij wordt een tweetal steekproefelementen slechts eenmaal met elkaar vergeleken. Er zijn in de literatuur definities van de aantallen concordante en discordante paren, waarbij in de telling elk steekproefelement vergeleken wordt met elk ander. De aantallen concordante en discordante paren zijn dan een factor 2 groter dan de hier gedefinieerde.
Als er geen knopen zijn, geldt:
- ,
zodat ook geschreven kan worden als:
In deze definities komen de rangnummers niet expliciet voor. Er is een alternatieve formulering waarin dat wel het geval is en en berekend worden aan de hand van de rangnummers.
Eigenschappen
bewerkenKendalls tau heeft de volgende eigenschappen:
- Bij volledige overeenstemming tussen de beide volgordes, dus als in elk paar beide grootheden hetzelfde rangnummer hebben, heeft de coëfficiënt de waarde 1. Alle paren zijn immers concordant, zodat .
- In het tegenovergestelde geval als de volgordes volledig tegengesteld verlopen zijn alle paren discordant, zodat . De coëfficiënt heeft dan de waarde –1.
- In alle andere gevallen ligt de waarde tussen –1 en 1, toenemend met toenemende overeenstemming tussen de paren.
- Zijn de volgordes onafhankelijk dan heeft de coëfficiënt de waarde 0.
Voorbeeld
bewerkenVan 8 personen is de lengte en het gewicht bepaald. De personen zijn gerangschikt naar lengte, van klein naar groot. Hun rangnummer in de gewichten staat op de tweede rij:
geordend naar lengte 1 2 3 4 5 6 7 8 rangnummer gewicht 3 4 1 2 5 7 8 6
We zien dat de eerste twee paren concordant zijn: de tweede persoon is langer en ook zwaarder. Het eerste en het derde paar zijn discordant. De persoon van het derde paar is langer dan van het eerste, maar lichter. In totaal zijn er
concordante paren, en
discordante paren, zodat: