Mann-Whitney U testi

Mann-Whitney U testi niceliksel ölçekli gözlemleri verilen iki örneklemin aynı dağılımdan gelip gelmediğini incelemek kullanılan bir parametrik olmayan istatistik testdir. Aynı zamanda Wilcoxon sıralama toplamı testi veya Wilcoxon-Mann-Whitney testi) olarak da bilinmektedir. Bu testi ilk defa eşit hacimli iki örneklem verileri için Wilcoxon (1945) ortaya atmıştır.^[1] Sonradan, Mann and Whitney (1947) tarafından^[2] değişik büyüklükte iki örneklem problemleri analizleri için uygulanıp geliştirilmiştir.

Değişik sıfır hipotezler

Mann-Whitney U testi iki örneklem verilerini ele alıp bu verilerin aynı anakütleden mi yoksa değişik iki anakütleden mi geldiği sorununu inceler. Ama bu test için şeklen biraz değişik problem şartları ve on varsayımlar bulunması imkâni vardır.

Mann-Whitney testi için en geniş kullanışı için sıfır hipoteze veri olan iki örneklemin tek bir anakütleden geldiğidir ve bu nedenle bu anakütle tek bir eğilim gösterir veya dağılımlar aynen eşittir. Bu sınama için iki örneklemin istatistiksel olarak birbirinden bağımsız olması gerekir. Örneklem verileri için ölçme ölçeği en zayıf şekilde sırasal ölçekli ya da niceliksel olarak aralıklı ölçekli veya orantılı ölçekli olmalıdır. Bu varsayım yapılmasının nedeni hiç olmazsa iki gözlemin birbiriyle karşılaştırınca hangisinin daha büyük olduğunu bilmek mümkün olmasıdır. Bu şekilde parametrik olmayan istatistik sınamanın parametrik istatistik sınama analoğu iki ortalama arasındaki fark için t-sınamasıdır. Eğer bu t-sınaması için iki örneklem de sıralama şekilde sırasal ölçekli veri kullanılıyorsa Mann-Whitney testi ile parametrik ortalamalar arasındaki fark için t-sınaması arasında nerede ise hiç fark olmayacaktır.

Mann-Whitney sınaması biraz değişik problem için ve değişik sıfır hipotez için de uygulanabilir. Bu şekildeki sıfır hipotez: bir anakütleden gelen örneklem veri ile ikinci anakütleden gelen bir başka veri arasındaki farkın 0,5 olmasıdır. Bu değişik hipotez sınaması için iki anakütlenin dağılımların bir sabit kayma haricinde aynı olduğu varsayılmaktadır. Yani eğer $f_{1}(x)$ birinci anakütleden $f_{2}(x)$ anakütleden gelirse bu iki değişik örneklem değeri arasındaki ilişki şu olduğu $f_{1}(x)=f_{2}(x+\delta )$ varsayılmaktadır.

Üçüncü bir şekilde problem uygulaması ve değişik anlamlı bir sıfır hipotez sınamanın Hodges-Lehman kestirimi olan iki anakütlenin merkezsel konum ölçüleri arasındaki farkın sıfır olmasıdır. Bu türlü iki-örneklemli problem için Hodges-Lehman kestirimi birinci ve ikinci orbeklem arasındaki her bir veri gözlem farkının meydanıdır. Bu şekilde problem belirlenmesi halinde birçok kişi Mann-Whitney sınamasının medyanlar arasındaki farkı sınadığını önermektedirler; ancak bu kesin olarak doğru değildir.

Her ne şekilde problem belirlenirse belirlensin genellikle Mann-Whitney sınaması için hipotezler şöyle kurulur. Verileri elde bulunan iki örneklemin iki değişik anakütle A ve anakütle Bden geldiği düşünülsün. Bu sınama için sıfır hipotez (yani H0) A ve B anakütlerinin aynı dağılım gösterdiğidir. Karşıt hipotez H1 ise yönlü hipotez olan A anakütlesinin B anakütlesinden türel (en:stochastic) olarak daha büyük olduğudur. H1 kabul edilirse A'dan elde edilen puanlar B'den elde edilen puanlardan 1/2 değerinde daha büyüktür. (Yani matematiksel biçimle eğer a A'dan ve b B'den birer gözlem iseler p(a>b>)>(1/2)). Diğer bir yönlü H1 hipotezi de (yani B'nin türel olarak A'dan daha büyük olması da) sınanabilir. Çok kere hangi yönlü karşıt hipotez seçileceği sorunda belirlenmemiştir. Bu halde hacmi daha büyük olan ya da örneklem hacimleri aynı ise ortalaması daha büyük olan örneklemin diğer örneklemden daha büyük olduğu H1 olarak kabul edilir.

Hesaplama yöntemleri

Bu sınama U adı verilen bir sınama istatistiğinin hesaplanmasını önerir. Sıfır hipotez altında U istatistiği için dağılım bilinmektedir. Küçük hacimli (yanı 20'den küçük verili) örneklemler için U dağılımı için bir tablo hazırlanmıştır. Fakat örneklem hacmi 20nin üzerinde ise normal dağılım kullanan çok iyi bir yaklaşım bulunmaktadır. Bazı istatistik kitapları U istatistiğinin analoğu olan (bir örneklemdeki sıralama numaraları toplamlarını gösteren) tablolar da vermektedirler.

Mann-Whitney U sınaması modern kompüter istatistik paketlerinin çoğunda uygulandığı için, eğer bu paketlerden birisi el altında ise, hesaplamalara hiç hacet kalmadan sonuçlar alını tefsir edilebilir. Ancak bu sınamanın nasıl ve ne şeklide yapıldığı anlanmak istenirse, örneğin veri toplanıp elle hesapların yapılması en iyi öğretici alettir. Özellikle veri hacmi küçük ise, Mann-Whitney U değeri el hesapları ile kolayca bulunabilmektedir. Bu el hesabı ile Mann-Whitney U istatistiğini bulmak için iki biraz değişik yaklaşım gerektiren yöntem vardır:

Eğer örneklem hacmi küçükse (yani gözlem sayısı 20nın altında ise) bir direkt yöntem kullanılması çok hızlı sonuç verdiği ve hesaplar yapılırken U istatistiğin altında yatan prensiplerin hemen anlaşıldığı için, tavsiye edilir.

Eldeki iki örneklemi acele olarak gözden geçirdikten sonra sıralamada genellikle daha küçük görünen örneklem baz örneklem olarak seçilir ve buna Örneklem 1 adı verilir ve diğer örneklem ise Örneklem 2 olarak adlandırılır. Bu seçimi yapmanın tek nedeni hesapların biraz daha kolaylaştırılmasını sağlamak içindir.
Örneklem 2'deki her bir veri tek başına alınır. Örneklem 1'de bulunan veriler bu veri değeri ile karşılaştırılır. Her daha büyük değere 1 puan ve her aynı değere 1/2 puan vererek, toplam puan sayısı kaydedilir. Bu işlem bütün Örneklem 2 elemanları için yapılır ve her eleman için toplam puan bulunur.
Bu her eleman için puanların tüm elamanlar için toplamı U istatistiği değeri olur.

Eğer örneklem hacmi büyük ise bir sıralama düzeni kurulması ve bir formül kullanımı gereklidir.

Tüm gözlemleri bir araya alarak (iki değişik örneklem olduğunu bu hesap için unutarak) bir sıralama düzeni elde edilir. Eğer beraberlik varsa her bereaber değere ortalama sıralama numarası verme (yani (1 2,5 2,5 4)) stratejisi uygulanır.
Örneklemlerden biri keyfi olarak Örneklem 1 olarak seçilir. Örneklem 1deki sıralama numaralarının toplamı ( $R_{1}$ olarak) bulunur. Beraberlik için özel (1 2.5 2.5 4) stratejisi uygulandığı için her iki örneklem için sıralama numaralarının toplamının N (iki örneklemdeki toplam gözlem sayısı) olduğu bilinmektedir. N eksi Örneklem 1 sıralama numaraları toplamı Örneklem 2 sıralama numaraları toplamını (yani $R_{2}=n-R_{1}$ ) verir.
İki tane formül kullanılarak iki U-istatistik adayı hesaplanır. Bunlardan $U_{1}$ Örneklem 1 için gözlem sayısını ve toplam sıralama numarası sayısını; $U_{2}$ ise Örneklem 2 için gözlem sayısını ve toplam sıralama numarası sayısını kullanır. Formüller şudur:

U_{1}=R_{1}-{n_{1}(n_{1}+1) \over 2}\,\!

U_{2}=R_{2}-{n_{2}(n_{2}+1) \over 2}.\,\!

Burada n₁ Örneklem 1 için örneklem hacmi; R₁ Örneklem 1 için sıralama numaraları toplamı; n₂ Örneklem 2 için örneklem hacmi; R₂ Örneklem 2 için sıralama numaraları toplamı olur. Kontrol için U₁ ile U₂ için toplam alınır. Bu değer iki örneklem hacim sayılarının çarpımına eşit olmalıdır; yani

U_{1}+U_{2}=n_{1}n_{2}.\,\!

Bulunan U₁ ve U₂ değerlerinden küçüğü hazırlanmış olan U-istatistiği anlamlılık tablosunda kullanılır.

Normal yaklaşım

Eğer örneklem hacimleri büyükse, anlamlılık düzeyini bulmak için şu standart normal dağılım yaklaşımı kullanılır:

z=(U-m_{U})/\sigma _{U}\,\!

Burada z standart normal dağılım tablolarında kullanılan z-puanı; $m_{U}$ ve $\sigma _{U}$ ise, eğer sıfır hipotez doğruysa U için ortalama ve standart sapma olup şu formüllerle bulunurlar:

m_{U}=n_{1}\cdot n_{2}/2.\,\!

\sigma _{U}={\sqrt {n_{1}n_{2}(n_{1}+n_{2}+1) \over 12}}.\,\!

Ancak örneklem verileri için sıralamada beraberlikler varsa bu değerlerin beraberlikler için düzeltilmesi gerekir. Fakat el hesaplanmalarında bu düzeltmeler çok defa kullanılmamaktadır; istatistik paket programları ise bu düzeltmeleri hemen rutin olarak yapmaktadırlar.

Diğer sınamalara ilişki

U test iki bağımsız örneklem için ortalamalar farkı için Student'in t-testi ile çok benzer şartlar bulunduğu zaman kullanılır. Bunlardan hangi sınamanın ne zaman kullanılması gerektiği sorusu hemen ortaya çıkmaktadır. Eğer veriler sırasal ölçekli ise U' testi, eğer örneklem verileri aralıksal veya oransal ölçekli ise genel olarak t-testi tercih edilmelidir. Ancak aralıksal veya oransal ölçekli veriler halinde, eğer örneklem verileri içinde bir veya ikiden çok 'aykırı değer varsa veya eğer anakütle dağılımlarının normal olmaktan çok uzak ve örneklem hacimlerinin yeter derecede büyük olduğu biliniyor ise yine parametrik olmayan U testi tercih edilir.

Diğer taraftan bazı istatistikçiler, eğer iki örneklem birbirinden çok değişikse, U-testinin tercih edilmesi gerektiğini bildirirler. Ancak U-sınaması sıfır hipotez doğru ise iki örneklemin aynı dağılımdan geldiğini varsaymaktadır. Eğer iki örneklem değişik iki anakütle dağılımından gelmekte ise bu varsayıma göre hazırlanmış özel yaklaşımlı serbestlik dereceli t-testinın daha uygun sonuçlar vereceği ispat edilmiştir. Bu halde bazı istatistikçiler (örneğin Conover (1999)^[3]) verilerin sıralama düzenine koyulup sıralama numaraları için t-testi uygulanmasını tavsiye etmektedirler.

U-testi diğer bazı parametrik olmayan istatistik analiz yöntemleri ile ilişkili bulunmaktadır. Eğer veriler iki değer (0-1)-alan isimsel ölçekli iseler, U istatistiği ve Kendall sıralamalı korelasyon katsayısı teorik olarak aynıdır.

ρ adı verilen bir istatistik U istatistiği ile doğrusal olarak bağımlıdır. ρ iki dağılım için birbirine ne kısımda çakıştıklarını ölçen bir parametrik olmayan istatistik olup 0 ile 1 arasında değişmektedir. Eğer ρ=0,5 ise iki dağılım tam olarak birbirleri ile çakışmaktadır. Uç değerlerde, yani ρ=0 veya ρ=1 olursa, iki dağılım birbirine hiç dokunmamaktadır. ρ değeri Unun n₁ × n₂ ile bölünmesi sonucu elde edilmektedir.

Örneğin ve sonuçlar

İçsel kaynaklar

Wilcoxon işaretli-sıralama sınaması

Kaynakça

^ Wilcoxon,F. (1945) "Individual comparisons by ranking methods". Biometrics Bulletin, C.1, say.80-83
^ Mann,H.B. ve Whitney,D.R. (1947). "On a test of whether one of two random variables is stochastically larger than the other". Annals of Mathematical Statistics, C.18 Say.50-60
^ Conover,W.J. (1999), Practical Nonparametric Statistics (3ncu Ed.), New York: Wiley.

Dışsal kaynaklar

[1] 15 Haziran 2008 tarihinde Wayback Machine sitesinde arşivlendi. ALGLIB C++, C#, Delphi, Visual Basic, vb. yazılımlı Mann-Whitney U sınaması uygulamasını kapsayan programlar kitaplığı.
Hollander,M. ve Wolfe,D.A. (1999), Nonparametric Statistical Methods (2. Ed.), New York: Wiley.
Lehmann,E.L. (2006). Nonparametrics: Statistical Methods Based On Ranks, New York, Springer.
[2]^{[ölü/kırık bağlantı]} Mann-Whitney U dağılımı için kritik değerler tablosu (pdf)
R istatistiksel program paketi Wilcoxon iki-örneklem sınaması adı altında wilcox.test bu sınamanın uygulamasıni kapsar.
Siegel,S. ve Castellan,N.J. (1988) Nonparametric Statistics for Behavioural Science (2. rev.ed.), Nre York: McGraw Hill

[1] Wilcoxon,F. (1945) "Individual comparisons by ranking methods". Biometrics Bulletin, C.1, say.80-83

[2] Mann,H.B. ve Whitney,D.R. (1947). "On a test of whether one of two random variables is stochastically larger than the other". Annals of Mathematical Statistics, C.18 Say.50-60

[3] Conover,W.J. (1999), Practical Nonparametric Statistics (3ncu Ed.), New York: Wiley.

[1]

[2]

[3]