İçeriğe atla

Kutu grafiği

Vikipedi, özgür ansiklopedi
Michelson-Morley Deneyi veri setleri için dikey "Kutu Grafikleri"

İstatistik biliminde kutu grafiği (İngilizce: Box plot) bir betimsel istatistik ve istatistiksel grafik aleti olup niceliksel verileri görsel şekilde özetlemek için Amerikan istatistikçi John Tukey tarafından kutu-ve-bıyıklar grafiği adı altında bir açıklayıcı veri analizi aracı olarak ilk defa geliştirilmiştir. Kutu grafiği, ilgili değişken bakımından veri için hazırlanan beş sayılı özetleme tablosu[1] gösterimini grafiksel olarak özetlemeye dayalıdır. Özellikle merkezsel konum, yayılma, çarpıklık ve basıklık yönünden verileri özetlemek ve aykırı değerleri tanımlamak için kullanılır.

En basit çiziminde izlenecek yordam

[değiştir | kaynağı değiştir]

1. Veri seti için Xmed: medyan (ortanca), Xmin (en küçük gözlem değeri), Q1 (birinci dörttebirlik) ve Q3 (üçüncü dörttebirlik) ve Xmaks(en büyük gözlem değeri) olarak bulunur. Bunun en kolay yaklaşımı veri setinin en küçük değerden en büyük değere kadar sıralaması yapılmasi ve bu sıralamadan beş sayılı özetleme tablosu çıkarılmasıdır; yani şu tablo verilebilir:

            Xmed
        Q1         Q3
   Xmin                Xmaks

2. Kutu grafiği iskeleti, veri minimum ile maksimum değerleri arasında üzeri ölçekli bir çizgiden oluşur; yani Xmin lle Xmaks noktaları arasında ya yatay ya da dikey bir çizgi halindedir.

3. Bu çizgi üzerinde ölçeğe göre bir kutu çizilir. Kutunun en küçük değeri birinci dörttebirlik Q1 ve en büyük değeri üçüncü dörttebirlik Q3 olur. Kutunun uç noktalarına Tukey tarafından "menteşe" adı verilmiştir; yani Q1 ve Q3 kutunun uç noktaları "menteşe" noktalarıdır. Bu kutunun uzunluğu QA = Q3 - Q1 olur ve bu QA verinin çeyrekler açıklığı ölçüsünü gösterir. Dikkat edilirse böylece gösterim bir "kutu" ile dörttebirlikler dışındaki (yani "menteşe" dışındaki) veri değerlerini gösteren "bıyıklar" şekle girmiştir. Bunun için bu grafiğe John Tükey tarafından kutu-ve-bıyıklar grafiği adı verilir.

4. Medyan "kutu"nun içinde ölçeğe göre yerine konulup işaretlenir.

Veri setinin niteliklerini bir kutu grafiği görsel şekilde ifade eder:

  • Merkezsel konum: Verinin merkezsel konumu kutunun içinde işaretlemiş olan medyan noktası ile gösterilir.
  • Yayılma: Verinin yayılmasının açıklık ölçüsüyle ölçülen niteliği, "kutu grafiği"'nin (yatay veya dikey) tüm çizgisi ile görülür. Çeyrekler açıklığı ise "kutu grafiği"nde kutunun büyüklüğü ile görülür.
  • Şekil:
    • Çarpıklık: Verinin "çarpıklık" ölçüsü bu grafikte bulunmaz. Ama verinin çarpıklık karakteri kutunun tüm çizginin küçük Xmin tarafına mı yoksa büyük Xmaks tarafına mı yakın olması ile görülür. Eğer kutu, çizginin küçük tarafında ise, kutu içindeki medyan noktası Xmin değerine yakın olur ve kutu dışında kalan çizginin yüksek kısmı (yani Xmaksa doğru kısmı) pozitife doğru uzunca bir kuyruk gösterir. Bu demektir ki veri pozitif çarpıklık niteliği gösterir. Eğer kutu, çizginin büyük tarafında ise, yani medyan noktası Xmaks değerine yakın ise, kutu dışında kalan çizginin düşük kısmı (yani Xmine doğru kısmı) negatife doğru uzun kuyruklu olur ve böylece veri değerleri negatif çarpıklık gösterir. Ancak "çarpıklık" karakterini doğrudan doğruya ölçen bir sayısal ölçü "kutu grafiği"nden hemen doğrudan doğruya çıkmaz.
    • Basıklık: Yine basıklık ölçüsü bu grafikte yoktur. Ama verinin basıklık niteliği hakkında bu grafikten bir kanaat edinilebilir. Dikkat edilirse bu kanaat edinme olup, epeyce zayıf, bir intiba edinme şeklindedir ve tam olarak basıklık niteliği öğrenilmez. Basıklık için bir kanaat sağlama kutunun genişliği ile çizginin genişliğini karşılaştırılma ile edinilebilir. Eğer kutu çizginin çoğunu kapsıyorsa genellikle verinin basık olduğu hakkında bir ilk intiba ortaya çıkabilir.

Alternatif şekiller

[değiştir | kaynağı değiştir]

Aykırı değer sorunları ve kutu grafiği

[değiştir | kaynağı değiştir]

Eğer veri sıralaması sonunda ya diğer değerlerden çok küçük veya diğer değerlerden çok büyük uç değer bulunmaktaysa kutu grafiği için bu problem olabilir. Bu çok değişik uç değerler bıyık çizgilerini çok uzun yapıp, geri kalan verilerin birbirine çok yakın olmalarına, hatta birbirleri ile çakışmalarına, neden olabilir. Bu nedenle alternatif kutu grafikleri kullanılabilir ve bu alternatifle uç noktalarının minimum ve maksimum veri değerlerinden diğer değerler olmasına dayanır. Şu alternatifler kullanılmıştır:

Bu şekillerde değişik uç noktası kullanıldığı zaman aykırı değerler özel olarak çizginin dışında, çok kere ölçeğe uymadan, birer nokta (veya boş nokta veya küçük yıldız veya *) halinde gösterilmeleri tavsiye edilmektedir.

Çentikli kutu grafiği

[değiştir | kaynağı değiştir]

Bu halde kutu grafiğinde (çok kere kutu içinde medyan noktasının hemen yanında) bir veri aritmetik ortalama noktası konulmakta ile %95 (hatta %99) güven aralığı alt ve üst sınırları da birer "çentik (notch)" olarak çizgi üzerine konulmaktadır. Bu yaklaşım ile bir betimsel istatistik gösterim aracı olan kutu grafiği üzerine bir çıkarımsal istatistik (yani güven aralığı) eklenmiş olmakta ve kutu grafiğinin temelden karakteri değiştirilmektedir. Bir "çentikli kutu grafiği" çok kere bir çeşit çıkarımsal analiz aracı olarak aykırı değerlerin tanımlanması için kullanılmaktadır. Bazen kutu uçlarından çentiklere kadar "kalın bıyıklar" çizilmektedir.

Diğer yaklaşımlar

[değiştir | kaynağı değiştir]

Kutu grafiğinin çeşitli diğer alternatifleri de bulunmaktadır ve bunlar burada hiç kritik görmeden şöyle sıralanabilir:

  • Bazen kutu grafikleri ya bir çubuk olarak ya da bir çizgi olarak verilip sadece bunlar üzerinde beş nokta ayrıca yazılarak gösterilir.
  • Bazen %2, %9, %91, %98 gibi beklemedik yüzdebirlikler de (%25, %50 ve %75 yüzdebirliklerle birlikte) yedi nokta olarak özel olarak gösterilmektedir. Eğer veri bir normal dağılım gösterirse bu 7 yüzdebirlik birbirlerinden eşit aralıklarla ayrılması gerekmektedir. Böylece kutu grafiği bir normal dağılıma uygunluk testi için parametrik olmayan sınama (uyma uygunluğu sınaması) aleti olarak kullanılmaktadır.

Ör.1./ İki örneklem veri seti için şu "Beş sayılı özetleme tablosu" verilmiş ve şu iki yatay "kutu grafiği" çizilmiştir:

Örneklem 1 (üstte) : Xmin=1, Q1= 7, Xmed= 9, Q3 = 12, Xmaks = 16.
Örneklem 2 (altta) : Xmin=1, Q1= 3, Xmed= 7, Q3 = 12, Xmaks = 16.

Ör.2./ Bir tüketim malı için yapılan yarışmaya cevap kuponu gönderenlerin yaşları şöyledir:

23, 21, 10, 15, 12, 15, 39, 17, 21, 30, 18, 20

Bu veri setinin en küçükten en büyüğe sıralanması şöyle elde edilir:

10, 12, 15, 15, 17, 18, 20, 21, 21, 23, 30, 39

"Beş sayılı özetleme tablosu" şöyle bulunur:

            19
        15        22
   10               39

Şu yatay kutu grafiği çizilmiştir:

      +---+--+
  ----|   +  |--------        *
      +---+--+

-+----+----+----+----+----+----+- Yaş
10   15   20   25   30   35   40

Not: 39 tam bir "aykırı değer" olduğu için tek başına bir nokta halinde (*) ile gösterilir.

  1. ^ "Beş sayılı özetleme tablosu" minimum. birinci dörttebirlik, medyan (ortanca), üçüncü dörttebirlik ve maksimum değerlerinin ya bir sıra halinde ya da medyan en üstte ortada, dörttebirlikler ikinci satırda medyan yanlarında ve manimum ve maximum üçüncü satırda en dışarıda yazılarak elde edilen tablodur.

Ayrıca bakınız

[değiştir | kaynağı değiştir]

Dış kaynaklar

[değiştir | kaynağı değiştir]