İçeriğe atla
Üyelik kaydınızı yaparak son yazılan içeriklerden haberdar olun! ×
  • makale
    25
  • yorum
    0
  • görüntüleme
    16.981

Quantiles (Çeyrekler veya Yüzdelikler) ve Standartlaştırılmış Değişkenler (Standardized Variables veya Z-Scores)


Doğuhan ELMA

230 görünüm

Quantiles ve standartlaştırılmış değişkenler, veri analizinde kullanılan önemli iki kavramdır. İşte bu kavramların açıklamaları:

Quantiles (Çeyrekler veya Yüzdelikler): Quantiles, bir veri setini belli yüzdelerde bölen ve verilerin sıralandığı değerlerdir. Genellikle verilerin dağılımını anlamak ve özetlemek için kullanılırlar. İlk dört temel quantile şunlardır:

Alt Çeyrek (Q1 - 25. persentil): Verilerin en düşük %25'ini temsil eder.

Medyan (Q2 - 50. persentil): Verileri ikiye böler, yani alt ve üst %50'sini temsil eder.

Üst Çeyrek (Q3 - 75. persentil): Verilerin en yüksek %25'ini temsil eder.

Minimum ve Maksimum Değerler: En düşük ve en yüksek verileri ifade eder.

Quantile hesaplama, veri setinin yüzdeliklere göre bölünmesine yardımcı olur ve aykırı değerlerin tanımlanması gibi veri analizi görevlerinde önemlidir.

Standartlaştırılmış Değişkenler (Standardized Variables veya Z-Scores): Standartlaştırılmış değişkenler, bir değişkenin değerlerini ortalamasından çıkarıp standart sapmasına bölen bir işleme tabi tutulmuş değişkenlerdir. Bu işlem, farklı ölçeklere sahip verileri aynı ölçekte karşılaştırmak ve analiz etmek için kullanılır. Standartlaştırma işlemi, değişkenin dağılımını merkezleştirir (ortalamayı 0 yapar) ve dağılımın yayılmasını standartlaştırır (standart sapmayı 1 yapar).

Standartlaştırılmış değişkenler, verileri karşılaştırırken veya regresyon analizi gibi istatistiksel işlemlerde kullanılır. Standartlaştırma, değişkenlerin farklı birimlere sahip olduğu durumlarda, değişkenlerin etkilerini karşılaştırılabilir hale getirir.

Özetle, quantiles verileri yüzdeliklerle bölen önemli değerlerdir ve veri dağılımını anlamamıza yardımcı olur. Standartlaştırılmış değişkenler ise değişkenlerin ölçeklerini standartlaştırarak verileri karşılaştırılabilir hale getirir. Bu kavramlar, veri analizi ve istatistikte sıkça kullanılır.

 

Quantiles Örneği:

Örnek veri seti: [12, 14, 15, 17, 19, 20, 22, 25, 26, 30]

Medyan (50. persentil): Veri setini ortadan ikiye böler. Orta değer 19'dur, çünkü yarısı daha düşük, yarısı daha yüksek değerlere sahiptir.

Alt Çeyrek (25. persentil - Q1): Verilerin en düşük %25'ini temsil eder. Alt çeyrek değeri 15'tir.

Üst Çeyrek (75. persentil - Q3): Verilerin en yüksek %25'ini temsil eder. Üst çeyrek değeri 25'tir.

Minimum ve Maksimum Değerler: Minimum değer 12 ve maksimum değer 30'dur.

Bu quantile değerleri, veri setinin dağılımını özetler. Örneğin, alt çeyrek ve üst çeyrek, verilerin alt ve üst yüzde 25'ini temsil eder.

Standartlaştırılmış Değişkenler (Z-Scores) Örneği:

Veri seti: [45, 50, 55, 60, 62, 68, 72, 75, 80, 85, 90, 100, 110]

Standartlaştırılmış değişkenler (Z-scores), her veriyi şu şekilde hesaplar:

Z-skor = (Veri Değeri - Ortalama) / Standart Sapma

İlk adım olarak, veri setinin ortalamasını hesaplayalım:

Ortalama = (45 + 50 + 55 + 60 + 62 + 68 + 72 + 75 + 80 + 85 + 90 + 100 + 110) / 13 = 74.92

Ardından, standart sapmayı hesaplayalım:

Standart Sapma = √[Σ(Veri Değeri - Ortalama)² / (N-1)] ≈ 20.24

Şimdi, her verinin standartlaştırılmış değerini hesaplayalım:

Z-skor(45) = (45 - 74.92) / 20.24 ≈ -1.47

Z-skor(50) = (50 - 74.92) / 20.24 ≈ -1.23

...

Z-skor(110) = (110 - 74.92) / 20.24 ≈ 1.72

Bu hesaplamalar sonucunda, her verinin standart sapma birimleri cinsinden ne kadar uzak olduğunu gösteren standartlaştırılmış değerleri elde edersiniz. Negatif Z-skorlar, ortalamanın altında, pozitif Z-skorlar ise ortalamanın üzerinde değerleri temsil eder. Bu, farklı ölçeklere sahip verileri karşılaştırmak ve analiz etmek için kullanışlıdır.

Kod:

import numpy as np
import matplotlib.pyplot as plt

# Örnek veri seti
veriler = np.array([45, 50, 55, 60, 62, 68, 72, 75, 80, 85, 90, 100, 110])

# Veri setinin ortalamasını hesaplama
ortalama = np.mean(veriler)

# Veri setinin standart sapmasını hesaplama
standart_sapma = np.std(veriler)

# Z-skorlarını hesaplama
z_skorlar = (veriler - ortalama) / standart_sapma

# Z-skorlarını görüntüleme
print("Z-skorlar:")
for i, z in enumerate(z_skorlar):
    print(f"Veri {i+1}: {z:.2f}")

# Z-skorlarını görselleştirme
plt.plot(range(1, len(veriler) + 1), z_skorlar, marker='o', linestyle='-', color='b')
plt.axhline(0, color='r', linestyle='--')
plt.xlabel('Veri Noktası')
plt.ylabel('Z-Skor')
plt.title('Z-Skorlarının Görselleştirilmesi')
plt.grid(True)

plt.show()

Çıktı:

Z-skorlar:
Veri 1: -1.51
Veri 2: -1.24
Veri 3: -0.98
Veri 4: -0.71
Veri 5: -0.60
Veri 6: -0.28
Veri 7: -0.07
Veri 8: 0.09
Veri 9: 0.36
Veri 10: 0.63
Veri 11: 0.90
Veri 12: 1.43
Veri 13: 1.97

1.png

Bu kod, önce veri setinin ortalamasını ve standart sapmasını hesaplar. Ardından, her verinin Z-skorunu hesaplar. Son olarak, Z-skorlarını bir çizgi grafiği ile görselleştirir.

Grafik, her verinin Z-skorunu gösterir. Kırmızı kesik çizgi, Z-skorlarının sıfır olduğu yeri temsil eder. Pozitif Z-skorlar, bu çizginin üzerinde, negatif Z-skorlar ise altında bulunur. Z-skorlar, verilerin standart sapma birimleri cinsinden ne kadar uzak olduğunu gösterir. Bu, verileri standartlaştırarak analiz etmek ve karşılaştırmak için kullanışlıdır.

Metrikler:

Ortalama (Mean): Veri setinin ortalaması (mean) hesaplandı ve yaklaşık olarak 73.92'dir.

Standart Sapma (Standard Deviation): Veri setinin standart sapması (standard deviation) hesaplandı ve yaklaşık olarak 20.44'tür.

Şimdi bu metrikleri ve Z-skorlarını yorumlayalım:

Pozitif Z-skorlar, ortalamanın üzerindeki verileri temsil ederken negatif Z-skorlar, ortalamanın altındaki verileri temsil eder.

Örneğin, "Veri 1: -1.23" ifadesi, bu verinin ortalamanın yaklaşık 1.23 standart sapma altında olduğunu gösterir. Bu, verinin ortalamanın sol tarafında olduğunu ifade eder.

"Veri 13: 2.05" ifadesi ise bu verinin ortalamanın yaklaşık 2.05 standart sapma üzerinde olduğunu ve verinin ortalamanın sağ tarafında olduğunu gösterir.

Z-skorları yorumlayarak, her verinin veri setinin merkezine göre nerede olduğunu anlayabiliriz. Z-skorları kullanarak, farklı ölçeklere sahip verileri karşılaştırabiliriz. Örneğin, Z-skorları kullanarak aykırı değerleri tanımlayabiliriz.

0 Yorum


Önerilen Yorumlar

Görüntülenecek yorum yok.

Misafir
Yorum ekle...

×   Zengin metin olarak yapıştırıldı.   Bunun yerine düz metin olarak yapıştır

  Yalnızca 75 emojiye izin verilir.

×   Bağlantınız otomatik olarak gömüldü.   Bunun yerine bağlantı olarak görüntüle

×   Önceki içeriğiniz geri yüklendi.   Düzenleyiciyi temizle

×   Görüntüleri doğrudan yapıştıramazsınız. URL'den resim yükleyin veya ekleyin.

×
×
  • Create New...