Yayılma Ölçümü (Measuring Spread)
"Measuring Spread," bir veri setinin değişkenliğini veya dağılımının ne kadar yayıldığını ölçen istatistiksel metrikleri ifade eder. Bu metrikler, verilerin dağılımının merkezi eğilim metriklerinin ötesindeki özelliklerini anlamamıza yardımcı olur. İşte spread ölçümüne yönelik temel metrikler:
Varyans (Variance): Varyans, veri noktalarının ortalama etrafındaki yayılımın ölçüsüdür. Her bir veri noktasının ortalamadan ne kadar uzak olduğunu hesaplar ve bu farkların karelerinin ortalamasını alır. Yüksek varyans, veri noktalarının ortalamadan daha uzak olduğu bir dağılımı gösterir.
Standart Sapma (Standard Deviation): Standart sapma, varyansın kareköküdür. Veri noktalarının ortalama etrafındaki dağılımı ölçer. Standart sapma, varyansın daha anlaşılır bir ölçüsüdür çünkü aynı ölçüm birimine sahiptir.
Çeyrekler Arası Aralık (Interquartile Range - IQR): IQR, verilerin alt çeyrek (25. persentil) ile üst çeyrek (75. persentil) arasındaki farkı ifade eder. Aykırı değerlerin etkisini azaltır ve verilerin merkezi %50'sini temsil eden bir dağılımı ölçer.
Değer Aralığı (Range): Değer aralığı, veri setinin en büyük ve en küçük değerleri arasındaki farkı ifade eder. Bu, verilerin en geniş yayıldığı ölçüdür.
Varyans Katsayısı (Coefficient of Variation - CV): Standart sapmayı ortalama ile karşılaştırarak değişkenliği yüzde olarak ifade eder. CV, farklı birimlere sahip veri setleri arasında karşılaştırma yaparken kullanışlıdır.
Bu metrikler, veri dağılımının değişkenliğini veya dağılımının ölçülmesi ve analiz edilmesi için kullanılır. Değişkenlik metrikleri, verilerin ne kadar yayıldığını ve ne kadar değişken olduğunu anlamamıza yardımcı olur. İstatistiksel analizlerde, veri setinin dağılımının spread (yayılma) karakteristiğini belirlemek ve yorumlamak için önemlidir.
Değişkenlik metriklerini daha iyi anlamak için bir örnek verelim:
Örnek: Bir restoranın bir hafta boyunca günlük gelirlerini gözlemleyelim.
Pazartesi: 300 TL Salı: 400 TL Çarşamba: 450 TL Perşembe: 250 TL Cuma: 600 TL Cumartesi: 900 TL Pazar: 350 TL
Bu veri setinde, her gün restoranın günlük geliri belirtilmiştir. Değişkenlik metrikleri, bu gelirlerin ne kadar değişken olduğunu ve hangi günlerde daha fazla değişkenlik olduğunu anlamamıza yardımcı olacaktır.
Varyans (Variance): Varyans, veri noktalarının ortalamadan ne kadar uzak olduğunu ölçer. İşte bu örnekte varyansın hesaplanması:
Ortalama (Mean) = (300 + 400 + 450 + 250 + 600 + 900 + 350) / 7 = 485.71 TL
Varyans = [(300-485.71)^2 + (400-485.71)^2 + (450-485.71)^2 + (250-485.71)^2 + (600-485.71)^2 + (900-485.71)^2 + (350-485.71)^2] / 7 ≈ 54142.86
Yüksek bir varyans, bu veri setinin değişken olduğunu ve farklı günlerde farklı gelirler olduğunu gösterir.
Standart Sapma (Standard Deviation): Standart sapma, varyansın kareköküdür ve veri noktalarının ortalama etrafındaki dağılımı ölçer. Bu örnekte standart sapma:
Standart Sapma = √Varyans ≈ √54142.86 ≈ 232.81 TL
Standart sapma, veri noktalarının ortalamadan ortalama olarak 232.81 TL uzak olduğunu gösterir.
Çeyrekler Arası Aralık (Interquartile Range - IQR): IQR, verilerin alt çeyrek ve üst çeyrek arasındaki farkı hesaplar. IQR, aykırı değerlerin etkisini azaltır ve verilerin orta kısmının yayılımını temsil eder. İşte IQR hesaplanması:
Alt Çeyrek (25. persentil) = 350 TL Üst Çeyrek (75. persentil) = 600 TL
IQR = Üst Çeyrek - Alt Çeyrek = 600 TL - 350 TL = 250 TL
Bu örnekte, varyans ve standart sapma, verilerin değişkenliğini ölçerken IQR, verilerin merkezindeki yayılımı ölçer. Bu metrikler, veri setinin dağılımının hangi özelliklere sahip olduğunu anlamamıza yardımcı olur. Bu bilgiler, restoranın günlük gelirlerinin ne kadar değişken olduğunu ve hangi günlerde daha fazla değişkenlik olduğunu anlamamıza yardımcı olur.
Kod:
import numpy as np # Günlük gelir verisi gelirler = [300, 400, 450, 250, 600, 900, 350] # Varyans hesaplama varyans = np.var(gelirler) # Standart sapma hesaplama standart_sapma = np.std(gelirler) print("Varyans:", varyans) print("Standart Sapma:", standart_sapma)
Çıktı:
Varyans: 42653.0612244898 Standart Sapma: 206.52617564001372
Çıktıyı yorumladığınızda, bu veri setinin ne kadar değişken olduğunu anlayabilirsiniz. Yüksek bir varyans veya standart sapma, günlük gelirlerin farklı günlerde önemli ölçüde değiştiğini gösterebilir. Bu örnek, gelir verilerinin değişkenliğini ölçmek için varyans ve standart sapma metriklerini kullanmanın pratik bir örneğini gösterir.
Varyans ve standart sapma gibi veri dağılımını ölçen metrikleri grafikleştirebilirsiniz. Bu, verilerin dağılımının daha iyi anlaşılmasına yardımcı olabilir. İşte bu metrikleri görselleştirmek için kullanabileceğiniz iki temel yöntem:
Histogram: Veri dağılımının grafiğini oluşturmak için sıkça kullanılan bir yöntemdir. Histogram, veri değerlerini belirli aralıklara (binalara) böler ve her aralıktaki değer sayısını gösterir. Bu şekilde, verilerin dağılımının hangi bölgelerde yoğunlaştığını görsel olarak görebilirsiniz. Varyans ve standart sapma gibi değişkenlik metrikleri ile birlikte histogramlar kullanılabilir.
Kod:
import numpy as np import matplotlib.pyplot as plt # Günlük gelir verisi gelirler = [300, 400, 450, 250, 600, 900, 350] # Varyans hesaplama varyans = np.var(gelirler) # Standart sapma hesaplama standart_sapma = np.std(gelirler) # Verileri histogramla görselleştirme plt.hist(gelirler, bins=5, edgecolor='k') plt.xlabel('Günlük Gelir') plt.ylabel('Frekans') plt.title('Günlük Gelir Dağılımı ve Varyans') plt.grid(True) # Varyans ve standart sapma bilgisini grafiğe ekleme plt.annotate(f'Varyans: {varyans:.2f}', xy=(500, 2), color='red') plt.annotate(f'Standart Sapma: {standart_sapma:.2f}', xy=(500, 1.5), color='blue') plt.show()
Kutu Grafiği (Box Plot): Kutu grafiği, verilerin merkezi eğilimi, yayılımı ve aykırı değerlerini gösteren bir grafik türüdür. IQR (Çeyrekler Arası Aralık) ve varyansın görsel bir temsilini sağlar. Kutu grafiği, bir veri setinin medyanını, alt ve üst çeyrekleri, aykırı değerleri ve genel dağılımı gösterir.
Kod:
import matplotlib.pyplot as plt # Örnek veri seti veriler = [300, 400, 450, 250, 600, 900, 350] # Kutu grafiği oluşturma plt.boxplot(veriler) # Grafiğe başlık ve etiket ekleme plt.title('Örnek Kutu Grafiği') plt.ylabel('Değerler') # Grafiği gösterme plt.show()
Çıktı:
Kutu grafiğinin yorumlanması:
- Kutunun alt sınırı, alt çeyrek (Q1)'yi temsil eder.
- Kutunun üst sınırı, üst çeyrek (Q3)'ü temsil eder.
- Kutunun içindeki çizgi, medyanı (Q2) gösterir.
- Whiskerlar (bıyıklar), verilerin genel dağılımını gösterir ve aykırı değerleri belirler.
Bu grafik, verilerin merkezi eğilimi, yayılımı ve aykırı değerlerini görsel olarak temsil eder. Kutu grafiği, veri analizinde dağılımları karşılaştırmak veya aykırı değerleri tanımlamak için kullanışlıdır.
0 Comments
Recommended Comments
There are no comments to display.