Yayılma Ölçümü (Measuring Spread)

istatistik

Doğuhan ELMA tarafından Dağılımları Sayılarla Açıklamak yayınlanma tarihi 25, 2023

218 görünüm

"Measuring Spread," bir veri setinin değişkenliğini veya dağılımının ne kadar yayıldığını ölçen istatistiksel metrikleri ifade eder. Bu metrikler, verilerin dağılımının merkezi eğilim metriklerinin ötesindeki özelliklerini anlamamıza yardımcı olur. İşte spread ölçümüne yönelik temel metrikler:

Varyans (Variance): Varyans, veri noktalarının ortalama etrafındaki yayılımın ölçüsüdür. Her bir veri noktasının ortalamadan ne kadar uzak olduğunu hesaplar ve bu farkların karelerinin ortalamasını alır. Yüksek varyans, veri noktalarının ortalamadan daha uzak olduğu bir dağılımı gösterir.

Standart Sapma (Standard Deviation): Standart sapma, varyansın kareköküdür. Veri noktalarının ortalama etrafındaki dağılımı ölçer. Standart sapma, varyansın daha anlaşılır bir ölçüsüdür çünkü aynı ölçüm birimine sahiptir.

Çeyrekler Arası Aralık (Interquartile Range - IQR): IQR, verilerin alt çeyrek (25. persentil) ile üst çeyrek (75. persentil) arasındaki farkı ifade eder. Aykırı değerlerin etkisini azaltır ve verilerin merkezi %50'sini temsil eden bir dağılımı ölçer.

Değer Aralığı (Range): Değer aralığı, veri setinin en büyük ve en küçük değerleri arasındaki farkı ifade eder. Bu, verilerin en geniş yayıldığı ölçüdür.

Varyans Katsayısı (Coefficient of Variation - CV): Standart sapmayı ortalama ile karşılaştırarak değişkenliği yüzde olarak ifade eder. CV, farklı birimlere sahip veri setleri arasında karşılaştırma yaparken kullanışlıdır.

Bu metrikler, veri dağılımının değişkenliğini veya dağılımının ölçülmesi ve analiz edilmesi için kullanılır. Değişkenlik metrikleri, verilerin ne kadar yayıldığını ve ne kadar değişken olduğunu anlamamıza yardımcı olur. İstatistiksel analizlerde, veri setinin dağılımının spread (yayılma) karakteristiğini belirlemek ve yorumlamak için önemlidir.

Değişkenlik metriklerini daha iyi anlamak için bir örnek verelim:

Örnek: Bir restoranın bir hafta boyunca günlük gelirlerini gözlemleyelim.

Pazartesi: 300 TL Salı: 400 TL Çarşamba: 450 TL Perşembe: 250 TL Cuma: 600 TL Cumartesi: 900 TL Pazar: 350 TL

Bu veri setinde, her gün restoranın günlük geliri belirtilmiştir. Değişkenlik metrikleri, bu gelirlerin ne kadar değişken olduğunu ve hangi günlerde daha fazla değişkenlik olduğunu anlamamıza yardımcı olacaktır.

Varyans (Variance): Varyans, veri noktalarının ortalamadan ne kadar uzak olduğunu ölçer. İşte bu örnekte varyansın hesaplanması:

Ortalama (Mean) = (300 + 400 + 450 + 250 + 600 + 900 + 350) / 7 = 485.71 TL

Varyans = [(300-485.71)^2 + (400-485.71)^2 + (450-485.71)^2 + (250-485.71)^2 + (600-485.71)^2 + (900-485.71)^2 + (350-485.71)^2] / 7 ≈ 54142.86

Yüksek bir varyans, bu veri setinin değişken olduğunu ve farklı günlerde farklı gelirler olduğunu gösterir.

Standart Sapma (Standard Deviation): Standart sapma, varyansın kareköküdür ve veri noktalarının ortalama etrafındaki dağılımı ölçer. Bu örnekte standart sapma:

Standart Sapma = √Varyans ≈ √54142.86 ≈ 232.81 TL

Standart sapma, veri noktalarının ortalamadan ortalama olarak 232.81 TL uzak olduğunu gösterir.

Çeyrekler Arası Aralık (Interquartile Range - IQR): IQR, verilerin alt çeyrek ve üst çeyrek arasındaki farkı hesaplar. IQR, aykırı değerlerin etkisini azaltır ve verilerin orta kısmının yayılımını temsil eder. İşte IQR hesaplanması:

Alt Çeyrek (25. persentil) = 350 TL Üst Çeyrek (75. persentil) = 600 TL

IQR = Üst Çeyrek - Alt Çeyrek = 600 TL - 350 TL = 250 TL

Bu örnekte, varyans ve standart sapma, verilerin değişkenliğini ölçerken IQR, verilerin merkezindeki yayılımı ölçer. Bu metrikler, veri setinin dağılımının hangi özelliklere sahip olduğunu anlamamıza yardımcı olur. Bu bilgiler, restoranın günlük gelirlerinin ne kadar değişken olduğunu ve hangi günlerde daha fazla değişkenlik olduğunu anlamamıza yardımcı olur.

Kod:

import numpy as np

# Günlük gelir verisi
gelirler = [300, 400, 450, 250, 600, 900, 350]

# Varyans hesaplama
varyans = np.var(gelirler)

# Standart sapma hesaplama
standart_sapma = np.std(gelirler)

print("Varyans:", varyans)
print("Standart Sapma:", standart_sapma)

Çıktı:

Varyans: 42653.0612244898
Standart Sapma: 206.52617564001372

Çıktıyı yorumladığınızda, bu veri setinin ne kadar değişken olduğunu anlayabilirsiniz. Yüksek bir varyans veya standart sapma, günlük gelirlerin farklı günlerde önemli ölçüde değiştiğini gösterebilir. Bu örnek, gelir verilerinin değişkenliğini ölçmek için varyans ve standart sapma metriklerini kullanmanın pratik bir örneğini gösterir.

Varyans ve standart sapma gibi veri dağılımını ölçen metrikleri grafikleştirebilirsiniz. Bu, verilerin dağılımının daha iyi anlaşılmasına yardımcı olabilir. İşte bu metrikleri görselleştirmek için kullanabileceğiniz iki temel yöntem:

Histogram: Veri dağılımının grafiğini oluşturmak için sıkça kullanılan bir yöntemdir. Histogram, veri değerlerini belirli aralıklara (binalara) böler ve her aralıktaki değer sayısını gösterir. Bu şekilde, verilerin dağılımının hangi bölgelerde yoğunlaştığını görsel olarak görebilirsiniz. Varyans ve standart sapma gibi değişkenlik metrikleri ile birlikte histogramlar kullanılabilir.

Kod:

import numpy as np
import matplotlib.pyplot as plt

# Günlük gelir verisi
gelirler = [300, 400, 450, 250, 600, 900, 350]

# Varyans hesaplama
varyans = np.var(gelirler)

# Standart sapma hesaplama
standart_sapma = np.std(gelirler)

# Verileri histogramla görselleştirme
plt.hist(gelirler, bins=5, edgecolor='k')
plt.xlabel('Günlük Gelir')
plt.ylabel('Frekans')
plt.title('Günlük Gelir Dağılımı ve Varyans')
plt.grid(True)

# Varyans ve standart sapma bilgisini grafiğe ekleme
plt.annotate(f'Varyans: {varyans:.2f}', xy=(500, 2), color='red')
plt.annotate(f'Standart Sapma: {standart_sapma:.2f}', xy=(500, 1.5), color='blue')

plt.show()

Kutu Grafiği (Box Plot): Kutu grafiği, verilerin merkezi eğilimi, yayılımı ve aykırı değerlerini gösteren bir grafik türüdür. IQR (Çeyrekler Arası Aralık) ve varyansın görsel bir temsilini sağlar. Kutu grafiği, bir veri setinin medyanını, alt ve üst çeyrekleri, aykırı değerleri ve genel dağılımı gösterir.

Kod:

import matplotlib.pyplot as plt

# Örnek veri seti
veriler = [300, 400, 450, 250, 600, 900, 350]

# Kutu grafiği oluşturma
plt.boxplot(veriler)

# Grafiğe başlık ve etiket ekleme
plt.title('Örnek Kutu Grafiği')
plt.ylabel('Değerler')

# Grafiği gösterme
plt.show()

Çıktı:

Kutu grafiğinin yorumlanması:

Kutunun alt sınırı, alt çeyrek (Q1)'yi temsil eder.
Kutunun üst sınırı, üst çeyrek (Q3)'ü temsil eder.
Kutunun içindeki çizgi, medyanı (Q2) gösterir.
Whiskerlar (bıyıklar), verilerin genel dağılımını gösterir ve aykırı değerleri belirler.

Bu grafik, verilerin merkezi eğilimi, yayılımı ve aykırı değerlerini görsel olarak temsil eder. Kutu grafiği, veri analizinde dağılımları karşılaştırmak veya aykırı değerleri tanımlamak için kullanışlıdır.

0 Yorum

Önerilen Yorumlar

Görüntülenecek yorum yok.

Yorum ekle...

× Zengin metin olarak yapıştırıldı. Bunun yerine düz metin olarak yapıştır

Yalnızca 75 emojiye izin verilir.

× Bağlantınız otomatik olarak gömüldü. Bunun yerine bağlantı olarak görüntüle

× Önceki içeriğiniz geri yüklendi. Düzenleyiciyi temizle

× Görüntüleri doğrudan yapıştıramazsınız. URL'den resim yükleyin veya ekleyin.

URL'den resim ekle

Giriş Yap

İstatistik

Yayılma Ölçümü (Measuring Spread)

0 Yorum

Önerilen Yorumlar

Anasayfa

Aktivite