Jump to content
Üyelik kaydınızı yaparak son yazılan içeriklerden haberdar olun! ×
  • entries
    25
  • comments
    0
  • views
    12,894

Histogram ve Empirik Kumulatif Dağılım Fonksiyonu (ECDF)


Doğuhan ELMA

198 views

Histogram ve Empirik Kumulatif Dağılım Fonksiyonu (ECDF), veri analizi ve görselleştirmenin iki önemli aracıdır. Her ikisi de veri setinin dağılımını incelemek ve anlamak için kullanılır. İşte bu iki kavramın açıklamaları:

Histogram:

Histogram, bir veri setinin dağılımını görselleştirmek için kullanılan bir grafik türüdür. Veri setindeki değerler aralıklara (genellikle çubuklar olarak adlandırılır) bölünür ve her aralıkta kaç veri noktasının bulunduğunu gösteren sütunlar çizilir. Bu sütunların yüksekliği, o aralıktaki veri noktalarının sayısını temsil eder.

Histogramın temel özellikleri:

Veri setinin dağılımını görsel olarak temsil eder.

Veri noktalarının yoğunluklarını ve dağılımlarını analiz etmeye yardımcı olur.

Veri setindeki çarpıklık, simetri ve tepe değerleri gibi özellikleri gösterir.

Belirli bir aralıktaki veri sayısını saymak için kullanılabilir.

Kod:

import matplotlib.pyplot as plt
import numpy as np

# Örnek veri oluşturma (rastgele veri)
veri = np.random.randn(1000)  # 1000 rastgele sayı üret

# Histogram çizimi
plt.hist(veri, bins=20, color='skyblue', edgecolor='black')
plt.xlabel('Değerler')  # X ekseni etiketi
plt.ylabel('Frekans')   # Y ekseni etiketi
plt.title('Rastgele Verinin Histogramı')  # Başlık ekle

# Grafiği göster
plt.show()

Çıktı:

1.png

 

Empirik Kumulatif Dağılım Fonksiyonu (ECDF):

Empirik Kumulatif Dağılım Fonksiyonu (ECDF), bir veri setinin kümülatif dağılımını görselleştirmek için kullanılan bir grafik türüdür. Bu grafik, veri noktalarını sıralı bir şekilde eksen boyunca yerleştirir ve her veri noktasının kümülatif frekansını gösteren bir eğri çizer. ECDF, bir veri setinin belirli bir değere veya aralığa ne kadar yakın olduğunu anlamak için kullanılır.

ECDF'nin temel özellikleri:

Veri setinin tam kümülatif dağılımını gösterir.

Her bir veri noktasının kümülatif yüzdesini gösteren bir eğri olarak temsil edilir.

Veri noktalarının nerede yoğunlaştığını ve veri setinin merkezi eğilimini gösterir.

İki veri setini karşılaştırmak için kullanılabilir.

Kod:

import numpy as np
import matplotlib.pyplot as plt

# Örnek veri oluşturma (rastgele veri)
veri = np.random.randn(100)

# Veriyi sırala
veri_sıralı = np.sort(veri)

# ECDF hesaplama
n = len(veri_sıralı)
y = np.arange(1, n + 1) / n

# ECDF grafiği çizimi
plt.plot(veri_sıralı, y, marker='.', linestyle='none')
plt.xlabel('Değerler')  # X ekseni etiketi
plt.ylabel('Kümülatif Olasılık')  # Y ekseni etiketi
plt.title('Empirik Kumulatif Dağılım Fonksiyonu (ECDF)')  # Başlık ekle

# Grafiği göster
plt.show()

Çıktı:

1.png

Grafiğin Okunması:

Empirik Kumulatif Dağılım Fonksiyonu (ECDF), bir veri setinin kümülatif dağılımını gösterir. Bu grafik, veri noktalarının birikimli olarak nasıl dağıldığını ve veri setinin tüm dağılımını temsil eder. ECDF grafiğini nasıl okuyacağınızı ve yorumlayacağınızı aşağıda açıklıyorum:

X Ekseni (Değerler): Grafiğin alt ekseninde, veri setindeki değerler sıralanmış şekilde bulunur. Bu eksende her bir değer, veri setindeki en küçük değerden en büyük değere doğru sıralanmıştır. Grafiğin sol tarafında küçük değerler, sağ tarafında ise büyük değerler bulunur.

Y Ekseni (Kümülatif Olasılık): Grafiğin sol alt köşesinde 0 ve sağ üst köşesinde 1 bulunur. Bu, kümülatif olasılık değerlerini temsil eder. Her bir nokta, o değere kadar olan veri noktalarının yüzdesini gösterir. Örneğin, Y ekseni değeri 0.25 olan bir nokta, veri setinin en küçük %25'ini temsil eder.

Grafiğin Şekli: ECDF grafiği, veri setinin dağılımının tamamını gösterir. Grafiğin eğimi, veri setinin belirli bir değer aralığında nasıl dağıldığını gösterir. Eğri daha dikse, veriler daha yoğun bir şekilde bulunur. Eğri daha düzse, veriler daha yaygın bir şekilde dağılmıştır.

Kümülatif İstatistikler: ECDF grafiği, belirli değerlerin kümülatif istatistiklerini hızlıca okumanıza olanak tanır. Örneğin, "X ekseni değeri 5'te Y ekseni değeri 0.7" olduğunda, veri setinin en büyük %70'i 5'ten küçüktür.

Veri Karşılaştırması: İki farklı ECDF grafiğini aynı grafikte karşılaştırabilirsiniz. Bu, iki farklı veri setinin dağılımını karşılaştırmanıza yardımcı olur.

ECDF, özellikle veri dağılımının tamamını anlamak ve belirli bir değere veya değer aralığına ne kadar yakın olduğunu görmek için çok güçlü bir araçtır. Veri setinin çeyrekliklerini, medyanını, maksimum ve minimum değerlerini hızlıca görmek için kullanışlıdır.

 

Her iki araç da veri analizinde önemli rol oynar. Histogramlar, verilerin genel dağılımını anlamak ve yorumlamak için kullanışlıdır, ECDF ise verilerin kesin konumunu ve yoğunluğunu incelemek için daha ayrıntılı bir yaklaşım sunar. Hangi aracın kullanılacağı, analiz amaçlarına ve veri türüne bağlı olarak değişebilir.

0 Comments


Recommended Comments

There are no comments to display.

Guest
Add a comment...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...