Dönüştürülmüş Değişkenler(transformed variables)

istatistik

Doğuhan ELMA tarafından Korelasyon ve Regresyon yayınlanma tarihi 25, 2023

231 görünüm

Dönüştürülmüş değişkenler (transformed variables), veri analizinde veya modellemede kullanılan, orijinal verilerin üzerinde belirli matematiksel dönüşümler uygulanarak elde edilen yeni değişkenlerdir. Bu tür dönüşümler, verileri daha iyi anlama, ilişkileri keşfetme, modeli iyileştirme veya dağılımları daha normal hale getirme amacıyla kullanılır. İşte bazı yaygın dönüşüm türleri ve neden kullanıldıklarına dair açıklamalar:

Logaritmik Dönüşüm: Verilerin logaritmasını almak, orijinal verilerin yüksek değerlerine sahip olduğu durumlarda kullanışlı olabilir. Logaritmik dönüşüm, verilerin dağılımını düzeltmek ve değişkenler arasındaki ilişkiyi daha lineer hale getirmek için sıklıkla kullanılır.

Karekök Dönüşüm: Karekök almak, verilerin varyansını dengelemeye yardımcı olabilir. Özellikle negatif değerlerle başa çıkmak için kullanışlıdır ve verileri daha homojen hale getirir.

Üs Dönüşüm: Verilere belirli bir üs uygulamak (örneğin, verilerin karesini almak) dağılımı ve ilişkileri dönüştürebilir. Bu tür dönüşümler, özellikle regresyon analizlerinde veya varyans dengesi gereken durumlarda kullanışlıdır.

Standartlaştırma ve Normalleştirme: Değişkenleri z-istatistiği ile standartlaştırma veya [0, 1] aralığına normalleştirme, değişkenlerin ölçeklerini aynı hale getirir ve modelleme işlemlerinde kullanılır. Bu tür dönüşümler, özellikle makine öğrenimi ve derin öğrenme gibi algoritmalarla çalışırken kullanışlıdır.

Kategorik Değişken Dönüşümü: Kategorik değişkenlerin sayısal değerlere dönüştürülmesi (örneğin, one-hot encoding) bazen veri analizleri ve makine öğrenme modelleri için gerekli olabilir.

Dönüştürülmüş değişkenler, veri analizini daha esnek hale getirir ve verilerdeki örüntüleri daha iyi anlama ve modelleme amacıyla kullanılırlar. Ancak, dönüşümlerin ne zaman ve nasıl uygulanacağını dikkatlice seçmek önemlidir, çünkü yanlış dönüşümler veriye zarar verebilir veya yanıltıcı sonuçlara neden olabilir. Bu nedenle, dönüşüm kararları veri bilimi ve istatistik uzmanlığı gerektirir.

Dönüştürülmüş değişkenler (transformed variables), lineer regresyon analizi ile yakından ilişkilidir. Lineer regresyon, bir bağımlı değişkenin bir veya daha fazla bağımsız değişken tarafından nasıl etkilendiğini modellemek için kullanılan bir istatistiksel analiz yöntemidir. Dönüştürülmüş değişkenler, regresyon analizlerinde birçok amaç için kullanılabilir:

Dağılım Dönüşümleri: Orijinal verilerin dağılımları normal dağılıma benzemiyorsa, dönüştürülmüş değişkenler kullanarak verileri daha normal bir dağılıma dönüştürebilirsiniz. Normal dağılıma yakın veriler, lineer regresyon modelinin varsayımlarını karşılamasına yardımcı olabilir.

Çoklu Bağımsız Değişkenlerin İlişkilerini İfade Etme: Dönüştürülmüş değişkenler, birden fazla bağımsız değişkenin karmaşık ilişkilerini daha iyi ifade etmek için kullanılabilir. Örneğin, iki bağımsız değişkenin etkileşimini modellemek için dönüştürülmüş değişkenler kullanabilirsiniz.

Değişkenlerin Varyansını Dengeleme: Değişkenlerin varyansı (değişkenlik) farklılık gösteriyorsa, bu durumu dengelemek için dönüştürülmüş değişkenler kullanabilirsiniz. Bu, lineer regresyon modelinin her bir bağımsız değişkenin etkisini daha dengeli bir şekilde ele almasına yardımcı olabilir.

Eksik İlişkileri İfade Etme: Orijinal verilerde lineer ilişkiler zayıf veya eksik olabilir. Dönüştürülmüş değişkenler, daha güçlü veya doğrusal ilişkileri ifade etmek için kullanılabilir.

Hataların Düzeltici Etkisi: Dönüştürülmüş değişkenler, regresyon modelinin hatalarını azaltabilir ve modelin tahmin yeteneğini iyileştirebilir.

Dönüştürülmüş değişkenler, lineer regresyon analizi ile birlikte kullanıldığında, modelin doğruluğunu artırabilir ve veri analizini daha güçlü hale getirebilir. Ancak dönüşümler, dikkatli bir şekilde seçilmeli ve verinin özgün bağlamını koruyarak yapılmalıdır, aksi takdirde yanıltıcı sonuçlara neden olabilir.

Örnek Uygulama:

Örnek: İş Performansını Tahmin Etmek

Diyelim ki bir şirket, çalışanlarının iş performansını değerlendirmek ve bu performansı etkileyen faktörleri anlamak istiyor. İş performansını etkileyen faktörler arasında çalışanların tecrübesi (yıl cinsinden), eğitim seviyeleri (lisans, yüksek lisans, doktora), ve günlük iş saatleri (saat cinsinden) bulunmaktadır. Lineer regresyon analizi kullanarak, iş performansını bu faktörlerle ilişkilendirmek istiyorlar.

Ancak bu faktörler farklı ölçeklerde olabilir (örneğin, tecrübe yıl cinsinden ölçülürken, günlük iş saatleri saat cinsinden ölçülür) ve veri normal dağılmamış olabilir. Bu nedenle, dönüştürülmüş değişkenler kullanarak bu sorunu ele alabiliriz.

Dönüşüm 1: Tecrübe Yıl Cinsinden - Karekök Dönüşümü: Tecrübenin karekökünü alarak, uzun tecrübeye sahip çalışanların etkisinin daha az olduğunu ve yeni çalışanların daha fazla etkisi olduğunu ifade edebiliriz.

Dönüşüm 2: Eğitim Seviyesi - Sayısal Kodlama: Eğitim seviyelerini sayısal kodlama ile dönüştürebiliriz. Örneğin, lisans derecesi "1," yüksek lisans derecesi "2," ve doktora derecesi "3" olarak kodlanabilir.

Dönüşüm 3: Günlük İş Saatleri - Logaritmik Dönüşüm: Günlük iş saatlerinin logaritması alınarak, çok uzun iş saatlerinin iş performansına olan etkisinin daha az olduğunu ifade edebiliriz.

Bu dönüşümler sonucunda, lineer regresyon modeli şu şekilde oluşturulabilir:

İş Performansı = β0 + β1 * (Tecrübe)^(1/2) + β2 * (Eğitim Seviyesi) + β3 * ln(Günlük İş Saatleri)

Bu dönüştürülmüş değişkenlerle oluşturulan model, farklı faktörlerin iş performansına etkisini daha iyi açıklayabilir ve verilerin normal dağılmış olmasına yardımcı olabilir. Dönüşümler, bağımsız değişkenlerin etkilerini daha doğru bir şekilde ifade etmek için kullanılabilir.

Kod:

import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression

# Örnek verileri oluşturalım
data = {
    'Tecrube': [3, 5, 2, 7, 10],
    'Egitim': ['Lisans', 'Yuksek Lisans', 'Doktora', 'Yuksek Lisans', 'Lisans'],
    'IsSaati': [8, 9, 7, 10, 8],
    'IsPerformansi': [85, 92, 78, 96, 88]
}

df = pd.DataFrame(data)

# Dönüşümleri uygulayalım
# 1. Tecrube için karekök dönüşümü
df['Tecrube'] = np.sqrt(df['Tecrube'])

# 2. Egitim için sayısal kodlama
df['Egitim'] = df['Egitim'].replace({'Lisans': 1, 'Yuksek Lisans': 2, 'Doktora': 3})

# 3. IsSaati için logaritmik dönüşüm
df['IsSaati'] = np.log(df['IsSaati'])

# Lineer regresyon modelini oluşturalım
X = df[['Tecrube', 'Egitim', 'IsSaati']]
y = df['IsPerformansi']

model = LinearRegression()
model.fit(X, y)

# Modelin katsayıları ve kesme noktası
beta0 = model.intercept_
beta1, beta2, beta3 = model.coef_

print("Model Katsayıları:")
print(f"Kesme Noktası (Beta0): {beta0}")
print(f"Tecrube Katsayısı (Beta1): {beta1}")
print(f"Egitim Katsayısı (Beta2): {beta2}")
print(f"IsSaati Katsayısı (Beta3): {beta3}")

Model Katsayıları:
Kesme Noktası (Beta0): -9.706031717275238
Tecrube Katsayısı (Beta1): 1.9674957776278175
Egitim Katsayısı (Beta2): -0.2485782145743931
IsSaati Katsayısı (Beta3): 44.10824037096527

Bu kod, verilerinizi dönüştürdükten sonra bir lineer regresyon modeli oluşturur ve modelin katsayılarını hesaplar. Bu, dönüştürülmüş değişkenlerin bir lineer regresyon modeli ile nasıl kullanılabileceğini gösteren bir örnektir. Artık bu modele yeni verileri besleyerek iş performansını tahmin edebilirsiniz.

0 Yorum

Önerilen Yorumlar

Görüntülenecek yorum yok.

Yorum ekle...

× Zengin metin olarak yapıştırıldı. Bunun yerine düz metin olarak yapıştır

Yalnızca 75 emojiye izin verilir.

× Bağlantınız otomatik olarak gömüldü. Bunun yerine bağlantı olarak görüntüle

× Önceki içeriğiniz geri yüklendi. Düzenleyiciyi temizle

× Görüntüleri doğrudan yapıştıramazsınız. URL'den resim yükleyin veya ekleyin.

URL'den resim ekle

Giriş Yap

İstatistik

Dönüştürülmüş Değişkenler(transformed variables)

0 Yorum

Önerilen Yorumlar

Anasayfa

Aktivite