Çoklu Doğrusal Regresyon (Multiple Linear Regression)

Doğuhan ELMA tarafından Korelasyon ve Regresyon yayınlanma tarihi 25, 2023

324 görünüm

Çoklu doğrusal regresyon, bir bağımlı değişkenin bir veya daha fazla bağımsız değişkenle ilişkisini modellemek için kullanılan bir istatistiksel analiz yöntemidir. Bu yöntem, bağımlı değişkenin tahmin edilmesi veya açıklanması amacıyla kullanılır ve bağımsız değişkenlerin etkilerini incelemek için faydalıdır. İşte çoklu doğrusal regresyonun ana bileşenleri ve nasıl çalıştığına dair önemli bilgiler:

Bağımlı Değişken (Y): Çoklu doğrusal regresyonun temel amacı, bağımlı bir değişkeni (genellikle Y olarak temsil edilir) diğer bağımsız değişkenlerle ilişkilendirmektir. Bu bağımlı değişken, genellikle tahmin edilmek istenen bir sonucu veya hedefi ifade eder. Örneğin, satış geliri, ev fiyatı veya öğrenci başarı notu gibi.

Bağımsız Değişkenler (X1, X2, X3, ...): Çoklu doğrusal regresyon, bir veya daha fazla bağımsız değişkeni kullanarak bağımlı değişkenin davranışını tahmin etmek veya açıklamak için kullanılır. Bu bağımsız değişkenler (genellikle X1, X2, X3, vb. olarak temsil edilir), bağımlı değişkenin etkilerini incelemek veya tahmin etmek istediğiniz özellikleri veya değişkenleri temsil eder. Örneğin, satış geliri tahmininde reklam harcamaları ve ürün fiyatı gibi faktörler kullanılabilir.

Regresyon Denklemi: Çoklu doğrusal regresyon, aşağıdaki gibi bir denklemle ifade edilir:

Y = β0 + β1 * X1 + β2 * X2 + ... + βn * Xn + ε

Y: Bağımlı değişken (tahmin edilmek istenen değer).

X1, X2, ..., Xn: Bağımsız değişkenler (tahminde kullanılan faktörler).

β0, β1, β2, ..., βn: Regresyon katsayıları (bağımsız değişkenlerin etkilerini gösterir).

ε: Hata terimi (tahminin gerçek değerden sapmasını temsil eder).

Regresyon Katsayıları: Regresyon katsayıları (β0, β1, β2, ..., βn) bağımsız değişkenlerin bağımlı değişken üzerindeki etkilerini belirler. Bu katsayılar, regresyon analizi sırasında tahmin edilmeye çalışılır.

Hata Terimi (ε): Hata terimi, bağımlı değişkenin tahmini ve gerçek değeri arasındaki farkı ifade eder. Bu terim, modelin verilere tam olarak uymadığını gösterir.

Çoklu doğrusal regresyon analizi, bağımlı değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkiyi anlamamıza yardımcı olur. Regresyon katsayıları, bağımsız değişkenlerin bağımlı değişken üzerindeki etkilerini nicel olarak ifade eder. Bu analiz, tahminler yapmak, neden-sonuç ilişkilerini incelemek veya bağımlı değişkenin neyin etkilediğini anlamak için kullanılabilir.

Örnek:

Eldeki verileri kullanarak bir çoklu doğrusal regresyon analizi örneği verelim. Bu örnekte, bir evin fiyatını tahmin etmek için kullanılan bazı bağımsız değişkenler (özellikler) ile bir çoklu regresyon modeli oluşturacağız. Bu örnekte kullanılacak bağımsız değişkenler, evin büyüklüğü (metrekare cinsinden) ve oda sayısı olacak.

Aşağıda, bu çoklu doğrusal regresyon modelinin nasıl oluşturulacağı ve nasıl kullanılacağına dair Python kodu bulunmaktadır:

import numpy as np
import pandas as pd
import statsmodels.api as sm

# Örnek veri oluşturalım (ev fiyatları ile ilgili)
data = {
    'EvBüyüklüğü': [140, 160, 180, 200, 220],
    'OdaSayısı': [3, 3, 4, 4, 5],
    'Fiyat': [180000, 200000, 230000, 250000, 280000]
}

# Verileri bir DataFrame'e dönüştürelim
df = pd.DataFrame(data)

# Bağımsız değişkenleri ve bağımlı değişkeni tanımlayalım
X = df[['EvBüyüklüğü', 'OdaSayısı']]
Y = df['Fiyat']

# Sabit bir terim ekleyerek çoklu regresyon modelini oluşturalım
X = sm.add_constant(X)

# Modeli oluşturalım
model = sm.OLS(Y, X).fit()

# Modeli özetleyelim
print(model.summary())

OLS Regression Results                            
==============================================================================
Dep. Variable:                  Fiyat   R-squared:                       1.000
Model:                            OLS   Adj. R-squared:                  1.000
Method:                 Least Squares   F-statistic:                 1.164e+27
Date:                Wed, 25 Oct 2023   Prob (F-statistic):           8.59e-28
Time:                        16:41:54   Log-Likelihood:                 96.330
No. Observations:                   5   AIC:                            -186.7
Df Residuals:                       2   BIC:                            -187.8
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
===============================================================================
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
const            1e+04   5.18e-09   1.93e+12      0.000   10000.000       1e+04
EvBüyüklüğü  1000.0000   7.94e-11   1.26e+13      0.000    1000.000    1000.000
OdaSayısı        1e+04      3e-09   3.33e+12      0.000   10000.000       1e+04
==============================================================================
Omnibus:                          nan   Durbin-Watson:                   0.011
Prob(Omnibus):                    nan   Jarque-Bera (JB):                0.327
Skew:                          -0.105   Prob(JB):                        0.849
Kurtosis:                       1.766   Cond. No.                     1.33e+03
==============================================================================

Bu kod, verileri bir DataFrame'e yükler, bağımsız değişkenleri ve bağımlı değişkeni seçer, bir çoklu regresyon modelini oluşturur ve sonuçları özetler. Model özetinde, regresyon katsayıları (β0, β1 ve β2), R-kare (modelin ne kadar iyi uyum sağladığını gösteren bir ölçü), ve p-değerleri gibi önemli istatistiksel bilgiler yer alır.

Bu örnek, ev fiyatlarını tahmin etmek için çoklu regresyon analizi kullanmanın temelini atmaktadır. Gerçek verilerle çalışırken, bağımsız değişkenler ve bağımlı değişkenler gerçek dünya verilerinize uygun olarak ayarlanmalıdır.

Katsayıları Bulma:

import numpy as np
import pandas as pd
import statsmodels.api as sm

# Örnek veri oluşturalım (ev fiyatları ile ilgili)
data = {
    'EvBüyüklüğü': [140, 160, 180, 200, 220],
    'OdaSayısı': [3, 3, 4, 4, 5],
    'Fiyat': [180000, 200000, 230000, 250000, 280000]
}

# Verileri bir DataFrame'e dönüştürelim
df = pd.DataFrame(data)

# Bağımsız değişkenleri ve bağımlı değişkeni tanımlayalım
X = df[['EvBüyüklüğü', 'OdaSayısı']]
Y = df['Fiyat']

# Sabit bir terim ekleyerek çoklu regresyon modelini oluşturalım
X = sm.add_constant(X)

# Modeli oluşturalım
model = sm.OLS(Y, X).fit()

# Modelin katsayılarını alalım
katsayilar = model.params

# Katsayıları ve denklemi yazdıralım
print("Katsayılar:")
print(katsayilar)

# Regresyon denklemi
print("\nRegresyon Denklemi:")
print(f"Fiyat = {katsayilar['const']} + {katsayilar['EvBüyüklüğü']} * EvBüyüklüğü + {katsayilar['OdaSayısı']} * OdaSayısı")

Katsayılar:
const          10000.0
EvBüyüklüğü     1000.0
OdaSayısı      10000.0
dtype: float64

Regresyon Denklemi:
Fiyat = 10000.000000000044 + 1000.0000000000044 * EvBüyüklüğü + 10000.00000000005 * OdaSayısı

Hata:

Evin fiyatını tahmin etmek için oluşturduğunuz çoklu doğrusal regresyon modelinin hatasını bulmak için aşağıdaki adımları izleyebilirsiniz. Bu adımları daha önce verilen örnekle açıklayalım:

Örnek Veri: Diyelim ki elimizde evlerin büyüklükleri, oda sayıları ve fiyatları ile ilgili bir veri seti bulunuyor.

Modeli Oluşturun: İlk adım, çoklu doğrusal regresyon modelini oluşturmaktır. Bu model, bağımsız değişkenlerin (ev büyüklüğü ve oda sayısı) bağımlı değişkeni (fiyat) nasıl etkilediğini açıklar.

Tahminleri ve Gerçek Değerleri Karşılaştırın: Modelinizi kullanarak verileriniz üzerinde tahminler yapın. Her bir gözlem için gerçek değeri (Fiyat) ve modelin tahminini (Tahmin) karşılaştırın.

Hataları Hesaplayın: Her gözlem için hataları hesaplayın. Hata, gerçek değer ile tahmin arasındaki farkı ifade eder. Hataları hesaplarken genellikle iki yaygın hata ölçütü kullanılır:

a. Ortalama Kare Hata (MSE): Her bir gözlem için hata karesini hesaplayın ve bunların ortalamasını alın.

MSE = (1/n) * Σ(yi - ŷi)²

Burada, yi gerçek değeri, ŷi tahmini değeri ve n gözlem sayısını temsil eder.

b. Ortalama Mutlak Hata (MAE): Her bir gözlem için mutlak hata (gerçek değer ile tahmin arasındaki farkın mutlak değeri) hesaplayın ve bunların ortalamasını alın.

MAE = (1/n) * Σ|yi - ŷi|

Hata Sonuçlarını İnceleyin: MSE ve MAE gibi hata ölçütleri, modelin tahmin performansını değerlendirmenize yardımcı olur. Düşük MSE ve MAE değerleri, modelin daha iyi tahminler yaptığını gösterir. Yüksek hata değerleri, modelin kötü performans gösterdiğini gösterir.

Örneğin, Python ile verilerinizi ve modelinizi kullanarak bu hataları hesaplayabilir ve sonuçları inceleyebilirsiniz. Bu şekilde, modelinizin verilere ne kadar iyi uydüğünü ve tahminlerinin ne kadar doğru olduğunu değerlendirebilirsiniz.

Bu linki inceleyebilirsiniz.