Çoklu Doğrusal Regresyon (Multiple Linear Regression)
Çoklu doğrusal regresyon, bir bağımlı değişkenin bir veya daha fazla bağımsız değişkenle ilişkisini modellemek için kullanılan bir istatistiksel analiz yöntemidir. Bu yöntem, bağımlı değişkenin tahmin edilmesi veya açıklanması amacıyla kullanılır ve bağımsız değişkenlerin etkilerini incelemek için faydalıdır. İşte çoklu doğrusal regresyonun ana bileşenleri ve nasıl çalıştığına dair önemli bilgiler:
Bağımlı Değişken (Y): Çoklu doğrusal regresyonun temel amacı, bağımlı bir değişkeni (genellikle Y olarak temsil edilir) diğer bağımsız değişkenlerle ilişkilendirmektir. Bu bağımlı değişken, genellikle tahmin edilmek istenen bir sonucu veya hedefi ifade eder. Örneğin, satış geliri, ev fiyatı veya öğrenci başarı notu gibi.
Bağımsız Değişkenler (X1, X2, X3, ...): Çoklu doğrusal regresyon, bir veya daha fazla bağımsız değişkeni kullanarak bağımlı değişkenin davranışını tahmin etmek veya açıklamak için kullanılır. Bu bağımsız değişkenler (genellikle X1, X2, X3, vb. olarak temsil edilir), bağımlı değişkenin etkilerini incelemek veya tahmin etmek istediğiniz özellikleri veya değişkenleri temsil eder. Örneğin, satış geliri tahmininde reklam harcamaları ve ürün fiyatı gibi faktörler kullanılabilir.
Regresyon Denklemi: Çoklu doğrusal regresyon, aşağıdaki gibi bir denklemle ifade edilir:
Y = β0 + β1 * X1 + β2 * X2 + ... + βn * Xn + ε
Y: Bağımlı değişken (tahmin edilmek istenen değer).
X1, X2, ..., Xn: Bağımsız değişkenler (tahminde kullanılan faktörler).
β0, β1, β2, ..., βn: Regresyon katsayıları (bağımsız değişkenlerin etkilerini gösterir).
ε: Hata terimi (tahminin gerçek değerden sapmasını temsil eder).
Regresyon Katsayıları: Regresyon katsayıları (β0, β1, β2, ..., βn) bağımsız değişkenlerin bağımlı değişken üzerindeki etkilerini belirler. Bu katsayılar, regresyon analizi sırasında tahmin edilmeye çalışılır.
Hata Terimi (ε): Hata terimi, bağımlı değişkenin tahmini ve gerçek değeri arasındaki farkı ifade eder. Bu terim, modelin verilere tam olarak uymadığını gösterir.
Çoklu doğrusal regresyon analizi, bağımlı değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkiyi anlamamıza yardımcı olur. Regresyon katsayıları, bağımsız değişkenlerin bağımlı değişken üzerindeki etkilerini nicel olarak ifade eder. Bu analiz, tahminler yapmak, neden-sonuç ilişkilerini incelemek veya bağımlı değişkenin neyin etkilediğini anlamak için kullanılabilir.
Örnek:
Eldeki verileri kullanarak bir çoklu doğrusal regresyon analizi örneği verelim. Bu örnekte, bir evin fiyatını tahmin etmek için kullanılan bazı bağımsız değişkenler (özellikler) ile bir çoklu regresyon modeli oluşturacağız. Bu örnekte kullanılacak bağımsız değişkenler, evin büyüklüğü (metrekare cinsinden) ve oda sayısı olacak.
Aşağıda, bu çoklu doğrusal regresyon modelinin nasıl oluşturulacağı ve nasıl kullanılacağına dair Python kodu bulunmaktadır:
import numpy as np import pandas as pd import statsmodels.api as sm # Örnek veri oluşturalım (ev fiyatları ile ilgili) data = { 'EvBüyüklüğü': [140, 160, 180, 200, 220], 'OdaSayısı': [3, 3, 4, 4, 5], 'Fiyat': [180000, 200000, 230000, 250000, 280000] } # Verileri bir DataFrame'e dönüştürelim df = pd.DataFrame(data) # Bağımsız değişkenleri ve bağımlı değişkeni tanımlayalım X = df[['EvBüyüklüğü', 'OdaSayısı']] Y = df['Fiyat'] # Sabit bir terim ekleyerek çoklu regresyon modelini oluşturalım X = sm.add_constant(X) # Modeli oluşturalım model = sm.OLS(Y, X).fit() # Modeli özetleyelim print(model.summary())
OLS Regression Results ============================================================================== Dep. Variable: Fiyat R-squared: 1.000 Model: OLS Adj. R-squared: 1.000 Method: Least Squares F-statistic: 1.164e+27 Date: Wed, 25 Oct 2023 Prob (F-statistic): 8.59e-28 Time: 16:41:54 Log-Likelihood: 96.330 No. Observations: 5 AIC: -186.7 Df Residuals: 2 BIC: -187.8 Df Model: 2 Covariance Type: nonrobust =============================================================================== coef std err t P>|t| [0.025 0.975] ------------------------------------------------------------------------------- const 1e+04 5.18e-09 1.93e+12 0.000 10000.000 1e+04 EvBüyüklüğü 1000.0000 7.94e-11 1.26e+13 0.000 1000.000 1000.000 OdaSayısı 1e+04 3e-09 3.33e+12 0.000 10000.000 1e+04 ============================================================================== Omnibus: nan Durbin-Watson: 0.011 Prob(Omnibus): nan Jarque-Bera (JB): 0.327 Skew: -0.105 Prob(JB): 0.849 Kurtosis: 1.766 Cond. No. 1.33e+03 ==============================================================================
Bu kod, verileri bir DataFrame'e yükler, bağımsız değişkenleri ve bağımlı değişkeni seçer, bir çoklu regresyon modelini oluşturur ve sonuçları özetler. Model özetinde, regresyon katsayıları (β0, β1 ve β2), R-kare (modelin ne kadar iyi uyum sağladığını gösteren bir ölçü), ve p-değerleri gibi önemli istatistiksel bilgiler yer alır.
Bu örnek, ev fiyatlarını tahmin etmek için çoklu regresyon analizi kullanmanın temelini atmaktadır. Gerçek verilerle çalışırken, bağımsız değişkenler ve bağımlı değişkenler gerçek dünya verilerinize uygun olarak ayarlanmalıdır.
Katsayıları Bulma:
import numpy as np import pandas as pd import statsmodels.api as sm # Örnek veri oluşturalım (ev fiyatları ile ilgili) data = { 'EvBüyüklüğü': [140, 160, 180, 200, 220], 'OdaSayısı': [3, 3, 4, 4, 5], 'Fiyat': [180000, 200000, 230000, 250000, 280000] } # Verileri bir DataFrame'e dönüştürelim df = pd.DataFrame(data) # Bağımsız değişkenleri ve bağımlı değişkeni tanımlayalım X = df[['EvBüyüklüğü', 'OdaSayısı']] Y = df['Fiyat'] # Sabit bir terim ekleyerek çoklu regresyon modelini oluşturalım X = sm.add_constant(X) # Modeli oluşturalım model = sm.OLS(Y, X).fit() # Modelin katsayılarını alalım katsayilar = model.params # Katsayıları ve denklemi yazdıralım print("Katsayılar:") print(katsayilar) # Regresyon denklemi print("\nRegresyon Denklemi:") print(f"Fiyat = {katsayilar['const']} + {katsayilar['EvBüyüklüğü']} * EvBüyüklüğü + {katsayilar['OdaSayısı']} * OdaSayısı")
Katsayılar: const 10000.0 EvBüyüklüğü 1000.0 OdaSayısı 10000.0 dtype: float64 Regresyon Denklemi: Fiyat = 10000.000000000044 + 1000.0000000000044 * EvBüyüklüğü + 10000.00000000005 * OdaSayısı
Hata:
Evin fiyatını tahmin etmek için oluşturduğunuz çoklu doğrusal regresyon modelinin hatasını bulmak için aşağıdaki adımları izleyebilirsiniz. Bu adımları daha önce verilen örnekle açıklayalım:
Örnek Veri: Diyelim ki elimizde evlerin büyüklükleri, oda sayıları ve fiyatları ile ilgili bir veri seti bulunuyor.
Modeli Oluşturun: İlk adım, çoklu doğrusal regresyon modelini oluşturmaktır. Bu model, bağımsız değişkenlerin (ev büyüklüğü ve oda sayısı) bağımlı değişkeni (fiyat) nasıl etkilediğini açıklar.
Tahminleri ve Gerçek Değerleri Karşılaştırın: Modelinizi kullanarak verileriniz üzerinde tahminler yapın. Her bir gözlem için gerçek değeri (Fiyat) ve modelin tahminini (Tahmin) karşılaştırın.
Hataları Hesaplayın: Her gözlem için hataları hesaplayın. Hata, gerçek değer ile tahmin arasındaki farkı ifade eder. Hataları hesaplarken genellikle iki yaygın hata ölçütü kullanılır:
a. Ortalama Kare Hata (MSE): Her bir gözlem için hata karesini hesaplayın ve bunların ortalamasını alın.
MSE = (1/n) * Σ(yi - ŷi)²
Burada, yi gerçek değeri, ŷi tahmini değeri ve n gözlem sayısını temsil eder.
b. Ortalama Mutlak Hata (MAE): Her bir gözlem için mutlak hata (gerçek değer ile tahmin arasındaki farkın mutlak değeri) hesaplayın ve bunların ortalamasını alın.
MAE = (1/n) * Σ|yi - ŷi|
Hata Sonuçlarını İnceleyin: MSE ve MAE gibi hata ölçütleri, modelin tahmin performansını değerlendirmenize yardımcı olur. Düşük MSE ve MAE değerleri, modelin daha iyi tahminler yaptığını gösterir. Yüksek hata değerleri, modelin kötü performans gösterdiğini gösterir.
Örneğin, Python ile verilerinizi ve modelinizi kullanarak bu hataları hesaplayabilir ve sonuçları inceleyebilirsiniz. Bu şekilde, modelinizin verilere ne kadar iyi uydüğünü ve tahminlerinin ne kadar doğru olduğunu değerlendirebilirsiniz.
0 Comments
Recommended Comments
There are no comments to display.