Jump to content
  • entries
    7
  • comments
    0
  • views
    384

Denetimli Öğrenme - Sınıflandırma (Classification)


Doğuhan ELMA

60 views

Sınıflandırma ve regresyon, makine öğrenme alanında iki temel türde gözetimli öğrenme problemini ifade eder. İşte bu iki kavramın açıklamaları:

Sınıflandırma (Classification):

Sınıflandırma, bir makine öğrenme modelinin bir veri noktasını bir veya daha fazla sınıfa ataması gereken bir gözetimli öğrenme türüdür.

Bu tür problemlerde çıktı, genellikle sınıf etiketleri veya kategorileri içerir. Örneğin, bir e-postanın spam (istenmeyen) veya spam olmayan bir kategoriye atanması, bir görüntünün içerdiği nesnenin türünün tahmin edilmesi veya bir hastanın bir hastalığa sahip olup olmadığının belirlenmesi sınıflandırma örnekleridir.

Sınıflandırma algoritmaları, veri noktalarını belirli sınıflar arasında ayırt etmeye çalışır. Bu, belirli özelliklerin kombinasyonlarını kullanarak sınıf tahminleri yapar.

Sınıflandırma, makine öğrenme ve veri madenciliği alanlarında çok sayıda farklı türe sahiptir. İşte sınıflandırma türlerinin bazıları:

İkili Sınıflandırma (Binary Classification):

İkili sınıflandırma, iki farklı sınıf veya kategori arasında bir seçim yapma problemidir. Örnekler arasında "spam" veya "spam değil," "hasta" veya "sağlıklı" gibi iki olası çıktı sınıfı bulunabilir.

Çoklu Sınıflandırma (Multi-Class Classification):

Çoklu sınıflandırma, iki sınıfın ötesinde birden fazla sınıfın olduğu bir sınıflandırma problemidir. Örnekler arasında "kedi," "köpek," "kuş" gibi birden fazla sınıfın olduğu bir görüntü sınıflandırma problemi bulunabilir.

Çok Etiketli Sınıflandırma (Multi-Label Classification):

Çok etiketli sınıflandırma, bir veri noktasının birden fazla etiket veya sınıf ile ilişkilendirildiği bir sınıflandırma türüdür. Örnek olarak, bir metin belgesinde birden fazla kategoriye ait etiketler atanabilir.

Sınıflandırma Düzeyi (Hierarchical Classification):

Sınıflandırma düzeyi, sınıfların hiyerarşik bir yapıda olduğu bir sınıflandırma türünü ifade eder. Örneğin, "hayvanlar"ın bir üst sınıfı ve "memeliler" veya "kuşlar" gibi alt sınıfları olan bir sınıflandırma yapısı düşünün.

Dengesiz Sınıflandırma (Imbalanced Classification):

Dengesiz sınıflandırma, sınıflar arasındaki örnek sayısının büyük bir dengesizlik gösterdiği bir sınıflandırma türüdür. Bu tür problemlerde nadir sınıfın tanınması ve sınıflandırılması zor olabilir.

Anormal Durum Tespiti (Anomaly Detection):

Anormal durum tespiti, normal sınıfı temsil eden bir modelin yardımıyla anormal veya nadir durumları tespit etmeye çalışır. Bu, güvenlik, sahtekarlık tespiti ve arıza teşhisi gibi alanlarda kullanılır.

Metin Sınıflandırma (Text Classification):

Metin sınıflandırma, metin belgelerinin belirli kategorilere veya sınıflara atanmasıdır. Örnekler arasında duygu analizi, spam tespiti ve belge sınıflandırma bulunur.

Zaman Serisi Sınıflandırma (Time Series Classification):

Zaman serisi sınıflandırma, zamana bağlı verilerin bir sınıfa atanması veya kategorize edilmesi problemidir. Örneğin, tezgah verilerinin belirli bir arıza türüne ait olup olmadığını sınıflandırma.

Bu, sınıflandırma problemlerinin sadece birkaç örneğidir. Her tür, farklı veri türleri ve algoritmalar gerektirebilir ve belirli bir uygulamaya veya endüstriye özgü olabilir. Sınıflandırma, geniş bir makine öğrenme uygulama yelpazesinde yaygın olarak kullanılır ve farklı sınıflandırma türleri farklı gereksinimlerle gelir.

 

Sınıflandırma Süreci:

Veri Toplama ve Hazırlık: İlk adım, sınıflandırma modeli için veri toplamak ve hazırlamaktır. Bu veriler, girdi özelliklerini ve bu özelliklere karşılık gelen hedef sınıf etiketlerini içerir.

Eğitim Verileri ve Test Verileri: Veriyi genellikle eğitim verisi ve test verisi olarak iki kümeye böleriz. Eğitim verileri, modelin öğrenme süreci için kullanılırken, test verileri modelin performansını değerlendirmek için kullanılır.

Model Seçimi ve Eğitimi: İlgili sınıflandırma algoritması seçilir ve model eğitilir. Model, eğitim verilerini kullanarak özelliklerle sınıf etiketleri arasındaki ilişkiyi öğrenir.

Model Değerlendirmesi: Model, test verilerini kullanarak performansını değerlendirir. Bu, sınıflandırma metrikleri kullanılarak yapılır.

Tahminler: Model, daha sonra gerçek dünya verilerine uygulanabilir ve bu veriler için sınıf tahminlerinde bulunabilir.

 

Sınıflandırma Metrikleri:

Örnek:

1_n7M3Amwa34-ubgvor6oJYQ.webp

  • Mail gerçekte spam iken tahmin ettiğimizde de spam dersek buna True Positive (TP)(Doğru Positifler) denir
  • Mail gerçekte spam iken tahmin ettiğimizde de spam değil dersek buna False Negative (FN)(Yanlış Negatifler) denir
  • Mail gerçekte spam değil iken tahmin ettiğimizde de spam dersek buna False Positive (FP)(Yanlış Positifler) denir
  • Mail gerçekte spam değil iken tahmin ettiğimizde de spam değil dersek buna True Negative (TN)(Gerçek Negatifler) denir

Doğruluk (Accuracy): Doğruluk, doğru sınıflandırılan örneklerin toplam örnek sayısına oranını ifade eder. Yani, doğru tahminlerin yüzdesini verir. Doğruluk, dengeli sınıf dağılımları için iyi bir metrik olabilir, ancak sınıflar arasında dengesizlik varsa doğruluk yanıltıcı olabilir.

Doğruluk (Accuracy), sınıflandırma problemlerinde kullanılan bir değerlendirme metriğidir. Doğruluk, modelin doğru tahmin ettiği veri noktalarının toplam veri noktalarına oranını ifade eder. Yani, doğru sınıflandırılan veri noktalarının yüzdesini verir.

Doğruluk, aşağıdaki şekilde hesaplanır:

1.png

Doğruluk, modelin ne kadar iyi performans gösterdiğini değerlendirmek için yaygın bir metriktir. Ancak, her zaman uygun bir metrik değildir, özellikle sınıflar arasındaki dağılım dengesizse. Dengesiz sınıflandırma problemlerinde, yani bir sınıf diğerine göre çok daha fazla örneğe sahipse, yüksek doğruluk elde etmek yanıltıcı olabilir.

Örneğin, spam e-postalarını tespit etmek için bir sınıflandırma modeli düşünün. Eğer toplam e-postaların %95'i spam değilse ve modeliniz her e-postayı spam olmadı olarak tahmin ederse, doğruluk oranınız yüksek olacaktır. Ancak bu durumda, gerçekte spam olan e-postaları yanlış sınıflandırmış olursunuz.

Doğruluk, dengeli bir sınıflandırma problemi için iyi bir metrik olabilir, ancak özellikle hassasiyet ve özgüllük gibi diğer metriklerle birlikte kullanılmalıdır. Çünkü modelin performansını daha eksiksiz bir şekilde değerlendirmek için tek bir metriğe dayalı olmamalıyız.

Örneğimiz için doğruluk oranı: (100+700) /1000 = 80%

Hassasiyet (Precision): Hassasiyet, pozitif olarak tahmin edilen örneklerin gerçekte pozitif olan örneklerin oranını ifade eder. Yani, yanlış pozitif tahminlerin sayısını azaltmayı amaçlar. Hassasiyet, yanlış pozitif sonuçların maliyetli olduğu durumlarda önemlidir.

Hassasiyet (Precision), sınıflandırma problemlerinde kullanılan bir değerlendirme metriğidir ve modelin pozitif olarak tahmin ettiği veri noktalarının gerçekten pozitif olan veri noktalarının oranını ifade eder. Yani, pozitif olarak tahmin edilen örneklerin ne kadarının gerçekten doğru olduğunu ölçer.

Hassasiyet, aşağıdaki şekilde hesaplanır:

1.png

Bu denklemde:

"Gerçek Pozitifler (True Positives)" pozitif olarak tahmin edilen ve gerçekten pozitif olan örneklerin sayısını temsil eder.

"Yanlış Pozitifler (False Positives)" pozitif olarak tahmin edilen ancak gerçekte negatif olan örneklerin sayısını temsil eder.

Hassasiyet, pozitif olarak tahmin edilen örneklerin ne kadarının gerçekten doğru olduğunu ölçer. Yüksek hassasiyet, modelin yanlış pozitif tahminler yapma olasılığını azaltma eğiliminde olduğu anlamına gelir. Hassasiyet, özellikle yanlış pozitiflerin maliyetli olduğu durumlarda önemlidir.

Örneğin, bir medikal testi ele alalım. Yüksek hassasiyetli bir test, gerçekte hastalığı olan kişileri yanlışlıkla sağlıklı olarak sınıflandırma olasılığını azaltır. Böylece hastalar daha iyi bir şekilde teşhis edilir.

Hassasiyetin, diğer sınıflandırma metrikleriyle birlikte kullanılması genellikle modelin performansını daha iyi değerlendirmenize yardımcı olur.

 

Özgüllük (Specificity): Özgüllük, gerçekte negatif olan örneklerin ne kadarını doğru bir şekilde negatif olarak tahmin ettiğinizi ifade eder. Özgüllük, yanlış negatif sonuçların maliyetli olduğu durumlarda önemlidir.

Özgüllük (Specificity), sınıflandırma problemlerinde kullanılan bir değerlendirme metriğidir ve modelin negatif olarak tahmin ettiği veri noktalarının gerçekten negatif olan veri noktalarının oranını ifade eder. Yani, negatif olarak tahmin edilen örneklerin ne kadarının gerçekten doğru olduğunu ölçer.

Özgüllük, aşağıdaki şekilde hesaplanır:

1.png

Bu denklemde:

"Gerçek Negatifler (True Negatives)" negatif olarak tahmin edilen ve gerçekten negatif olan örneklerin sayısını temsil eder.

"Yanlış Pozitifler (False Positives)" pozitif olarak tahmin edilen ancak gerçekte negatif olan örneklerin sayısını temsil eder.

Özgüllük, negatif olarak tahmin edilen örneklerin ne kadarının gerçekten doğru olduğunu ölçer. Yüksek özgüllük, modelin yanlış pozitif tahminler yapma olasılığını azaltma eğiliminde olduğu anlamına gelir. Özellikle yanlış pozitiflerin maliyetli olduğu durumlarda özgüllük önemlidir.

Özgüllük, özellikle medikal veya güvenlik uygulamalarında kullanışlı bir metriktir. Örneğin, bir güvenlik sistemini ele alalım. Yüksek özgüllüklü bir sistem, gerçekten tehlikeli durumları yanlışlıkla tehlikeli olmayan olarak sınıflandırma olasılığını azaltır.

Özgüllük, diğer sınıflandırma metrikleriyle birlikte kullanılarak modelin performansını daha iyi değerlendirmenize yardımcı olur.

 

Duyarlılık (Recall veya Sensitivity): Duyarlılık, gerçekte pozitif olan örneklerin ne kadarını doğru bir şekilde pozitif olarak tahmin ettiğinizi ifade eder. Özellikle yanlış negatif sonuçların maliyetli olduğu durumlarda önemlidir.

Duyarlılık (Recall), sınıflandırma problemlerinde kullanılan bir değerlendirme metriğidir ve modelin gerçekte pozitif olan veri noktalarının ne kadarını doğru bir şekilde pozitif olarak tahmin ettiğini ölçer. Duyarlılık aynı zamanda "duyarlılık" veya "hassaslık" olarak da adlandırılır.

Duyarlılık, aşağıdaki şekilde hesaplanır:

1.png

Bu denklemde:

"Gerçek Pozitifler (True Positives)" pozitif olarak tahmin edilen ve gerçekten pozitif olan örneklerin sayısını temsil eder.

"Yanlış Negatifler (False Negatives)" negatif olarak tahmin edilen ancak gerçekte pozitif olan örneklerin sayısını temsil eder.

Duyarlılık, gerçekte pozitif olan örneklerin ne kadarının doğru bir şekilde tespit edildiğini ölçer. Duyarlılık, özellikle yanlış negatif sonuçların maliyetli olduğu durumlarda önemlidir. Yanlış negatifler, gerçekte pozitif olan vakaların gözden kaçırılmasına yol açabilir.

Örneğin, bir tıbbi teşhis testini ele alalım. Yüksek duyarlılığa sahip bir test, gerçekte hasta olan kişileri yanlışlıkla sağlıklı olarak sınıflandırma olasılığını azaltır. Böylece hastalar daha iyi bir şekilde teşhis edilir.

Duyarlılık, modelin pozitif sonuçları ne kadar iyi tespit ettiğini ölçer ve sınıflandırma probleminin doğru pozitiflere vurgu yaptığı durumlarda kullanışlıdır. Duyarlılık, hassasiyet (precision) ile birlikte model performansını daha kapsamlı bir şekilde değerlendirmenize yardımcı olur.

 

Örnek Kod:

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# Örnek veri oluşturma
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Model oluşturma
model = LogisticRegression()
model.fit(X_train, y_train)

# Sınıflandırma tahminleri yapma
y_pred = model.predict(X_test)

# Doğruluk (Accuracy) hesaplama
accuracy = accuracy_score(y_test, y_pred)
print("Doğruluk (Accuracy):", accuracy)

# Hassasiyet (Precision) hesaplama
precision = precision_score(y_test, y_pred)
print("Hassasiyet (Precision):", precision)

# Duyarlılık (Recall) hesaplama
recall = recall_score(y_test, y_pred)
print("Duyarlılık (Recall):", recall)

# F1 Puanı (F1 Score) hesaplama
f1 = f1_score(y_test, y_pred)
print("F1 Puanı (F1 Score):", f1)

# ROC AUC (Receiver Operating Characteristic Area Under the Curve) hesaplama
y_pred_proba = model.predict_proba(X_test)[:, 1]
roc_auc = roc_auc_score(y_test, y_pred_proba)
print("ROC AUC:", roc_auc)

Çıktı:

Doğruluk (Accuracy): 0.855
Hassasiyet (Precision): 0.9148936170212766
Duyarlılık (Recall): 0.8037383177570093
F1 Puanı (F1 Score): 0.8557213930348259
ROC AUC: 0.9216159179981912

F1 Puanı (F1 Score): F1 puanı, hassasiyet ve duyarlılığı birleştirir ve dengeyi temsil eder. Dengeli bir performans ölçüsüdür ve hassaslık ve özgüllük arasındaki ticari-off'ları gösterir. F1 puanı, dengesiz sınıflandırma problemleri için kullanışlıdır.

F1 Puanı (F1 Score), sınıflandırma problemlerinde kullanılan bir değerlendirme metriğidir ve hassasiyet (precision) ile duyarlılık (recall) arasındaki dengeyi ölçer. F1 puanı, bu iki metriğin harmonik ortalamasını temsil eder ve modelin hem yanlış pozitif tahminler yapma olasılığını azaltma hem de yanlış negatif tahminler yapma olasılığını azaltma eğilimini özetler.

F1 puanı, aşağıdaki şekilde hesaplanır:

1.png

F1 puanı, hem hassasiyeti hem de duyarlılığı dikkate alır. Daha yüksek bir F1 puanı, hem yanlış pozitiflerin hem de yanlış negatiflerin azaltılmasına yönelik daha dengeli bir performansı temsil eder.

F1 puanı, özellikle sınıflar arasındaki dengesizlik olduğu veya yanlış pozitif ve yanlış negatiflerin farklı maliyetlere sahip olduğu durumlarda kullanışlıdır. Örneğin, tıbbi bir teşhis testi düşünün. Hem hastaların yanlışlıkla sağlıklı olarak sınıflandırılmasını hem de sağlıklı kişilerin yanlışlıkla hastalıklı olarak sınıflandırılmasını en aza indirmek önemlidir.

F1 puanı, modelin performansını daha eksiksiz bir şekilde değerlendirmenize yardımcı olur ve hassasiyet ve duyarlılık gibi diğer sınıflandırma metrikleriyle birlikte kullanılır.

 

Örnek Kod:

from sklearn.metrics import f1_score
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# Örnek veri oluşturma
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Model oluşturma
model = LogisticRegression()
model.fit(X_train, y_train)

# Sınıflandırma tahminleri yapma
y_pred = model.predict(X_test)

# F1 Puanını hesaplama
f1 = f1_score(y_test, y_pred)

print("F1 Puanı:", f1)

Çıktı:

F1 Puanı: 0.8557213930348259

Bu örnek kod, bir sınıflandırma modeli kullanarak bir F1 Puanı hesaplar. Öncelikle örnek bir veri kümesi oluşturur, modeli eğitir, test verileri üzerinde tahminler yapar ve ardından F1 Puanını hesaplar. Sonuç F1 puanı, modelin doğruluk ve hassasiyetin dengeleyen bir performans ölçüsüdür.

 

ROC Eğrisi ve AUC (Receiver Operating Characteristic Curve and Area Under the Curve): ROC eğrisi, hassasiyet ve özgüllük arasındaki ilişkiyi gösteren bir grafiği ifade eder. AUC ise ROC eğrisinin altındaki alanı temsil eder ve sınıflandırma modelinin performansını tek bir sayıda özetler.

ROC Eğrisi (Receiver Operating Characteristic Curve) ve AUC (Area Under the Curve), sınıflandırma modellerinin performansını değerlendirmek için kullanılan değerlendirme yöntemleridir.

ROC Eğrisi (Receiver Operating Characteristic Curve): ROC eğrisi, sınıflandırma modelinin farklı kesme eşiklerinde hassasiyet ve özgüllüğünün değişimini gösteren bir grafiktir. Bu eğri, modelin pozitif ve negatif tahminlerini farklı kesme eşiklerine göre ayarladığında nasıl performans gösterdiğini gösterir.

ROC eğrisi, yatay eksende özgüllüğü (specificity) ve dikey eksende duyarlılığı (recall) temsil eder. İdeal bir model, ROC eğrisi üzerinde sol üst köşeden geçer, bu nedenle eğri altında kalan alan (AUC) 1'e yaklaşır.

AUC (Area Under the Curve), ROC eğrisinin altında kalan alanı ifade eder. AUC değeri, modelin performansını tek bir sayıda özetler. 1'e çok yakın bir AUC değeri, mükemmel bir modeli temsil ederken, 0.5 değeri, rastgele tahmin eden bir modeli temsil eder.

AUC (Area Under the Curve): AUC, ROC eğrisinin altında kalan alanı ifade eder ve modelin performansını değerlendirmek için kullanılan bir metriktir. AUC değeri, modelin pozitif ve negatif sınıfları ayırt etme yeteneğini yüzeyin altındaki alan olarak temsil eder.

AUC, aşağıdaki şekilde yorumlanır:

0.5: Rastgele bir model.

0.5 ile 0.7 arasında: Modelin performansı düşük.

0.7 ile 0.9 arasında: İyi bir performans gösteren model.

0.9 ile 1.0: Mükemmel bir performans.

Yüksek AUC değerleri, modelin pozitif ve negatif sınıfları ayırt etme yeteneğinin yüksek olduğunu gösterir ve modelin iyi bir sınıflandırma yeteneğine sahip olduğunu işaret eder.

ROC eğrisi ve AUC, özellikle sınıflandırma problemlerinde dengesiz sınıf dağılımları veya maliyet duyarlılığı durumlarında model performansını değerlendirmek için kullanışlıdır.

Bu metrikler, sınıflandırma modelinin performansını değerlendirmek için kullanılır ve iş probleminizin gereksinimlerine bağlı olarak hangi metriklerin önemli olduğunu belirleyebilirsiniz.

 

Kod Örneği:

import numpy as np
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, roc_auc_score, auc
import matplotlib.pyplot as plt

# Örnek veri oluşturma
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Model oluşturma
model = LogisticRegression()
model.fit(X_train, y_train)

# Tahmin olasılıkları alınması
y_pred_proba = model.predict_proba(X_test)[:, 1]

# ROC eğrisi hesaplama
fpr, tpr, thresholds = roc_curve(y_test, y_pred_proba)

# ROC AUC (Area Under the Curve) hesaplama
roc_auc = auc(fpr, tpr)

# ROC eğrisini çizme
plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC Curve (AUC = {:.2f})'.format(roc_auc))
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve')
plt.legend(loc='lower right')
plt.show()

Çıktı:

1.png

Bu örnek kod, bir sınıflandırma modeli (Logistic Regression) kullanarak bir ROC eğrisi çizer. Veri, model eğitimi, tahmin olasılıklarının hesaplanması ve ROC eğrisinin çizilmesi gibi adımları içerir. Sonuç olarak, ROC eğrisi ve AUC değeri görüntülenir.

Sınıflandırma Modelleri:

Sınıflandırma modelleri, makine öğrenme ve istatistik alanlarında kullanılan bir tür gözetimli öğrenme yöntemidir. Bu modeller, veriyi farklı sınıflara ayırmak veya kategorik sonuçları tahmin etmek için kullanılır. İşte yaygın olarak kullanılan bazı sınıflandırma modelleri:

Lojistik Regresyon (Logistic Regression): İkili sınıflandırma problemlerinde kullanılan bir temel sınıflandırma modelidir. Lojistik regresyon, sonucun bir sınıfa ait olma olasılığını tahmin etmek için kullanılır.

Karar Ağaçları (Decision Trees): Karar ağaçları, veriyi ağaç yapısı kullanarak sınıflara ayırmak için kullanılır. Her iç düğüm bir özellik testini temsil eder ve yaprak düğümleri sınıf etiketlerini içerir.

Rastgele Ormanlar (Random Forests): Rastgele ormanlar, birden fazla karar ağacını bir araya getirerek daha iyi sınıflandırma performansı sağlar. Rastgele ormanlar, aşırı uyumu azaltır ve daha istikrarlı tahminler yapar.

Destek Vektör Makineleri (Support Vector Machines - SVM): SVM, veriyi iki sınıfa ayırmak için kullanılır ve veri noktalarını en iyi şekilde ayıran bir hiperdüzlemi bulmaya çalışır. Hem ikili sınıflandırma hem de çoklu sınıflandırma problemlerinde kullanılabilir.

K-En Yakın Komşu (K-Nearest Neighbors - KNN): KNN, yeni bir veri noktasını komşu eğitim verilerine göre sınıflandıran basit bir sınıflandırma algoritmasıdır. Komşu sayısını ve uzaklık metriklerini ayarlayarak kullanılır.

Naive Bayes: Naive Bayes, Bayes teoremine dayanan bir sınıflandırma modelidir. Özellikler arasındaki bağımsızlık varsayımı altında çalışır ve özelliklerin dağılımlarını tahmin eder.

K-Ortalama Kümeleme (K-Means Clustering): İlk bakışta bir kümeleme algoritması gibi görünse de, K-Ortalama aynı zamanda veriyi belirli sınıflara ayırmak için kullanılabilir. Verileri k-klasörlüğe ayırmak için kullanılır.

Gradient Boosting Modelleri: Gradient boosting, ağaç tabanlı modelleri (örneğin, XGBoost, LightGBM, CatBoost) içerir ve başarılı sonuçlar elde etmek için ağaçları güçlendirir.

Yapay Sinir Ağları (Artificial Neural Networks - ANN): Derin öğrenme ve yapay zeka alanlarında popüler olan yapay sinir ağları, çok katmanlı bir yapı kullanarak karmaşık sınıflandırma problemlerini ele alır.

Destek Vektör Makineleri (Support Vector Machines - SVM): SVM, veriyi iki sınıfa ayırmak için kullanılır ve veri noktalarını en iyi şekilde ayıran bir hiperdüzlemi bulmaya çalışır. Hem ikili sınıflandırma hem de çoklu sınıflandırma problemlerinde kullanılabilir.

Bu, yalnızca sınıflandırma modeli türlerinin bazılarıdır. Sınıflandırma probleminizin doğası, veri türü ve ölçek gibi faktörlere göre en uygun modeli seçmek önemlidir. Ayrıca, birçok sınıflandırma modelinin parametrelerini ayarlamak ve çapraz doğrulama gibi teknikleri kullanmak modelin performansını artırabilir.

 

0 Comments


Recommended Comments

There are no comments to display.

Guest
Add a comment...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...