Technologie

Pour une régression linéaire plus précise

Pour une régression linéaire plus précise


Alors, existe-t-il un besoin réel pour ce modèle? Quelles améliorations apporte-t-il par rapport à un modèle linéaire ou logistique traditionnel? Eh bien, je suis allé de l'avant et l'ai testé bien sûr sur les mêmes données de NYC que celles que j'avais utilisées dans mon travail précédent, à savoir la régression linéaire.

Nous pouvons adapter le modèle de la même manière que nous ajustons le régresseur linéaire.

modèle = modèles.FourSquare (df.LotArea, df.SalePrice)

Ce qui retournera une sortie de:

Lathe.models.FourSquare (Int64[8450, 9600, 11250, 9550, 14260, 14115, 10084, 10382, 6120, 7420  …  9000, 9262, 3675, 17217, 7500, 7917, 13175, 9042, 9717, 9937], Int64[208500, 181500, 223500, 140000, 250000, 143000, 307000, 200000, 129900, 118000  …  136000, 287090, 145000, 84500, 185000, 175000, 210000, 266500, 142125, 147500])

Ou quelque chose comme ça. Bien entendu, j’ai également adapté un modèle de régression linéaire pour comparer la précision de l’un à l’autre.

utilisation du tour: modèles
model = models.LinearRegression (df.LotArea, df.SalePrice)

Fantastique, 2 modèles en 4 lignes.

Après avoir prédit avec mes deux modèles en utilisant models.predict,

testdf.linearreg = models.predict (model, testdf.LotArea)
testdf.foursqu = models.predict (model, testdf.LotArea)

nous avions nos deux tableaux que nous pouvions enfin comparer pour voir le score. Pour l'instant, nous sommes toujours bloqués avec MAE, cependant, 0.0.2 promettra également à r2 pour validation. Voici ce que nous avons eu! :

linearacc = validate.mae (testdf.SalePrice, testdf.linearreg)

Avec une sortie de:

173848.28232265453

173 000, ce n'est pas si grave, vu que ces données n'ont été nettoyées qu'un peu, puis jetées directement dans le modèle. En outre, dans un prochain article, je prévois de créer un modèle vraiment génial pour cela et d'obtenir une précision assez élevée avec Lathe, alors restez à l'écoute de cela. Alors, bien sûr, vous vous demandez quelle est la précision du modèle à quatre carrés?

foursqacc = validate.mae (testdf.SalePrice, testdf.foursqu)

A quoi nous avons été agréablement accueillis:

104892.39723066095

Je ferai bien sûr le tour de ces chiffres, 174 contre 105. C’est une différence d’erreur totale d’environ 65. Donc: pas forcément incroyable, mais comme le notent les responsables de Data-Science, ce bond en avant peut être considérable. Bien sûr, une validation r² serait préférable à mon avis pour ce type de comparaison.

Afficher plus

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Articles similaires

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page
Fermer