Régression logistique - Aperçu détaillé | Guinguette Marais Poitevin

Figure 1 : Modèle de régression logistique (Source:http://dataaspirant.com/2017/03/02/how-logistic-regression-model-works/)

La régression logistique a été utilisée dans les sciences biologiques au début du XXe siècle. Elle a ensuite été utilisée dans de nombreuses applications des sciences sociales. La régression logistique est utilisée lorsque la variable dépendante (cible) est catégorique.

Par exemple,

Prédire si un courriel est un spam (1) ou (0)
Si la tumeur est maligne (1) ou non (0)

Envisageons un scénario où nous devons classer si un courriel est un spam ou non. Si nous utilisons la régression linéaire pour ce problème, il est nécessaire de mettre en place un seuil sur la base duquel la classification peut être faite. Disons que si la classe réelle est maligne, la valeur continue prédite 0,4 et la valeur seuil est de 0,5, le point de données sera classé comme non malin, ce qui peut entraîner une conséquence grave en temps réel.

De cet exemple, on peut déduire que la régression linéaire ne convient pas au problème de classification. La régression linéaire n’est pas bornée, ce qui fait entrer en scène la régression logistique. Leur valeur est strictement comprise entre 0 et 1.

Régression logistique simple

(Code source complet : https://github.com/SSaishruthi/LogisticRegression_Vectorized_Implementation/blob/master/Logistic_Regression.ipynb)

Modèle

Sortie = 0 ou 1

Hypothèse => Z = WX + B

hΘ(x) = sigmoïde (Z)

Sigmoïde. Fonction