Calculateur de Régression Linéaire

Modèles de Régression et de Prédiction

Saisissez vos points de données sous forme de paires (x, y) pour calculer la ligne de meilleur ajustement et d'autres métriques statistiques.

Exemples

Utilisez ces exemples pour voir comment fonctionne le calculateur.

Heures d'Étude vs. Score d'Examen

Corrélation Positive Simple

Un ensemble de données simple montrant une corrélation positive entre les heures d'étude et les scores d'examen.

Points de Données :

1, 65 2, 70 3, 75 4, 85 5, 90

Âge de la Voiture vs. Valeur

Corrélation Négative Simple

Un ensemble de données illustrant que lorsqu'une voiture vieillit, sa valeur tend à diminuer.

Points de Données :

1, 20000 2, 18000 3, 16500 5, 12000 8, 7000

Taille de Chaussure vs. QI

Aucune Corrélation

Un ensemble de données montrant deux variables qui ne sont pas censées avoir de corrélation.

Points de Données :

8, 110 9, 95 10, 120 11, 105 12, 100

Taille de Maison vs. Prix

Données Immobilières

Un ensemble de données de taille de maison (en pieds carrés) et son prix de marché (en milliers).

Points de Données :

1400, 245 1600, 312 1700, 279 1875, 308 2100, 405 2500, 450
Autres titres
Comprendre la Régression Linéaire : Un Guide Complet
Explorez les principes de la régression linéaire, ses applications et comment interpréter les résultats de ce calculateur.

Qu'est-ce que la Régression Linéaire ?

  • Définition de la Régression Linéaire
  • La Ligne de Meilleur Ajustement
  • Composants Clés de l'Équation de Régression
La régression linéaire est une technique statistique et d'apprentissage automatique fondamentale utilisée pour modéliser la relation entre une variable dépendante et une ou plusieurs variables indépendantes. L'objectif est de trouver une équation linéaire qui prédit le mieux la valeur de la variable dépendante basée sur la valeur de la variable indépendante(s). Dans sa forme la plus simple, la régression linéaire simple, nous utilisons une seule variable indépendante (X) pour prédire une seule variable dépendante (Y).
La Ligne de Meilleur Ajustement
Le cœur de la régression linéaire est de trouver la 'ligne de meilleur ajustement'. C'est une ligne droite qui passe à travers un nuage de points de données d'une manière qui minimise la distance entre la ligne et chaque point de données. La méthode la plus courante pour déterminer cette ligne est la 'Méthode des Moindres Carrés', qui vise à minimiser la somme des distances verticales au carré (résidus) des points par rapport à la ligne.
L'Équation de Régression : y = mx + c
Le résultat d'une analyse de régression linéaire est une équation linéaire de la forme y = mx + c, où :
y : La valeur prédite de la variable dépendante.
x : La valeur de la variable indépendante.
m (Pente) : Représente le changement en y pour un changement d'une unité en x. Une pente positive signifie que y augmente quand x augmente, tandis qu'une pente négative signifie que y diminue quand x augmente.
c (Ordonnée à l'Origine) : La valeur de y quand x est 0. C'est le point où la ligne de régression croise l'axe des y.

Exemples Conceptuels

  • Prédire le score final d'examen d'un étudiant basé sur le nombre d'heures qu'il a étudié.
  • Estimer le prix d'une maison basé sur sa superficie en pieds carrés.
  • Prévoir les ventes d'une entreprise pour le prochain trimestre basé sur son budget publicitaire.

Guide Étape par Étape pour Utiliser le Calculateur

  • Saisir Vos Données
  • Faire des Prédictions
  • Interpréter les Résultats
1. Saisir Vos Données

Dans la zone de texte 'Points de Données (x, y)', saisissez vos données appariées. Chaque paire doit être sur une nouvelle ligne. Vous pouvez séparer les valeurs x et y avec soit une virgule soit un espace. Par exemple, pour saisir les points (1, 2), (3, 5), et (4, 7), vous taperiez : 1, 2 3, 5 4, 7

2. Faire des Prédictions (Optionnel)
Si vous voulez prédire une valeur y pour une valeur x spécifique qui n'est pas dans votre ensemble de données original, saisissez cette valeur x dans le champ 'Prédire Y pour un X donné'. Le calculateur utilisera l'équation de régression générée pour calculer le y prédit.
3. Interpréter les Résultats
Après avoir cliqué sur 'Calculer', vous verrez plusieurs métriques clés :
Équation de Régression : La formule pour la ligne de meilleur ajustement.
Pente (m) & Ordonnée à l'Origine (c) : Les composants principaux de votre équation.
Coefficient de Corrélation (r) : Une valeur entre -1 et 1 qui mesure la force et la direction de la relation linéaire. Une valeur proche de 1 ou -1 indique une relation forte, tandis qu'une valeur proche de 0 indique une relation faible ou aucune relation linéaire.
Coefficient de Détermination (R²) : Une valeur entre 0 et 1 qui représente la proportion de la variance dans la variable dépendante qui est prévisible à partir de la variable indépendante. Par exemple, un R² de 0,75 signifie que 75% de la variation en y peut être expliquée par la relation linéaire avec x.

Applications Réelles de la Régression Linéaire

  • Économie et Finance
  • Recherche Médicale
  • Entreprise et Marketing
La régression linéaire n'est pas seulement un concept académique ; c'est un outil puissant utilisé dans de nombreuses industries.
Économie et Finance
Elle est utilisée pour modéliser les relations entre les variables économiques. Par exemple, prédire les dépenses de consommation basées sur le revenu disponible ou analyser l'impact des taux d'intérêt sur les prix du marché boursier.
Recherche Médicale
Les chercheurs l'utilisent pour analyser la relation entre un facteur de risque et un résultat de santé, comme modéliser l'effet de la posologie d'un nouveau médicament sur la réduction de la pression artérielle.
Entreprise et Marketing
Les entreprises utilisent la régression pour prévoir les ventes basées sur les dépenses publicitaires, prédire la performance des employés basée sur les heures de formation, ou comprendre comment la satisfaction client impacte la fidélité.

Cas d'Usage Industriels

  • Un agent immobilier utilisant la régression pour évaluer une maison basée sur ses caractéristiques (taille, emplacement, etc.).
  • Une compagnie d'assurance prédisant le montant de réclamation pour un assuré basé sur son âge et son historique de conduite.
  • Un agriculteur estimant le rendement des cultures basé sur la quantité de pluie et d'engrais utilisée.

Dérivation Mathématique et Formules

  • La Méthode des Moindres Carrés
  • Formule pour la Pente (m)
  • Formule pour l'Ordonnée à l'Origine (c)
Le calculateur trouve la ligne de meilleur ajustement en utilisant la méthode des moindres carrés. Les formules pour calculer la pente (m) et l'ordonnée à l'origine (c) pour un ensemble de n points de données (x, y) sont dérivées de cette méthode.
Formule pour la Pente (m)
m = (nΣ(xy) - ΣxΣy) / (nΣ(x²) - (Σx)²)
Formule pour l'Ordonnée à l'Origine (c)
c = (Σy - mΣx) / n
Formule pour le Coefficient de Corrélation (r)
r = (nΣ(xy) - ΣxΣy) / √[(nΣ(x²) - (Σx)²)(nΣ(y²) - (Σy)²)]
Où Σx est la somme de toutes les valeurs x, Σy est la somme de toutes les valeurs y, Σxy est la somme des produits des valeurs x et y correspondantes, Σx² est la somme des valeurs x au carré, et Σy² est la somme des valeurs y au carré.

Pièges Courants et Bonnes Pratiques

  • Corrélation vs. Causalité
  • Le Danger de l'Extrapolation
  • Vérifier la Linéarité
La Corrélation n'est Pas la Causalité
Une erreur courante est de supposer que parce que deux variables sont fortement corrélées, l'une doit causer l'autre. La régression linéaire ne peut montrer que la force d'une relation ; elle ne peut pas prouver la causalité. Il pourrait y avoir une troisième variable non observée (une variable cachée) qui influence les deux.
Le Danger de l'Extrapolation
L'extrapolation signifie faire des prédictions en dehors de la plage de vos données originales. Par exemple, si vos données pour les tailles de maison sont entre 1000 et 3000 pieds carrés, utiliser votre modèle pour prédire le prix d'un manoir de 6000 pieds carrés peut être très inexact. La relation linéaire pourrait ne pas tenir pour des valeurs loin de la plage observée.
Toujours Visualiser Vos Données
Avant d'effectuer une régression, il est crucial de créer un nuage de points de vos données. Cela vous aide à confirmer visuellement si une relation linéaire est appropriée. Les données pourraient avoir un motif non linéaire (ex., une courbe), ou il pourrait y avoir des valeurs aberrantes significatives qui pourraient fortement fausser les résultats. Le quartet d'Anscombe est un exemple célèbre démontrant pourquoi visualiser les données est critique.