Machine Learning

ML Academy

✦ Cours complet de ML

Maîtrise le
Machine Learning

Tous tes guides de révision réunis en un seul endroit. Comprends les algorithmes, entraîne-toi avec le quiz, et accède aux vidéos du cours.

4 algorithmes
25 questions quiz
3 vidéos embed

Modules disponibles

01
Vidéos du cours

3 vidéos YouTube intégrées directement. Regarde les explications visuelles des algorithmes.

02
Guide Survie Niveau 0

L'essentiel sans jargon. Comprends l'esprit du ML avec des analogies du quotidien.

03
Guide Méthodologique

Chaque algorithme pas à pas avec ses formules. Pour l'examen, c'est ton arme principale.

04
Mémo & Synthèse

Les fiches récap condensées avec checklist d'examen et détails algorithmiques.

05
Méga Quiz (25 Questions)

Teste tes connaissances sur tous les chapitres. Score final + explications détaillées.

Vidéos du cours

Regardes les vidéos directement ici

KNN & Fondements
Introduction au Machine Learning
Régression Logistique
Régression Logistique & Log Loss
Arbres de Décision
Arbres de Décision & Gini

Guide de Survie — Niveau Zéro

Comprendre l'essence du ML sans jargon ni prérequis

C'est quoi l'idée générale ?

En informatique classique, pour résoudre un problème, tu écris des règles strictes (ex: si l'âge > 18 alors…). Tu donnes les règles et les données à l'ordinateur, et il te sort la réponse.

En Machine Learning, on fait l'inverse : on ne donne aucune règle à l'ordinateur. On lui donne une tonne d'exemples historiques (les questions ET les bonnes réponses), et c'est l'ordinateur qui doit découvrir tout seul la règle logique sous-jacente.

💡 L'analogie simple

C'est exactement comme un enfant à qui on montre 50 photos de chats et 50 photos de chiens. On ne lui explique pas mathématiquement ce qu'est un félin. Au bout d'un moment, son cerveau repère les points communs et construit sa propre règle pour distinguer un chien d'un chat.

Le Traducteur Automatique de Mots Barbares

Si tu n'as jamais ouvert un cours, ces mots vont tomber à l'examen. Voici ce qu'ils veulent dire en français de tous les jours :

Features (X)

Ce sont les indices ou critères descriptifs. Pour deviner le prix d'une voiture : sa marque, son kilométrage, son année.

Target (y)

C'est la chose que tu cherches à deviner. La réponse finale. Dans l'exemple, c'est le prix de la voiture.

Supervisé

Ton fichier de départ contient des données libellées : tu connais déjà les réponses (la Target y) de l'historique.

Classification

Tu cherches à deviner une catégorie textuelle (ex: Oui/Non, Vrai/Faux, Pomme/Banane).

Régression

Tu cherches à deviner un chiffre continu (ex: une température, un prix, une distance).

Overfitting

Le «surapprentissage». Le modèle a tellement appris par cœur ses exemples qu'il échoue sur de nouvelles données inédites.

Les 4 algorithmes expliqués simplement

1. KNN (K-Nearest Neighbors)

🏘️ L'analogie

Tu emménages dans un nouveau quartier et tu cherches pour qui voter. Tu vas voir les K = 3 voisins les plus proches de ta maison. Si deux votent à gauche et un à droite, tu votes à gauche par mimétisme de proximité. C'est ça, le KNN.

2. Régression Logistique

Ne te laisse pas piéger par le mot «Régression» — elle sert à faire de la Classification binaire (0 ou 1).

💡 L'analogie

C'est un interrupteur intelligent. Elle dessine une courbe en S (la sigmoïde) qui s'écrase proprement entre 0 (Échec certain) et 1 (Réussite certaine). Elle te donne le pourcentage de chance de basculer d'un état à l'autre.

3. Naïve Bayes

C'est le pro des probabilités et du tri de texte (détecter si un mail est un Spam ou non).

🔍 Pourquoi «naïf» ?

Il analyse chaque indice de manière totalement isolée. S'il voit «Gagner» et «Millions», il calcule la probabilité de spam pour chaque mot indépendamment, comme si les mots n'avaient aucun lien logique. C'est faux dans la vraie vie, mais mathématiquement ultra-rapide et efficace.

4. Arbres de Décision

L'équivalent informatique du jeu «Qui est-ce ?».

🌳 L'analogie

L'algorithme cherche la question parfaite pour couper le groupe en deux (ex: masse > 100g ?). Par convention à l'examen, si la réponse est Oui → branche gauche. On descend de question en question jusqu'à arriver sur une réponse finale certaine (une feuille pure).

Plan d'action face à la feuille d'examen

  1. Regarde l'objectif : Prédit-on un mot/état (Classification) ou un prix/chiffre (Régression) ?
  2. Calculs de résidus au carré : Tu es dans un Arbre de Régression. Trouve la coupure avec le SSR le plus bas.
  3. Fractions et proportions : Tu es dans un Arbre de Classification. Calcule l'impureté de Gini 1 - Σp². Cherche la coupure qui se rapproche de 0.
  4. Textes, mails ou événements dépendants/indépendants : Direction les formules de Naïve Bayes.

Guide d'Exécution Méthodologique

Calculer pas à pas pour l'examen

1. Fondations Théoriques & Typologie

Pour aborder n'importe quel énoncé d'examen, la première compétence est l'identification précise de la structure du problème.

Comment analyser un énoncé ?

Étape 1 : Cartographier les données (X et y)

Recherche quelles variables servent à décrire le phénomène (les Features X) et quelle variable on cherche à anticiper (la Target y).

Étape 2 : Déterminer la nature de la Target (y)
  • Si y est une catégorie / étiquette textuelle (OUI/NON, Pomme/Orange…) → Classification.
  • Si y est un nombre continu (prix, kilométrage, quantité…) → Régression.

Supervisé vs Non Supervisé

Un modèle supervisé réclame un historique où la réponse (y) est connue. À l'inverse, un modèle non supervisé (clustering) explore uniquement les Features (X) pour regrouper les données par similitude, sans guidage externe.

2. K-Nearest Neighbors (KNN)

ClassificationRégression

Le KNN base sa prédiction uniquement sur l'hypothèse géométrique que les données proches partagent des propriétés similaires. C'est un modèle d'instance (Lazy Learner).

Comment exécuter manuellement un calcul KNN ?

Étape 1 : Calculer les distances Euclidiennes

Pour un nouveau point inconnu P(X₁, X₂) et un point du dataset A(A₁, A₂) :

Distance = √[ (X₁ - A₁)² + (X₂ - A₂)² ]
Étape 2 : Trier et Sélectionner les K Voisins

Classe toutes les distances calculées par ordre croissant. Isole les K lignes avec les distances les plus petites.

Étape 3 : Synthétiser pour prédire
  • Classification : Compte les occurrences de chaque catégorie parmi les K voisins. Choisis la catégorie majoritaire (le Mode).
  • Régression : Fais la moyenne arithmétique des valeurs numériques cibles des K voisins.

3. Régression Logistique & Log Loss

Classification Binaire

Pourquoi ne pas utiliser une régression linéaire pour classifier ? Une ligne droite projette des valeurs de -∞ à +∞, impossible à interpréter comme une probabilité, et elle subit une forte distorsion en présence de valeurs aberrantes.

Comment calculer la perte (Log Loss) ?

Loss = -y · ln(y_pred) - (1 - y) · ln(1 - y_pred)

Exemple pas à pas

Cas A : L'étudiant a RÉUSSI (y = 1). Modèle estime 80% de chances (y_pred = 0.8).
Le terme droit s'annule (multiplié par 0).

Loss = -1 · ln(0.8) = -1 · (-0.223) = 0.223

Cas B : L'étudiant a ÉCHOUÉ (y = 0). Modèle prédit 90% de réussite (y_pred = 0.9).
Le terme gauche s'annule.

Loss = -(1 - 0) · ln(1 - 0.9) = -1 · ln(0.1) = 2.302

Observation : L'erreur du Cas B (2.302) est bien plus lourde car le modèle a affirmé avec force une fausse prédiction.

4. Naïve Bayes — Mécanique Probabiliste

Classification

Naïve Bayes s'appuie sur le théorème de Bayes pour évaluer la probabilité qu'une observation appartienne à une classe au vu de ses caractéristiques.

Comprendre l'hypothèse «Naïve»

L'algorithme suppose que la présence d'une caractéristique est totalement indépendante de toute autre. C'est ce qui simplifie la formule mathématique en une multiplication de probabilités isolées.

Probabilité conditionnelle d'un mot

P(Mot | Classe) = Nbre d'occurrences du Mot dans cette Classe / Nbre total de mots de cette Classe
Rappel : Nature des événements
  • Événement Indépendant : Le résultat d'un lancer de dé ne modifie pas le suivant.
  • Événement Dépendant : Tirer une carte sans remise modifie la composition du paquet pour le tirage suivant.

5. Arbre de Régression (SSR)

Régression

Pour scinder une variable continue, on cherche le seuil de coupure minimisant les écarts résiduels.

Algorithme pas à pas pour calculer le SSR

Étape 1 : Choisir un séparateur test

Prends un seuil (ex: nb. km < 2.5). Divise en groupe Gauche (Oui) et groupe Droite (Non).

Étape 2 : Calculer la moyenne locale de chaque nœud

Calcule la valeur cible moyenne des individus à gauche (M_g) et à droite (M_d).

Étape 3 : Calculer les résidus et la somme des carrés
SSR_total = Σgauche (y_réel - M_g)² + Σdroite (y_réel - M_d)²

L'algorithme teste toutes les coupures possibles et retient celle qui produit le SSR le plus bas.

6. Arbre de Classification (Gini)

Classification

Un arbre de classification cherche des feuilles les plus homogènes possibles (un seul type de classe). On mesure cela via l'impureté de Gini.

Formule fondamentale

Gini = 1 - Σ (p_i)²

p_i est la proportion d'éléments de la classe i dans ce nœud.

Calculer le gain d'un découpage

Étape 1 : Gini du nœud parent

Détermine la proportion de chaque classe sur l'ensemble avant la séparation, applique la formule.

Étape 2 : Gini de chaque sous-nœud

Par convention : les «Oui» descendent toujours à gauche. Calcule le Gini interne Gauche et Droite.

Étape 3 : Impureté Totale Pondérée
Gini_pondéré = (N_g / N_total) · Gini_g + (N_d / N_total) · Gini_d

Plus ce score est bas, plus la scission est performante. Un Gini de 0 = nœud pur = Feuille définitive.

Mémo & Synthèse

Fiches condensées + checklist d'examen

Checklist impérative pour le jour de l'examen

✦ Ce que tu dois SAVOIR faire (Calculs)

  • KNN : Appliquer la distance Euclidienne pour extraire les K plus proches voisins.
  • Log Loss : Maîtriser l'évaluation de la perte selon que la vraie classe y vaut 1 ou 0.
  • Naïve Bayes : Calculer des probabilités à partir de décomptes ou de fréquences.
  • Arbre de Régression (SSR) : Calculer la moyenne des sous-groupes, les résidus au carré, sommer pour trouver la coupure optimale.
  • Arbre de Classification (Gini) : Déterminer l'impureté de Gini pondérée après séparation.

✦ Ce que tu dois COMPRENDRE (Concepts)

  • La différence entre apprentissage supervisé (données libellées) et non supervisé (clustering).
  • Pourquoi KNN est un Lazy Learner (aucune fonction mathématique lors de l'entraînement).
  • Pourquoi la régression linéaire échoue à faire de la classification binaire.
  • Pourquoi Naïve Bayes est «naïf» (hypothèse stricte d'indépendance statistique).
  • La nomenclature des arbres : Racine, Nœuds internes, Branches, Feuilles.

1. ML & KNN

Deux informations fondamentales :

  • Features (X) : Variables prédictives.
  • Target (y) : La cible à prédire.

KNN

  1. Calculer la distance euclidienne vers tous les points.
  2. Trier les distances par ordre croissant.
  3. Sélectionner les K premiers voisins.
  4. Régression → Moyenne. Classification → Vote majoritaire (Mode).

Métriques d'erreur : MSE et MAE. Plus proche de 0 = meilleure qualité.

2. Régression Logistique

Malgré son nom, c'est un algorithme de Classification binaire (0 ou 1). On ne peut pas appliquer une régression linéaire car les prédictions s'étendraient en dehors de l'intervalle [0, 1].

Log Loss

Loss = -y · ln(ypred) - (1 - y) · ln(1 - ypred)
  • y = 1 : Perte = -ln(y_pred)
  • y = 0 : Perte = -ln(1 - y_pred)

3. Naïve Bayes

Classifieur probabiliste basé sur le Théorème de Bayes. Couramment déployé pour le filtrage textuel (Spam vs Non-Spam).

Hypothèse «Naïve»

Indépendance absolue de toutes les variables. Faux en pratique, mais remarquablement efficace.

Nature des événements

  • Indépendant : Lancer une pièce — le passé n'influence pas le futur.
  • Dépendant : Tirer une bille sans remise — la composition change.

4. Arbres de Décision

Structure hiérarchique : Racine → Nœuds internes → Branches → Feuilles. Les «Oui» vont à gauche par convention.

Arbre de Régression

SSR = Σ (Valeur Réelle - Moyenne du Nœud)2

Arbre de Classification

Gini = 1 - Σ (pi)2

Gini = 0 → Nœud pur → Feuille terminale.

Méga Quiz — 25 Questions

Teste toutes tes connaissances avec explications

Question 1 / 25 Score : 0

Explication

🎓
0 / 25