Maîtrise le
Machine Learning
Tous tes guides de révision réunis en un seul endroit. Comprends les algorithmes, entraîne-toi avec le quiz, et accède aux vidéos du cours.
Modules disponibles
3 vidéos YouTube intégrées directement. Regarde les explications visuelles des algorithmes.
L'essentiel sans jargon. Comprends l'esprit du ML avec des analogies du quotidien.
Chaque algorithme pas à pas avec ses formules. Pour l'examen, c'est ton arme principale.
Les fiches récap condensées avec checklist d'examen et détails algorithmiques.
Teste tes connaissances sur tous les chapitres. Score final + explications détaillées.
Vidéos du cours
Regardes les vidéos directement ici
Guide de Survie — Niveau Zéro
Comprendre l'essence du ML sans jargon ni prérequis
C'est quoi l'idée générale ?
En informatique classique, pour résoudre un problème, tu écris des règles strictes (ex: si l'âge > 18 alors…). Tu donnes les règles et les données à l'ordinateur, et il te sort la réponse.
En Machine Learning, on fait l'inverse : on ne donne aucune règle à l'ordinateur. On lui donne une tonne d'exemples historiques (les questions ET les bonnes réponses), et c'est l'ordinateur qui doit découvrir tout seul la règle logique sous-jacente.
C'est exactement comme un enfant à qui on montre 50 photos de chats et 50 photos de chiens. On ne lui explique pas mathématiquement ce qu'est un félin. Au bout d'un moment, son cerveau repère les points communs et construit sa propre règle pour distinguer un chien d'un chat.
Le Traducteur Automatique de Mots Barbares
Si tu n'as jamais ouvert un cours, ces mots vont tomber à l'examen. Voici ce qu'ils veulent dire en français de tous les jours :
Ce sont les indices ou critères descriptifs. Pour deviner le prix d'une voiture : sa marque, son kilométrage, son année.
C'est la chose que tu cherches à deviner. La réponse finale. Dans l'exemple, c'est le prix de la voiture.
Ton fichier de départ contient des données libellées : tu connais déjà les réponses (la Target y) de l'historique.
Tu cherches à deviner une catégorie textuelle (ex: Oui/Non, Vrai/Faux, Pomme/Banane).
Tu cherches à deviner un chiffre continu (ex: une température, un prix, une distance).
Le «surapprentissage». Le modèle a tellement appris par cœur ses exemples qu'il échoue sur de nouvelles données inédites.
Les 4 algorithmes expliqués simplement
1. KNN (K-Nearest Neighbors)
Tu emménages dans un nouveau quartier et tu cherches pour qui voter. Tu vas voir les K = 3 voisins les plus proches de ta maison. Si deux votent à gauche et un à droite, tu votes à gauche par mimétisme de proximité. C'est ça, le KNN.
2. Régression Logistique
Ne te laisse pas piéger par le mot «Régression» — elle sert à faire de la Classification binaire (0 ou 1).
C'est un interrupteur intelligent. Elle dessine une courbe en S (la sigmoïde) qui s'écrase proprement entre 0 (Échec certain) et 1 (Réussite certaine). Elle te donne le pourcentage de chance de basculer d'un état à l'autre.
3. Naïve Bayes
C'est le pro des probabilités et du tri de texte (détecter si un mail est un Spam ou non).
Il analyse chaque indice de manière totalement isolée. S'il voit «Gagner» et «Millions», il calcule la probabilité de spam pour chaque mot indépendamment, comme si les mots n'avaient aucun lien logique. C'est faux dans la vraie vie, mais mathématiquement ultra-rapide et efficace.
4. Arbres de Décision
L'équivalent informatique du jeu «Qui est-ce ?».
L'algorithme cherche la question parfaite pour couper le groupe en deux (ex: masse > 100g ?). Par convention à l'examen, si la réponse est Oui → branche gauche. On descend de question en question jusqu'à arriver sur une réponse finale certaine (une feuille pure).
Plan d'action face à la feuille d'examen
- Regarde l'objectif : Prédit-on un mot/état (Classification) ou un prix/chiffre (Régression) ?
- Calculs de résidus au carré : Tu es dans un Arbre de Régression. Trouve la coupure avec le SSR le plus bas.
- Fractions et proportions : Tu es dans un Arbre de Classification. Calcule l'impureté de Gini
1 - Σp². Cherche la coupure qui se rapproche de 0. - Textes, mails ou événements dépendants/indépendants : Direction les formules de Naïve Bayes.
Guide d'Exécution Méthodologique
Calculer pas à pas pour l'examen
1. Fondations Théoriques & Typologie
Pour aborder n'importe quel énoncé d'examen, la première compétence est l'identification précise de la structure du problème.
Comment analyser un énoncé ?
Recherche quelles variables servent à décrire le phénomène (les Features X) et quelle variable on cherche à anticiper (la Target y).
- Si y est une catégorie / étiquette textuelle (OUI/NON, Pomme/Orange…) → Classification.
- Si y est un nombre continu (prix, kilométrage, quantité…) → Régression.
Supervisé vs Non Supervisé
Un modèle supervisé réclame un historique où la réponse (y) est connue. À l'inverse, un modèle non supervisé (clustering) explore uniquement les Features (X) pour regrouper les données par similitude, sans guidage externe.
2. K-Nearest Neighbors (KNN)
ClassificationRégressionLe KNN base sa prédiction uniquement sur l'hypothèse géométrique que les données proches partagent des propriétés similaires. C'est un modèle d'instance (Lazy Learner).
Comment exécuter manuellement un calcul KNN ?
Pour un nouveau point inconnu P(X₁, X₂) et un point du dataset A(A₁, A₂) :
Classe toutes les distances calculées par ordre croissant. Isole les K lignes avec les distances les plus petites.
- Classification : Compte les occurrences de chaque catégorie parmi les K voisins. Choisis la catégorie majoritaire (le Mode).
- Régression : Fais la moyenne arithmétique des valeurs numériques cibles des K voisins.
3. Régression Logistique & Log Loss
Classification BinairePourquoi ne pas utiliser une régression linéaire pour classifier ? Une ligne droite projette des valeurs de -∞ à +∞, impossible à interpréter comme une probabilité, et elle subit une forte distorsion en présence de valeurs aberrantes.
Comment calculer la perte (Log Loss) ?
Exemple pas à pas
Cas A : L'étudiant a RÉUSSI (y = 1). Modèle estime 80% de chances (y_pred = 0.8).
Le terme droit s'annule (multiplié par 0).
Cas B : L'étudiant a ÉCHOUÉ (y = 0). Modèle prédit 90% de réussite (y_pred = 0.9).
Le terme gauche s'annule.
Observation : L'erreur du Cas B (2.302) est bien plus lourde car le modèle a affirmé avec force une fausse prédiction.
4. Naïve Bayes — Mécanique Probabiliste
ClassificationNaïve Bayes s'appuie sur le théorème de Bayes pour évaluer la probabilité qu'une observation appartienne à une classe au vu de ses caractéristiques.
Comprendre l'hypothèse «Naïve»
L'algorithme suppose que la présence d'une caractéristique est totalement indépendante de toute autre. C'est ce qui simplifie la formule mathématique en une multiplication de probabilités isolées.
Probabilité conditionnelle d'un mot
- Événement Indépendant : Le résultat d'un lancer de dé ne modifie pas le suivant.
- Événement Dépendant : Tirer une carte sans remise modifie la composition du paquet pour le tirage suivant.
5. Arbre de Régression (SSR)
RégressionPour scinder une variable continue, on cherche le seuil de coupure minimisant les écarts résiduels.
Algorithme pas à pas pour calculer le SSR
Prends un seuil (ex: nb. km < 2.5). Divise en groupe Gauche (Oui) et groupe Droite (Non).
Calcule la valeur cible moyenne des individus à gauche (M_g) et à droite (M_d).
L'algorithme teste toutes les coupures possibles et retient celle qui produit le SSR le plus bas.
6. Arbre de Classification (Gini)
ClassificationUn arbre de classification cherche des feuilles les plus homogènes possibles (un seul type de classe). On mesure cela via l'impureté de Gini.
Formule fondamentale
Où p_i est la proportion d'éléments de la classe i dans ce nœud.
Calculer le gain d'un découpage
Détermine la proportion de chaque classe sur l'ensemble avant la séparation, applique la formule.
Par convention : les «Oui» descendent toujours à gauche. Calcule le Gini interne Gauche et Droite.
Plus ce score est bas, plus la scission est performante. Un Gini de 0 = nœud pur = Feuille définitive.
Mémo & Synthèse
Fiches condensées + checklist d'examen
Checklist impérative pour le jour de l'examen
✦ Ce que tu dois SAVOIR faire (Calculs)
- KNN : Appliquer la distance Euclidienne pour extraire les K plus proches voisins.
- Log Loss : Maîtriser l'évaluation de la perte selon que la vraie classe y vaut 1 ou 0.
- Naïve Bayes : Calculer des probabilités à partir de décomptes ou de fréquences.
- Arbre de Régression (SSR) : Calculer la moyenne des sous-groupes, les résidus au carré, sommer pour trouver la coupure optimale.
- Arbre de Classification (Gini) : Déterminer l'impureté de Gini pondérée après séparation.
✦ Ce que tu dois COMPRENDRE (Concepts)
- La différence entre apprentissage supervisé (données libellées) et non supervisé (clustering).
- Pourquoi KNN est un Lazy Learner (aucune fonction mathématique lors de l'entraînement).
- Pourquoi la régression linéaire échoue à faire de la classification binaire.
- Pourquoi Naïve Bayes est «naïf» (hypothèse stricte d'indépendance statistique).
- La nomenclature des arbres : Racine, Nœuds internes, Branches, Feuilles.
1. ML & KNN
Deux informations fondamentales :
- Features (X) : Variables prédictives.
- Target (y) : La cible à prédire.
KNN
- Calculer la distance euclidienne vers tous les points.
- Trier les distances par ordre croissant.
- Sélectionner les K premiers voisins.
- Régression → Moyenne. Classification → Vote majoritaire (Mode).
Métriques d'erreur : MSE et MAE. Plus proche de 0 = meilleure qualité.
2. Régression Logistique
Malgré son nom, c'est un algorithme de Classification binaire (0 ou 1). On ne peut pas appliquer une régression linéaire car les prédictions s'étendraient en dehors de l'intervalle [0, 1].
Log Loss
- y = 1 : Perte = -ln(y_pred)
- y = 0 : Perte = -ln(1 - y_pred)
3. Naïve Bayes
Classifieur probabiliste basé sur le Théorème de Bayes. Couramment déployé pour le filtrage textuel (Spam vs Non-Spam).
Hypothèse «Naïve»
Indépendance absolue de toutes les variables. Faux en pratique, mais remarquablement efficace.
Nature des événements
- Indépendant : Lancer une pièce — le passé n'influence pas le futur.
- Dépendant : Tirer une bille sans remise — la composition change.
4. Arbres de Décision
Structure hiérarchique : Racine → Nœuds internes → Branches → Feuilles. Les «Oui» vont à gauche par convention.
Arbre de Régression
Arbre de Classification
Gini = 0 → Nœud pur → Feuille terminale.
Méga Quiz — 25 Questions
Teste toutes tes connaissances avec explications