Les Systèmes de Recommandation
Comment Netflix, Spotify et YouTube savent ce que tu vas aimer.
Ces formules mathématiques aident les ordinateurs à faire ça en comparant tes goûts avec ceux des autres personnes. Voici une explication claire et accessible de la mécanique sous le capot !
1. La Similarité entre Deux Utilisateurs (Pearson)
sim(u, v) = Σ(i ∈ Iuv)(ru,i - rˉu)(rv,i - rˉv) / √[Σ(i ∈ Iuv)(ru,i - rˉu)²] × √[Σ(i ∈ Iuv)(rv,i - rˉv)²]
Définition des variables :
sim(u, v)Score de similarité entre u et v (-1 à +1). +1=mêmes goûts, 0=aucun lien, -1=goûts opposés.IuvTous les films que VOUS DEUX avez notés.ru,iLa note que tu as donnée au film i (ex: 4 étoiles).rˉuTa note moyenne (ex: 3,5 étoiles).rv,iLa note que Thomas a donnée au film i.rˉvLa note moyenne de Thomas.
Comment ça marche :
Imagine que toi et Thomas notez les mêmes films de 1 à 5 étoiles. Pour chaque film, on calcule l'écart avec votre moyenne personnelle, on les multiplie, puis on normalise le tout pour obtenir un score entre -1 et +1.
Exemple concret :
| Film | Ta note | rˉu | ta - rˉu | Note Thomas | rˉv | sa - rˉv | Produit |
|---|---|---|---|---|---|---|---|
| Avengers | 5 | 3,5 | +1,5 | 5 | 3,5 | +1,5 | +2,25 |
| Toy Story | 2 | 3,5 | -1,5 | 2 | 3,5 | -1,5 | +2,25 |
| Raiponce | 4 | 3,5 | +0,5 | 4 | 3,5 | +0,5 | +0,25 |
2. La Similarité Cosinus (Angle entre Vecteurs)
sim(x, y) = cos(θ) = (x · y) / (‖x‖ × ‖y‖) Ou : Σ(xi × yi) / √[Σ(xi²)] × √[Σ(yi²)]
sim(x, y)Similarité entre le vecteur x et y (0 à 1).cos(θ)Le cosinus de l'angle entre les directions.x · yLe produit scalaire (on multiplie et additionne).‖x‖La norme (longueur) du vecteur x.
Imagine deux flèches :
- Même direction → angle petit → cosinus ≈ 1 → Très similaires
- Perpendiculaires → angle 90° → cosinus = 0 → Pas similaires
- Opposées → angle 180° → cosinus = -1 → Opposées
3. L'Indice de Jaccard (Ensemble)
J(A, B) = |A ∩ B| / |A ∪ B|
A ∩ BL'intersection : les éléments dans A ET dans B (en commun).A ∪ BL'union : TOUS les éléments différents de A et B.
Exemple (Boîtes de bonbons) :
Tes films = {Avengers, Toy Story, Raiponce}.
Films Thomas = {Avengers, Raiponce, Nemo}.
En commun = 2. Total différents = 4.
Jaccard = 2 / 4 = 0,5 (50% de similarité).
4. Prédiction de Notation
Basée Utilisateur
1. Prends ta moyenne.
2. Regarde tes amis similaires.
3. Ajuste selon ce qu'ils ont pensé du film, pondéré par votre similarité.
Basée Item
1. Trouve les films qui ressemblent à celui-ci.
2. Regarde la note que TU as donnée à ces films similaires.
3. Fais une moyenne pondérée.
5. Factorisation de Matrice (La Méthode Secrète)
Au lieu de noter directement les films, on utilise des caractéristiques cachées (facteurs latents) comme "comédie", "action".
Modèle de Base
r̂ui = qi^T × pu
qiProfil du film (ex: [comédie=8, action=9]).puTon profil (ex: [j'aime_comédie=2, j'aime_action=9]).
Modèle Amélioré avec Biais
r̂ui = μ + bu + bi + qi^T × pu
μMoyenne globale.bu / biBiais utilisateur (tu notes généreusement) / Biais film (film très populaire).
6. Fonction de Coût (L'ordinateur apprend)
L'ordinateur essaie de trouver les meilleurs profils p et q pour réduire l'erreur totale entre les prédictions et les vraies notes. Le λ empêche de tricher (surapprentissage).
7. Mesurer la Qualité (RMSE & MAE)
RMSE
Erreur Quadratique Moyenne. Punit fortement les très grosses erreurs.
MAE
Erreur Absolue Moyenne. Traite toutes les erreurs proportionnellement.
8 & 9. Décomposition & Facto Standard
On multiplie chaque facteur de l'utilisateur par le facteur du film, puis on additionne. Par exemple, (Ton_goût_Action × Action_du_Film) + (Ton_goût_Comédie × Comédie_du_Film).
Standard avec Biais complet :
r̂ui = μ + bu + bi + qi^T × pu
10 & 11. Funk SVD et SVD++
10. Funk SVD
A = U × Σ × V^T
Technique pour casser la grande matrice pleine de trous (notes manquantes) en trois matrices denses plus petites (profils).
11. SVD++ (Facteurs Implicites)
Ajoute les facteurs implicites (yj). Le simple fait que tu aies regardé/noté certains films donne une info sur toi, même si on ignore la note !
12 & 13. Optimisation et SGD
Objectif
min Σ(rui - r̂ui)² + λ(Σ‖pu‖² + Σ‖qi‖² + Σbu² + Σbi²)
Descente de Gradient (SGD)
On corrige nos paramètres à chaque petite erreur eui en faisant un petit pas γ (gamma).
14. Régularisation (Lambda λ)
Le concept clé du Compromis Biais-Variance.
λ = 0
Surapprentissage (Overfitting). Mémorise trop, généralise mal.
λ optimal
L'équilibre parfait pour deviner les nouveaux films.
λ très élevé
Sous-apprentissage (Underfitting). Modèle trop rigide et générique.
15, 16 & 17. RMSE vs MAE : Le Verdict
RMSE (Root Mean Squared Error)
Punit sévèrement les erreurs catastrophiques. Si tu prédis 5 à un film que l'utilisateur déteste (note 1), le carré (4²) fera exploser l'erreur.
Choix métier : Éviter absolument de frustrer l'utilisateur au risque qu'il se désabonne (ex: Netflix).
MAE (Mean Absolute Error)
Totalement linéaire. Une erreur de 2 étoiles compte deux fois plus qu'une erreur de 1 étoile.
Choix métier : Idéal si toutes les erreurs ont un impact proportionnel (ex: prédiction de prix).
18. Vie Privée vs Personnalisation : Le Dilemme de l'IA
Pour être ultra-pertinente, l'IA contextuelle a besoin de savoir où vous êtes, ce que vous faites et avec qui vous êtes. Mais cette soif de données crée une tension majeure : comment offrir une expérience sur mesure sans transformer votre smartphone en un mouchard permanent ?
Le "Privacy Paradox"
Le Paradoxe de la Vie Privée est fascinant : les utilisateurs déclarent accorder une valeur immense à leur anonymat, mais sont souvent prêts à céder leurs données les plus sensibles contre une petite réduction ou une recommandation de film plus rapide. Cette contradiction pousse l'IA à naviguer entre utilité et intrusion.
Les Risques de l'IA Contextuelle (Pourquoi votre historique est-il si sensible ?)
Ré-identification
Même si les données sont 'anonymes', croiser votre lieu et vos horaires suffit souvent à vous identifier à 100%.
Inférences Sensibles
L'IA peut déduire votre état de santé, vos opinions politiques ou votre sexualité juste par vos clics répétitifs.
Catastrophe des Fuites
Une fuite de base de données contextuelle est bien plus grave qu'une fuite de mots de passe : c'est votre vie qui fuite.
Les Solutions : L'IA "Privacy-by-Design"
Confidentialité Différentielle
Masquer l'individu dans la foule. Consiste à ajouter du bruit mathématique aux données avant de les envoyer au serveur.
Apprentissage Fédéré
L'IA apprend les tendances globales sans jamais voir votre comportement exact. Les données restent sur l'appareil.
Traitement Local
Exemple : Apple utilise cette méthode pour savoir quels emojis sont populaires sans savoir lequel VOUS avez envoyé.
Le Cadre Légal : Le RGPD au secours
Le RGPD (Europe) et le CCPA (Californie) imposent désormais la Minimisation des données. Les entreprises ne doivent collecter que le strict nécessaire. Un système de recommandation doit désormais pouvoir expliquer pourquoi il a fait tel choix, rendant l'IA moins opaque.
Continuer la réflexion
Bulles de Filtres
Pourquoi l'IA a-t-elle tendance à nous enfermer dans ce que nous aimons déjà ?
IA Explicable (XAI)
Découvrez comment l'IA apprend à nous dire "Je vous propose ceci car vous avez aimé cela".
19. Les Systèmes d'Équations Linéaires
Un système d'équations est un ensemble d'au moins deux équations que l'on doit résoudre simultanément. Trouver la solution revient à identifier le couple (ex: x, y) qui satisfait toutes les équations en même temps. C'est la base de l'algèbre matricielle utilisée en Machine Learning !
Interprétation géométrique
Chaque équation linéaire représente une droite. Résoudre le système, c'est chercher l'intersection de ces droites.
- Solution unique : Les droites se croisent en un point.
- Aucune solution : Les droites sont parallèles.
- Infinité de solutions : Les droites sont identiques.
Méthodes de résolution
Avantage de la Substitution
x ou -y).
La méthode de substitution pas à pas
- Isoler une inconnue (ex:
x = 5 - y). - Remplacer cette expression dans l'autre équation.
- Résoudre l'équation simple à une inconnue obtenue.
- Déduire la deuxième inconnue en remplaçant la valeur trouvée.
Exemples pas à pas
Exemple 1 : Substitution
(1) x + y = 5
(2) x = 2y
Substituer : (2y) + y = 5
Résoudre : 3y = 5
Calculer y : y = 5/3
Calculer x : x = 2(5/3) = 10/3
Exemple 2 : Combinaison
(1) 2x + y = 7
(2) x - y = 2
Additionner : L1 + L2 -> 3x = 9
Résoudre : x = 3
Isoler y : 2(3) + y = 7
Calculer y : y = 7 - 6 = 1
Aller plus loin
Approche Matricielle
Découvrez comment les matrices (format AX = B) permettent de résoudre des systèmes complexes.
Algorithme de Gauss
Apprenez la méthode du pivot pour traiter les systèmes à 3 inconnues ou plus de manière algorithmique.
Problèmes Concrets
Voyez comment transformer un énoncé en système d'équations (prix, vitesses, mélanges et recettes).