Le Problème
Le défi : Remplir les vides d'une matrice géante et clairsemée.
1, 2, 3. Trouver les Similitudes
Pearson
Mesure si 2 utilisateurs varient de la même façon. +1 (Jumeaux), -1 (Opposés).
Cosinus
L'angle entre deux vecteurs de notes. Si l'angle est nul, goûts identiques.
Jaccard
Pourcentage d'éléments communs (ex: films vus par les deux).
4. La Prédiction
User-Based
« Dis-moi qui sont tes amis... »
Pondère les notes des voisins similaires.
Item-Based
« Si tu aimes Toy Story... »
Utilise la similarité entre les films.
5, 8, 9. Factorisation Matricielle
Au lieu de noter directement, on décrit utilisateurs et films par des caractéristiques cachées (facteurs latents). La grosse matrice se brise en $P$ et $Q$.
- μ Moyenne globale
- b_u Biais utilisateur (ex: critique)
- b_i Biais item (popularité)
- q_i Profil du film
- p_u Profil de l'utilisateur
10, 11. SVD++
Funk SVD
Facteurs Implicites (SVD++)
6, 12, 13. Optimisation & SGD
Fonction de Coût (Minimiser l'erreur)
L'IA ajuste ses profils pour réduire l'erreur globale.
Descente de Gradient (SGD)
- Erreur : $ e_{ui} = r_{ui} - \hat{r}_{ui} $
- Correction : Faire un petit pas ($\gamma$) pour corriger $p_u$ et $q_i$.
- Répéter des millions de fois !
14. Régularisation (λ)
Le Compromis Biais-Variance (empêche de tricher).
λ = 0 (Surapprentissage)
Mémorise trop, généralise mal.
λ optimal
L'équilibre parfait pour les nouveaux films.
λ élevé (Sous-apprentissage)
Modèle trop rigide et générique.
7, 15, 16. Le Bulletin de Notes
RMSE Quadratique
- Pénalise fortement les "catastrophes" (erreur au carré).
- Choix métier : Éviter absolument de frustrer l'utilisateur (ex: Netflix).
MAE Absolue
- Traitement linéaire des erreurs.
- Choix métier : Idéal si toutes les erreurs ont un impact proportionnel.
18. Vie Privée vs Personnalisation : Le Dilemme
Pour être ultra-pertinente, l'IA a besoin de données. Comment offrir une expérience sur mesure sans transformer le smartphone en mouchard permanent (Le "Privacy Paradox") ?
Les Risques
- Ré-identification : Croiser le lieu et l'horaire suffit à vous identifier, même si la donnée est "anonyme".
- Inférences Sensibles : Déduction de l'état de santé, opinions, etc., via les clics.
- Fuites : Une fuite contextuelle, c'est votre vie qui fuite.
Solutions Privacy-by-Design
- Confid. Différentielle : Ajouter du bruit mathématique aux données (masquer l'individu dans la foule).
- Apprentissage Fédéré : L'IA apprend les tendances, mais les données restent sur l'appareil.
- Traitement Local : Ex: Apple compte les emojis localement.
Le Cadre Légal (RGPD)
Impose la Minimisation des données. Un système doit pouvoir expliquer pourquoi il a fait tel choix (fin de l'IA opaque).
IA Explicable (XAI)
Apprendre à dire :
« Je vous propose ceci car vous avez aimé cela. »
19. Les Systèmes d'Équations Linéaires
Trouver le couple $(x, y)$ qui satisfait toutes les équations en même temps. C'est la fondation de l'algèbre matricielle en Machine Learning !
Interprétation Géométrique (Droites)
- Solution unique : Les droites se croisent.
- Aucune solution : Les droites sont parallèles.
- Infinité : Les droites sont identiques.
Méthode de Substitution
Idéale si un coefficient est de 1 ou -1. On isole une inconnue, puis on la remplace dans l'autre.