L'Architecture des Recommandations

Une analyse comparative des approches basées sur le contenu (Pariser, 2011) et du filtrage collaboratif par factorisation de matrices (Koren et al., 2009) pour la recherche en NLP et Machine Learning.

Impact Netflix

80%

Des contenus visionnés proviennent du moteur de recommandation, réduisant drastiquement le taux de désabonnement.

Impact Amazon

35%

Du chiffre d'affaires total généré directement par les algorithmes de filtrage collaboratif basés sur les items.

1. Filtrage Basé sur le Contenu

Cette méthode utilise les métadonnées (attributs NLP, tags, catégories) pour recommander des items similaires à ceux qu'un utilisateur a déjà aimés. Pariser (2011) a mis en lumière que bien que cette méthode soit indépendante des autres utilisateurs, elle tend à enfermer l'utilisateur dans une "Bulle de Filtres" en réduisant la sérendipité.

Flux de Traitement NLP

Profil Utilisateur (Mots-clés lus)

Méta-données Item (TF-IDF / BERT)

↓

Calcul de Similarité (Cosinus)

↓

Recommandation

Comparaison des Performances

Évaluation des modèles sur différentes métriques clés. Notez le déficit de sérendipité du modèle de contenu.

2. Factorisation de Matrices (Filtrage Collaboratif)

Popularisée par Koren et al. (2009), cette technique décompose la grande matrice clairsemée Utilisateur-Item en vecteurs de dimensions inférieures (facteurs latents). Utilisateurs et items sont projetés dans le même espace mathématique, permettant de découvrir des relations implicites que les métadonnées n'auraient pas capturées.

Visualisation de l'Espace Latent

● Utilisateurs : Placés selon leurs goûts dérivés (ex: attirance pour l'action vs la romance).
▲ Items (Films/Articles) : Placés selon leurs caractéristiques implicites apprises par l'algorithme.
✓ La Magie du MF : La proximité spatiale entre un point Utilisateur et un point Item prédit directement une forte affinité (produit scalaire élevé).