Le Machine Learning dispose d'une boîte à outils riche, mais choisir le bon algorithme ne nécessite pas de tout connaître. Une compréhension claire de 6 à 8 familles d'algorithmes couvre 90% des problèmes réels en entreprise.
Le biais-variance : comprendre l'arbitrage fondamental
Tout modèle de ML navigue entre deux erreurs : le biais (modèle trop simple, sous-ajustement) et la variance (modèle trop complexe, surajustement). Un modèle parfait minimise les deux — ce qui est impossible en pratique. On cherche le meilleur compromis.
- Biais élevé (underfitting) : le modèle rate des patterns importants dans les données d'entraînement
- Variance élevée (overfitting) : le modèle mémorise le bruit et généralise mal
- Solution : cross-validation, régularisation, données supplémentaires, feature engineering
Régression : prédire une valeur continue
La régression prédit une valeur numérique (prix, durée, quantité). La régression linéaire est le point de départ — simple, interprétable et souvent suffisante. La régression polynomiale capture des relations non linéaires.
- Régression linéaire : relation directe entre features et cible, haute interprétabilité
- Ridge / Lasso : régression linéaire avec régularisation L2 / L1 pour éviter l'overfitting
- Elastic Net : combinaison Ridge + Lasso, robuste pour des features corrélées
- Métriques : MAE (Mean Absolute Error), RMSE, R² (coefficient de détermination)
Classification : prédire une catégorie
La classification prédit une classe (spam/non-spam, churner/non-churner). Les algorithmes vont de la régression logistique (simple et interprétable) aux arbres de décision (visuels et intuitifs).
- Régression logistique : probabilités calibrées, très interprétable, bon point de départ
- SVM (Support Vector Machine) : efficace en haute dimension, robuste aux outliers
- Arbres de décision : interprétables, mais sensibles aux données d'entraînement
- K-NN : simple, non paramétrique, mais lent sur de grands volumes
Méthodes d'ensemble : combiner pour performer
Les méthodes d'ensemble combinent plusieurs modèles pour produire des prédictions plus robustes qu'un modèle unique. Elles dominent les compétitions Kaggle et restent très populaires en production.
- Random Forest : bagging d'arbres de décision, réduit la variance, robuste aux outliers
- Gradient Boosting : boosting séquentiel, corrige les erreurs du modèle précédent
- XGBoost / LightGBM : implémentations optimisées, standard de l'industrie en 2026
- Stacking : combiner des modèles hétérogènes avec un méta-modèle
Clustering : découvrir des structures cachées
Le clustering est de l'apprentissage non supervisé : aucune étiquette n'est fournie. L'objectif est de regrouper des observations similaires. Utile pour la segmentation client, la détection d'anomalies et l'exploration des données.
- K-Means : partitionne en K clusters sphériques, rapide mais K à définir à l'avance
- DBSCAN : détecte des clusters de forme arbitraire et identifie les outliers
- Clustering hiérarchique : dendrogramme visuel, utile pour choisir le nombre de clusters
- Évaluation : silhouette score, Davies-Bouldin index (pas d'étiquettes disponibles)
Réduction de dimensionnalité
Avec des données en haute dimension (des centaines ou milliers de variables), les algorithmes deviennent lents et les résultats dégradés. La réduction de dimensionnalité compresse l'information en conservant l'essentiel.
- PCA (Analyse en Composantes Principales) : projection linéaire, conserve la variance maximale
- t-SNE : visualisation en 2D/3D, excellent pour explorer des embeddings
- UMAP : plus rapide que t-SNE, conserve mieux la structure globale
Choisir le bon algorithme
Le choix d'un algorithme dépend du type de problème, du volume de données, des exigences d'interprétabilité et des contraintes de temps de calcul. Il n'y a pas d'algorithme universellement optimal — c'est ce que formalise le théorème No Free Lunch.
Commencez par le modèle le plus simple qui pourrait fonctionner. La complexité doit être justifiée par un gain de performance mesurable.
Règle d'or
Toujours établir un baseline simple (régression linéaire, modèle constant) avant de tester des algorithmes complexes. Le gain réel d'un modèle complexe se mesure par rapport à ce baseline.