$course$/QCM de NSI/Première/k plus proches voisins (k-NN) Algorithme des k plus proches voisins (k-NN) : exemple
d'algorithme d'apprentissage supervisé. Distance entre
points, vote majoritaire, choix de k, applications,
forces et limites.

]]> k plus proches voisins (k-NN) — Q01 : k-NN : qu'est-ce que c'est ? Que fait l'algorithme des k plus proches voisins
(k-NN, k-Nearest Neighbors) ?

]]> Apprentissage supervisé : on dispose d'exemples
étiquetés (avec leur classe connue), on
apprend à prédire la classe pour de nouveaux
exemples.

]]> 1.0 0.0 0 true true abc Prédit la classe d'un nouvel élément en regardant les classes des k éléments les plus proches dans un jeu de données déjà étiqueté

]]> Bonne réponse : c'est un algorithme
d'apprentissage supervisé par
mémorisation. On classe un nouveau point
selon ses voisins.

]]> Mesure la complexité d'un programme

]]> Erreur : la mesure de
complexité algorithmique
n'a aucun rapport avec
l'algorithme des k plus
proches voisins.

]]> Cherche un élément dans une liste triée

]]> Erreur : c'est la recherche dichotomique.

]]> Trie une liste par ordre croissant

]]> Erreur : aucun rapport avec le tri.

]]> k plus proches voisins (k-NN) — Q02 : Apprentissage supervisé Pourquoi parle-t-on d'apprentissage
supervisé pour k-NN ?

]]> Distinction : supervisé (avec étiquettes,
ex. classification, régression) vs non
supervisé (sans étiquettes, ex.
partitionnement automatique). k-NN est
supervisé.

]]> 1.0 0.0 0 true true abc Parce qu'il est lent à l'exécution

]]> La rapidité d'exécution n'a
aucun rapport avec le
caractère supervisé d'un
algorithme d'apprentissage.

]]> Parce qu'il ne fonctionne qu'avec un professeur dans la salle

]]> Cette interprétation est
fantaisiste. Le mot
« supervisé » est un terme
technique précis, sans
rapport avec une
présence humaine.

]]> Parce qu'un humain doit surveiller le programme pendant son exécution

]]> Cette interprétation littérale
ne correspond pas au sens
technique. En apprentissage
automatique, « supervisé »
renvoie au fait que les
données portent une
étiquette connue, et non à
une surveillance humaine.

]]> Parce que les données d'entraînement sont étiquetées : chaque exemple est associé à sa classe connue

]]> Bonne réponse : « supervisé » = on a la
réponse pour les exemples
d'entraînement. L'algorithme apprend la
relation entrée → classe.

]]> k plus proches voisins (k-NN) — Q03 : Distance euclidienne Comment calcule-t-on la distance euclidienne
entre deux points $A=(x_A, y_A)$ et $B=(x_B,
y_B)$ du plan ?

]]> Cette formule se généralise en dimension n :
$d = \\sqrt{\\sum_{i=1}^{n}(b_i - a_i)^2}$.
Pour comparer des distances, on peut omettre
la racine carrée.

]]> 1.0 0.0 0 true true abc $d = \sqrt{(x_B - x_A)^2 + (y_B - y_A)^2}$

]]> Bonne réponse : formule de Pythagore.
C'est la distance « à vol d'oiseau »
entre les deux points.

]]> $d = |x_A - x_B|$

]]> Erreur : ce serait la distance sur l'axe
horizontal seulement.

]]> $d = x_A + y_A + x_B + y_B$

]]> Erreur : ce serait juste une somme.

]]> $d = x_A \times y_A - x_B \times y_B$

]]> Erreur : aucun rapport avec une distance.

]]> k plus proches voisins (k-NN) — Q04 : Vote majoritaire Une fois les k plus proches voisins
identifiés, comment k-NN détermine-t-il la
classe à attribuer ?

]]> Variante : vote pondéré par la distance
(les voisins plus proches comptent plus).
Permet de gérer les ex æquo.

]]> 1.0 0.0 0 true true abc Au hasard

]]> Erreur : k-NN est déterministe.

]]> En choisissant la classe du voisin le plus proche

]]> C'est k-NN avec k = 1, cas particulier. En
général on utilise plusieurs voisins pour
plus de robustesse.

]]> Par vote majoritaire : la classe la plus représentée parmi les k voisins l'emporte

]]> Bonne réponse : si parmi les 5 voisins
les plus proches, 3 sont de la classe A et
2 de la classe B, on prédit A.

]]> En faisant la moyenne des classes

]]> Erreur : on ne fait pas la moyenne d'une
classe (c'est une catégorie, pas un
nombre).

]]> k plus proches voisins (k-NN) — Q05 : Choix de k Pourquoi prend-on souvent k impair quand
on classe en deux classes ?

]]> Pour trois classes ou plus, un
$k$ impair n'évite pas
forcément les ex æquo : trois
classes peuvent par exemple
obtenir chacune $k/3$ voix.
On peut alors recourir à la
classe du voisin le plus
proche, ou à un vote pondéré
par la distance.

]]> 1.0 0.0 0 true true abc Pour éviter les égalités lors du vote majoritaire entre deux classes

]]> Bonne réponse : avec k pair (par exemple
k = 4), on peut avoir 2 votes pour chaque
classe → indécision. Avec k impair (k = 5),
impossible.

]]> Aucune raison particulière

]]> Cette parité répond au
contraire à un besoin
technique précis : éviter
les égalités lors du
vote, comme expliqué dans
la bonne réponse.

]]> Parce que les nombres impairs sont plus rapides à calculer

]]> Aucun lien n'existe entre la
parité d'un nombre et la
rapidité de calcul.

]]> Parce que k pair ne fonctionne pas

]]> Erreur : ça fonctionne, mais on doit gérer
les ex æquo.

]]> k plus proches voisins (k-NN) — Q06 : Exemple typique Lequel de ces problèmes est un bon candidat
pour l'algorithme k-NN ?

]]> Autres exemples : reconnaissance de
chiffres manuscrits, classification de
fleurs (jeu de données Iris), recommandation
de films.

]]> 1.0 0.0 0 true true abc Compresser un fichier pour gagner de la place

]]> La compression de fichiers
est une tâche très
différente, sans rapport
avec la classification.

]]> Trier une liste de nombres

]]> Erreur : ce n'est pas un problème de
classification.

]]> Reconnaître si un mail est un spam ou non, à partir d'exemples étiquetés

]]> Bonne réponse : tâche de classification
binaire (spam / non spam). On peut
comparer le mail aux exemples connus
selon des caractéristiques (mots-clés,
longueur, etc.).

]]> Calculer la racine carrée d'un nombre

]]> Erreur : pas un problème d'apprentissage.

]]> k plus proches voisins (k-NN) — Q07 : Pas d'entraînement explicite Quelle particularité de k-NN le distingue
d'autres algorithmes d'apprentissage ?

]]> Conséquence : prédiction lente quand le jeu
d'entraînement est gros (il faut calculer la
distance à tous les exemples). Compromis :
stockage important, calcul à la prédiction.

]]> 1.0 0.0 0 true true abc Il n'a quasiment pas de phase d'entraînement : il mémorise les exemples et fait tout le calcul au moment de la prédiction

]]> Bonne réponse : k-NN est un algorithme
dit « paresseux ». Pas de modèle interne ;
tout le travail est fait à la prédiction.

]]> Il fonctionne sans aucune donnée d'entraînement

]]> Au contraire, l'algorithme
a besoin d'exemples
étiquetés pour pouvoir
comparer le nouveau
point.

]]> Il a une phase d'entraînement très longue

]]> Erreur : c'est l'inverse. La phase
d'entraînement consiste juste à
mémoriser les exemples.

]]> Il invente de nouveaux exemples au cours de la prédiction

]]> Aucun exemple n'est
inventé. L'algorithme se
contente de comparer le
point à classer aux
exemples déjà connus.

]]> k plus proches voisins (k-NN) — Q08 : Squelette de l'algorithme Quelle est la structure générale de
l'algorithme k-NN pour classer un nouveau
point p ?

]]> En Python, on utilise typiquement :

distances = [(dist(p, e), c) for (e, c) in exemples]
distances.sort()
voisins = distances[:k]

]]> 1.0 0.0 0 true true abc 1. Calculer la distance de p à chaque exemple connu.
2. Trier les exemples par distance croissante.
3. Garder les k premiers.
4. Retourner la classe majoritaire parmi ces k voisins.

]]> Bonne réponse : algorithme en quatre
étapes claires. Les étapes 1 et 2
dominent le coût.

]]> 1. Trier les exemples par classe.
2. Retourner la première classe.

]]> Erreur : aucun rapport avec la distance.

]]> 1. Choisir un exemple au hasard.
2. Retourner sa classe.

]]> Erreur : k-NN n'est pas aléatoire.

]]> 1. Calculer la moyenne des exemples.
2. La retourner comme classe.

]]> Erreur : on ne peut pas faire la moyenne
d'une classe.

]]> k plus proches voisins (k-NN) — Q09 : Paramètre k Que se passe-t-il si l'on prend k = 1 ?

]]> Choix de k : compromis. k trop petit →
sensibilité au bruit. k trop grand → frontières
lissées, perte de précision locale. On choisit
souvent k empiriquement.

]]> 1.0 0.0 0 true true abc La classe prédite est celle de l'unique voisin le plus proche, l'algorithme est très sensible aux exceptions (bruit) dans le jeu d'entraînement

]]> Bonne réponse : un seul exemple aberrant
peut fausser la prédiction. Augmenter k
rend la décision plus robuste.

]]> La complexité du calcul devient logarithmique

]]> Le coût d'un calcul de
prédiction ne dépend pas
du choix de $k$ : il
reste linéaire en
$N$ (nombre d'exemples).

]]> La prédiction est plus stable

]]> Erreur : c'est l'inverse. k = 1 est très
sensible au bruit.

]]> L'algorithme ne fonctionne pas avec $k = 1$

]]> Le choix $k = 1$ est tout
à fait valide d'un point
de vue algorithmique. Il
est simplement peu
robuste face au bruit
des données.

]]> k plus proches voisins (k-NN) — Q10 : Trace simple Avec k = 3, on classe un nouveau point P. Ses
3 plus proches voisins ont les classes : A, B,
A. Quelle classe prédit k-NN pour P ?

]]> Le vote est très simple à implémenter en
Python :

Counter([cl for (_, cl) in

voisins]).most_common(1)[0][0]

]]> 1.0 0.0 0 true true abc Aucune des deux (égalité)

]]> Erreur : il n'y a pas d'égalité (2 vs 1).

]]> B (le plus proche)

]]> Erreur : ce serait k = 1. Avec k = 3, on
fait un vote majoritaire.

]]> A (deux votes contre un pour B)

]]> Bonne réponse : vote majoritaire. A
obtient 2 votes, B obtient 1. La classe
prédite est A.

]]> Les deux à la fois

]]> Erreur : k-NN renvoie une seule classe.

]]> k plus proches voisins (k-NN) — Q11 : Code distance Quel code calcule correctement la distance
euclidienne entre deux points 2D représentés
comme tuples a = (xa, ya) et b = (xb, yb) ?

]]> Astuce : pour comparer des distances, on
peut omettre la racine carrée (la fonction
racine est croissante). Plus rapide.

]]> 1.0 0.0 0 true true abc ((a[0] - b[0]) 2 + (a[1] - b[1]) 2) 0.5

]]> Bonne réponse : Pythagore en Python.
** 0.5 calcule la racine carrée. Variante :
math.sqrt(...).

]]> a[0] b[0] + a[1] b[1]

]]> Erreur : c'est le produit scalaire.

]]> a + b

]]> Erreur : on ne peut pas additionner deux
tuples comme cela (concaténation, pas
addition).

]]> abs(a[0] - b[0]) + abs(a[1] - b[1])

]]> Erreur : c'est la distance de Manhattan
(|Δx| + |Δy|), pas l'euclidienne.

]]> k plus proches voisins (k-NN) — Q12 : Sélection des voisins Pour trouver les k plus proches voisins d'un
point P parmi N exemples, quelle approche est
la plus simple ?

]]> Optimisations possibles : structures
spatiales (kd-trees), heuristiques (pas au
programme Première). Mais l'approche naïve
suffit pour comprendre.

]]> 1.0 0.0 0 true true abc Calculer la distance à chacun des N exemples, trier, garder les k premiers

]]> Bonne réponse : simple à implémenter.
Coût : O(N) pour les distances + O(N log
N) pour le tri = O(N log N).

]]> Aucune solution n'existe pour ce problème

]]> Plusieurs solutions
existent au contraire ;
la plus simple est
précisément celle qu'on
vient de décrire.

]]> Choisir k exemples au hasard

]]> Erreur : pas k-NN.

]]> Calculer la moyenne des exemples

]]> Erreur : ce n'est pas le rôle.

]]> k plus proches voisins (k-NN) — Q13 : Pourquoi normaliser ? Pourquoi est-il souvent utile de normaliser
les caractéristiques des données avant
d'appliquer k-NN ?

]]> Exemple concret : si on classe des personnes
par (âge en années [0-100], revenu en € [0-
100 000]), le revenu domine totalement la
distance. Normaliser remet les deux sur une
échelle comparable.

]]> 1.0 0.0 0 true true abc Parce qu'une caractéristique avec une plage de valeurs très grande (ex. revenu en €) écraserait l'influence d'une caractéristique à plus petite plage (ex. âge en années) dans le calcul de distance

]]> Bonne réponse : la distance euclidienne
est sensible aux échelles. Normaliser
(rescaler entre 0 et 1, ou centrer-
réduire) garantit que toutes les
caractéristiques pèsent autant.

]]> Pour rendre l'algorithme déterministe

]]> L'algorithme des $k$ plus
proches voisins est déjà
déterministe par
construction. La
normalisation joue un
autre rôle, comme
expliqué dans la bonne
réponse.

]]> Pour économiser de la mémoire

]]> La normalisation n'a pas
d'effet notable sur la
consommation mémoire.
Son intérêt se situe sur
le plan numérique.

]]> Parce que c'est obligatoire en Python

]]> Aucune obligation n'est
imposée par le langage.
La normalisation est une
bonne pratique, mais
reste facultative.

]]> k plus proches voisins (k-NN) — Q14 : Compromis sur k Quel risque y a-t-il à choisir un k trop
grand (par exemple k = nombre total
d'exemples) ?

]]> Compromis biais-variance : k petit = haute
variance, faible biais ; k grand = faible
variance, biais élevé. À doser selon la
taille du jeu.

]]> 1.0 0.0 0 true true abc Aucun risque ; un grand $k$ est toujours préférable

]]> Au contraire, un $k$ trop
grand pose un problème
spécifique, comme expliqué
dans la bonne réponse.

]]> Le coût d'un calcul explose en $n^3$

]]> Le coût d'un calcul de
prédiction reste linéaire
en $N$ : il ne dépend pas
du choix de $k$.

]]> L'algorithme cesse de fonctionner

]]> L'algorithme continue de
fonctionner, mais le
résultat qu'il produit
n'est plus pertinent.

]]> La prédiction tend vers la classe majoritaire globale : on perd toute spécificité locale

]]> Bonne réponse : si k = N, tous les
exemples votent. Le résultat est toujours
la classe la plus représentée dans tout
le jeu de données, indépendamment de la
position de P. Plus rien d'utile.

]]> k plus proches voisins (k-NN) — Q15 : Rôle des données d'entraînement Que sont les données d'entraînement
(training set) pour k-NN ?

]]> En pratique, on divise un jeu étiqueté en
train (entraînement) + test
(évaluation) pour mesurer la performance
sans tricher.

]]> 1.0 0.0 0 true true abc Les nouvelles données à classer

]]> Erreur : ce sont les données de test
(à classer).

]]> Une formule mathématique

]]> Les données d'entraînement
ne sont pas une formule,
mais un ensemble
d'exemples concrets,
chacun étiqueté avec sa
classe.

]]> L'ensemble des exemples étiquetés que k-NN utilise pour comparer un nouveau point. La taille et la qualité de ce jeu déterminent la performance.

]]> Bonne réponse : plus le jeu
d'entraînement est riche et représentatif,
meilleures sont les prédictions.

]]> Le code source de l'algorithme

]]> Le code source est une
notion distincte des
données d'entraînement,
qui sont les exemples
utilisés.

]]> k plus proches voisins (k-NN) — Q16 : Code k-NN simple Quel code en Python implémente correctement
k-NN pour classer un point p ?

# exemples = [(point, classe), ...]
# k entier, dist(a, b) renvoie la distance

]]> Implementation simple, lisible. Pour de gros
volumes, des bibliothèques comme
scikit-learn proposent des implémentations
optimisées (kd-trees).

]]> 1.0 0.0 0 true true abc return exemples[0][1]]]> Erreur : on renvoie toujours la classe du
premier exemple, sans tenir compte de la
distance.

]]> return min(exemples)]]> Erreur : aucun rapport avec k-NN.

]]> return k]]> Erreur : on renvoie le paramètre k au
lieu d'une classe.

]]>

from collections import Counter
paires = [(dist(p, x), c) for (x, c) in exemples]
paires.sort()
voisins = [c for (_, c) in paires[:k]]
return Counter(voisins).most_common(1)[0][0]

]]> Bonne réponse : on calcule les distances,
on trie, on prend les k plus proches, on
fait le vote majoritaire avec Counter.

]]> k plus proches voisins (k-NN) — Q17 : Jeu de données Iris Le jeu de données Iris est célèbre pour
illustrer la classification. Que contient-il ?

]]> Ce jeu est le « hello world » de
l'apprentissage automatique. Idéal pour
illustrer k-NN : 4 dimensions, 3 classes,
taille raisonnable.

]]> 1.0 0.0 0 true true abc Des mesures de couleurs au format rouge-vert-bleu

]]> Le jeu de données Iris ne
contient pas de mesures
colorimétriques, mais des
mesures morphologiques
des fleurs.

]]> 150 fleurs d'iris décrites par 4 mesures (longueur/largeur des sépales et pétales) et leur espèce (setosa, versicolor, virginica)

]]> Bonne réponse : jeu de données
historique introduit par Fisher en 1936.
Très utilisé pour tester les algorithmes
de classification.

]]> Des graines à planter

]]> Cette interprétation
littérale du nom « Iris »
est sans rapport avec le
contenu du jeu de
données.

]]> Des images de fleurs au format JPEG

]]> Erreur : ce sont des mesures
numériques, pas des images.

]]> k plus proches voisins (k-NN) — Q18 : Coût de la prédiction Si l'on a N exemples d'entraînement, quel est
le coût d'une prédiction k-NN naïve ?

]]> Conséquence : prédiction lente sur de gros
jeux d'entraînement. Optimisations possibles
(kd-trees) hors programme.

]]> 1.0 0.0 0 true true abc Logarithmique en N

]]> Erreur : il faut bien examiner tous les
exemples.

]]> Linéaire en N (proportionnel au nombre d'exemples)

]]> Bonne réponse : on calcule N distances.
Le tri ajoute un facteur log N (donc
O(N log N) total), mais au plus simple
on peut prendre les k minimums en O(N k)
ou O(N) avec un tri partiel.

]]> Constant, indépendant de N

]]> Erreur : il faut bien comparer le
nouveau point à chaque exemple.

]]> Quadratique en N

]]> Erreur : on ne fait pas de double boucle.

]]> k plus proches voisins (k-NN) — Q19 : Forces et limites Quelle est une limite importante de k-NN ?

]]> Forces : simple, intuitif, sans hypothèse
sur la distribution des données.
Limites : lent, sensible à la malédiction de
la dimensionnalité (en très haute dimension,
les distances perdent leur sens).

]]> 1.0 0.0 0 true true abc Il ne peut pas faire de classification

]]> Erreur : c'est précisément son rôle.

]]> Il ne fonctionne qu'en dimension 2

]]> Erreur : k-NN se généralise à toute
dimension.

]]> Il est lent à la prédiction sur de gros jeux d'entraînement (pas de modèle compact appris) et sensible aux échelles des caractéristiques

]]> Bonne réponse : tous les calculs ont lieu
à la prédiction. Pour 1 million d'exemples
en haute dimension, k-NN peut être
impraticable.

]]> Il invente de nouveaux exemples au cours de la prédiction

]]> L'algorithme se contente
de comparer le nouveau
point aux exemples déjà
fournis. Il n'en invente
aucun.

]]> k plus proches voisins (k-NN) — Q20 : Vote pondéré Une variante de k-NN consiste à pondérer le
vote des voisins. Pourquoi ?

]]> Vote uniforme = chaque voisin compte 1.
Vote pondéré = poids dépendant de la
distance. Variante classique du k-NN.

]]> 1.0 0.0 0 true true abc Pour donner plus d'influence aux voisins plus proches (typiquement avec un poids proportionnel à $1/d$)

]]> Bonne réponse : un voisin très proche
devrait peser plus qu'un voisin éloigné.
Améliore souvent la qualité des
prédictions et résout les égalités.

]]> Pour économiser la mémoire

]]> La pondération n'a aucun
effet sur la consommation
mémoire.

]]> Pour rendre l'algorithme aléatoire

]]> Cette pondération reste
parfaitement déterministe.
Elle ne fait pas
intervenir le hasard.

]]> Pour ralentir intentionnellement le programme

]]> Aucun procédé de
pondération n'a pour but
de ralentir le
programme.

]]> k plus proches voisins (k-NN) — Q21 : Trace détaillée Avec k = 3, on classe un point P. Les 5
exemples les plus proches sont (par distance
croissante) : (1.0, classe A), (1.5, B), (2.0,
A), (3.0, A), (4.0, B). Quelle classe prédit
k-NN ?

]]> Méthode : trier par distance, garder les k
premiers, voter à la majorité. Les exemples
au-delà de k (4ᵉ et 5ᵉ ici) ne comptent pas.

]]> 1.0 0.0 0 true true abc A

]]> Bonne réponse : on garde les k = 3 plus
proches : (1.0, A), (1.5, B), (2.0, A).
Vote : A = 2, B = 1 → A gagne.

]]> B

]]> Erreur : B n'a qu'un seul vote.

]]> Indéterminé

]]> Erreur : k-NN est déterministe.

]]> Égalité

]]> Erreur : pas d'égalité.

]]> k plus proches voisins (k-NN) — Q22 : Malédiction de la dimensionnalité Pourquoi k-NN devient-il moins efficace en
haute dimension (par exemple 1000 attributs) ?

]]> Solutions : réduction de dimension (ACP,
autres méthodes), sélection de
caractéristiques. En NSI, on reste sur des
cas simples (2D, 3D, jeu Iris à 4D).

]]> 1.0 0.0 0 true true abc En haute dimension, les distances entre points deviennent presque toutes égales : la notion de « proche » perd son sens. C'est la malédiction de la dimensionnalité.

]]> Bonne réponse : phénomène
contre-intuitif. Les volumes en haute
dimension se concentrent dans les coins,
les distances se ressemblent. k-NN
fonctionne mal.

]]> La mémoire n'est plus suffisante

]]> Cet effet peut survenir
dans certains cas
extrêmes, mais ce n'est
pas la cause principale
de la dégradation des
performances en haute
dimension.

]]> Aucun problème particulier en haute dimension

]]> Au contraire, un phénomène
réel et bien étudié
dégrade les performances
de l'algorithme en haute
dimension : c'est la
malédiction de la
dimensionnalité, comme
détaillé dans la bonne
réponse.

]]> Le programme plante systématiquement

]]> Le programme s'exécute
sans erreur, mais sa
qualité de prédiction se
dégrade fortement.

]]> k plus proches voisins (k-NN) — Q23 : Évaluation de la performance Pour évaluer la qualité de k-NN sur un jeu
étiqueté, quelle est la bonne pratique ?

]]> Variantes : validation croisée
(cross-validation, on découpe en plusieurs
blocs et on alterne). Pratique standard pour
des évaluations robustes.

]]> 1.0 0.0 0 true true abc Mesurer la précision sur les exemples d'entraînement eux-mêmes

]]> Erreur : on testerait sur les données
déjà mémorisées (k = 1 donnerait 100 %),
ce qui est sans intérêt.

]]> Aucune évaluation n'est possible

]]> Plusieurs méthodes
d'évaluation existent au
contraire ; la plus
simple consiste à
séparer les données en
un ensemble
d'entraînement et un
ensemble de test.

]]> Demander l'avis d'un expert humain

]]> Faire intervenir un expert
peut être utile, mais
c'est une démarche
subjective et coûteuse.
Pour évaluer la
performance d'un
algorithme, on préfère
une mesure quantitative
sur des données de test.

]]> Séparer le jeu en données d'entraînement et données de test disjointes, puis mesurer la précision sur les données de test

]]> Bonne réponse : on évalue sur des
exemples que l'algorithme n'a jamais
« vus ». Pratique standard en
apprentissage automatique. Souvent 80 %
/ 20 %.

]]> k plus proches voisins (k-NN) — Q24 : k-NN pour la régression Peut-on adapter k-NN pour prédire un nombre
(régression) au lieu d'une classe ?

]]> Algorithme k-NN régresseur : très utilisé
en pratique pour des prédictions de prix,
durées, scores. Même principe que la
classification.

]]> 1.0 0.0 0 true true abc Oui, mais à condition de doubler la valeur de $k$

]]> Le passage à la régression
n'a aucun rapport avec un
doublement de $k$. C'est
la nature de l'agrégation
finale (vote majoritaire
ou moyenne) qui change.

]]> Non, l'algorithme est strictement limité à la classification

]]> L'algorithme s'adapte au
contraire très naturellement
au cas de la régression,
comme expliqué dans la
bonne réponse.

]]> Non, il faut nécessairement un autre algorithme

]]> L'algorithme des $k$ plus
proches voisins s'étend
naturellement à la
régression, sans qu'il
soit nécessaire de le
remplacer.

]]> Oui, en remplaçant le vote majoritaire par la moyenne (ou médiane) des valeurs des k voisins

]]> Bonne réponse : si la cible est
numérique (prix d'une maison, note
attendue), la classe « majoritaire » est
remplacée par la moyenne des cibles des
k voisins. Idée générale identique.

]]> k plus proches voisins (k-NN) — Q25 : Synthèse Parmi les affirmations suivantes sur k-NN,
laquelle est fausse ?

]]> Mnémonique : k petit = local, sensible au
bruit ; k grand = global, lissé. Choisir k
empiriquement par validation.

]]> 1.0 0.0 0 true true abc La phase d'entraînement se résume essentiellement à mémoriser les exemples.

]]> Vrai : algorithme paresseux.

]]> La distance euclidienne est un choix courant pour la mesure de proximité.

]]> Vrai : c'est la mesure standard, mais
d'autres existent (Manhattan, cosinus).

]]> Plus k est grand, plus l'algorithme est sensible au bruit local.

]]> Faux (donc bonne réponse) : c'est
l'inverse. Avec k grand, le vote
intègre beaucoup de voisins, ce qui
lisse la décision et la rend
moins sensible aux exemples isolés
(bruit). Avec k petit (k = 1), un seul
exemple aberrant change la prédiction.

]]> k-NN est un algorithme d'apprentissage supervisé.

]]> Vrai : il apprend depuis des exemples
étiquetés.

]]> k plus proches voisins (k-NN) — Q26 : Choix de la distance Outre la distance euclidienne, on rencontre
souvent la distance de Manhattan
(|Δx| + |Δy|). Quel critère permet de choisir
entre ces deux distances ?

]]> Repère pratique : essayer plusieurs distances,
mesurer la performance sur l'ensemble de test,
retenir la meilleure. C'est ce qu'on appelle
l'optimisation des hyperparamètres.

]]> 1.0 0.0 0 true true abc Aucun critère, on choisit au hasard

]]> Erreur : le choix de la distance influence
fortement les résultats de l'algorithme. Il
faut le justifier en fonction du problème,
pas le tirer au hasard.

]]> La distance euclidienne est toujours préférable car elle est plus précise

]]> Erreur : ces deux distances sont des choix
valides selon le contexte. Aucune n'est
universellement meilleure. Le choix dépend
de la nature des données et de la
structure de la proximité que l'on veut
modéliser.

]]> Le choix dépend de la nature du problème :
la distance euclidienne convient aux
espaces continus avec des déplacements
directs ; la distance de Manhattan
convient aux situations où l'on se déplace
sur une grille (par exemple un quadrillage
urbain ou des composantes indépendantes)

]]> Bonne réponse : la distance de Manhattan
est moins sensible aux valeurs aberrantes
dans les coordonnées car elle ne carre pas
les écarts. Elle est aussi plus naturelle
quand les composantes ont une signification
indépendante. La distance euclidienne, plus
régulière, convient bien aux espaces
géométriques classiques.

]]> La distance de Manhattan est plus rapide à calculer

]]> Différence négligeable en pratique : les
deux distances se calculent en O(d) où d
est la dimension. La performance n'est pas
le critère qui motive le choix.

]]> k plus proches voisins (k-NN) — Q27 : Classes déséquilibrées On veut détecter une maladie rare avec k-NN.
Le jeu d'entraînement contient 95 % d'exemples
« sain » et 5 % d'exemples « malade ». Avec
k = 7, que va prédire l'algorithme pour
presque tous les nouveaux patients ?

]]> Le déséquilibre de classes est un problème
majeur en apprentissage. Mesurer uniquement la
précision globale peut être trompeur ; on
complète par le rappel et la précision sur la
classe minoritaire, ou par la matrice de
confusion.

]]> 1.0 0.0 0 true true abc « malade » à 5 % des nouveaux patients, par symétrie

]]> Erreur : ce serait le comportement attendu
d'une distribution aléatoire. Or k-NN ne
tire rien au hasard ; il prédit en
fonction des voisins, et ceux-ci sont
principalement « sain ».

]]> Une classe au hasard, l'algorithme étant non déterministe

]]> Erreur : k-NN est strictement
déterministe. Pour une même entrée et un
même jeu d'entraînement, il prédit
toujours la même classe.

]]> « sain » dans la quasi-totalité des cas,
car les voisins les plus proches sont
presque toujours majoritairement « sain » à
cause du déséquilibre des classes ;
l'algorithme passe à côté des cas
« malade »

]]> Bonne réponse : c'est le piège classique
des classes déséquilibrées. La précision
globale peut sembler élevée (95 %), mais le
rappel sur la classe minoritaire est
quasiment nul. Solutions : suréchantillonner
la classe minoritaire, sous-échantillonner
la majoritaire, ou utiliser un vote
pondéré par l'inverse de la fréquence des
classes.

]]> « malade » dans la majorité des cas, par sécurité

]]> Erreur : k-NN n'a aucune logique de
prudence sanitaire. Il vote simplement à
la majorité des voisins. Or les voisins
tirés aléatoirement sont presque toujours
« sain ».

]]> k plus proches voisins (k-NN) — Q28 : Calcul concret On classe le point P = (3, 4) avec k = 3 et
la distance euclidienne. Les exemples
étiquetés sont :
(0, 0, A), (6, 8, A), (2, 1, B),
(5, 4, B), (3, 0, A). Quelle classe
prédit k-NN ?

]]> Méthode systématique : (1) calculer la
distance de P à chaque exemple ; (2) trier par
distance croissante ; (3) garder les k
premiers ; (4) voter à la majorité. Sur les
petits jeux, refaire le calcul à la main est
le meilleur exercice de compréhension.

]]> 1.0 0.0 0 true true abc A

]]> Erreur : ce serait correct si A obtenait
la majorité parmi les 3 plus proches.
Refaire le calcul des distances : (0, 0)
→ 5 ; (6, 8) → 5 ; (2, 1) → √10 ≈ 3,16 ;
(5, 4) → 2 ; (3, 0) → 4. Les 3 plus
proches sont (5, 4, B) (2), (2, 1, B)
(3,16) et (3, 0, A) (4).

]]> Égalité entre A et B

]]> Erreur : avec k = 3 (impair) et deux
classes, il ne peut pas y avoir égalité.
Le calcul donne B = 2 voix, A = 1 voix.

]]> Indéterminé sans plus d'informations

]]> Erreur : toutes les informations
nécessaires sont fournies (point, k,
distance, exemples étiquetés). Le résultat
est parfaitement calculable.

]]> B

]]> Bonne réponse. Distances calculées :
(0, 0) → 5 ; (6, 8) → 5 ; (2, 1) →
√10 ≈ 3,16 ; (5, 4) → 2 ; (3, 0) → 4.
Les 3 plus proches sont (5, 4, B),
(2, 1, B), (3, 0, A). Vote : B = 2,
A = 1 → B gagne.

]]>