talketet

Plateformes de test de langue en ligne : de la compréhension écrite et orale à l'expression orale et écrite évaluée par l'IA

25 juin 2026

Plateformes de test de langue en ligne : de la compréhension écrite et orale à l'expression orale et écrite évaluée par l'IA
Table of Contents

Il y a quelques décennies, faire passer un test de langue en ligne relevait presque de l'impossible. Pour juger si quelqu'un parlait et écrivait bien l'anglais, il fallait un évaluateur formé assis dans la même pièce. Il écoutait, posait des questions, lisait les écrits et notait tout à la main. Pour une entreprise qui recrutait deux personnes, cela suffisait amplement. Pour une entreprise qui en recrutait deux cents sur plusieurs marchés, cela devenait un goulot d'étranglement.

Le web a changé la première partie de cette histoire. La compréhension écrite et orale est passée en ligne très tôt, le plus souvent sous forme de questions à choix multiple qu'un ordinateur corrigeait en quelques secondes. L'expression orale et écrite est restée plus délicate, car il fallait toujours quelqu'un pour juger une réponse ouverte. Des entreprises comme Pipplet ont ensuite levé cet obstacle, avec un test de compétence en ligne où les candidats parlaient et écrivaient librement, des examinateurs experts notant ensuite les résultats en moins d'une journée.

Aujourd'hui, le tableau change encore. On peut mener une évaluation de compétence en ligne entièrement automatisée, où l'IA établit le niveau de langue d'une réponse orale ou écrite en quelques secondes. La même approche vaut pour l'anglais, l'allemand, le français et l'italien. Des plateformes comme Talketet réunissent tout cela pour les entreprises qui recrutent en masse. Cet article retrace le chemin qui a mené les tests de langue jusque-là, et ce qu'il faut regarder au moment de choisir sa propre plateforme.

Pourquoi l'évaluation des compétences linguistiques en présentiel n'a jamais pu passer à l'échelle pour les entreprises

Pendant l'essentiel de son histoire, évaluer des compétences linguistiques revenait à faire juger une personne par une autre. Le modèle remonte loin. En 1913, Cambridge a lancé son Certificate of Proficiency in English. Trois candidats seulement se sont présentés au premier examen, qui a duré une douzaine d'heures. Après la Seconde Guerre mondiale, les États-Unis ont mis au point des échelles de compétence structurées pour situer diplomates et militaires sur une même grille. Tous ces systèmes avaient un point commun : c'était un humain formé qui attribuait la note.

Une telle conception produit de bons jugements. Un examinateur aguerri perçoit les hésitations, soupèse le vocabulaire et repère si la personne tient une vraie conversation. Le hic est arithmétique. Un examinateur ne peut évaluer qu'un nombre limité de candidats par jour, et les examinateurs qualifiés sont rares et longs à former. Ainsi, la qualité qui fait la valeur de la notation humaine est précisément ce qui l'empêche de passer à l'échelle.

Pour un recruteur en entreprise, cela se heurte à la forme du recrutement moderne. Un centre de relation client peut examiner des centaines de candidatures par mois, chacune à vérifier dans une ou deux langues. Caler des entretiens en direct pour tout le monde rallonge les délais de plusieurs semaines et mobilise les profils expérimentés. Le résultat est un compromis bien connu : on teste un échantillon, on se fie au CV pour le reste, et on découvre les lacunes une fois que la nouvelle recrue commence à prendre des appels.

Comment les premiers tests de langue en ligne traitaient la compréhension écrite et orale

Les premiers tests de langue en ligne se concentraient sur les deux compétences qu'un ordinateur pouvait évaluer seul : la compréhension écrite et la compréhension orale. Le candidat lisait un texte ou écoutait un extrait, répondait à des questions à choix multiple, et le logiciel corrigeait dans l'instant.

Ces premiers tests ont introduit une idée astucieuse, le test adaptatif informatisé. Au lieu de soumettre à tous la même épreuve figée, le système choisit chaque nouvelle question d'après la réponse précédente. Un bon candidat grimpe vite vers un contenu plus difficile, tandis qu'un candidat plus faible se stabilise à un niveau plus accessible, si bien que le test parvient à une évaluation précise avec moins de questions. Des projets comme DIALANG l'ont porté dans quatorze langues européennes. Les outils d'entreprise suivaient la même logique : le test de compréhension écrite et orale BULATS, remplacé plus tard par Linguaskill, renvoyait une note dès que le candidat avait terminé.

C'était utile, mais cela ne couvrait que la moitié de ce qui compte. Le choix multiple vérifie surtout la reconnaissance. Il montre si une personne sait choisir la bonne réponse quand elle l'a sous les yeux. Il dit bien moins de choses sur sa capacité à produire de la langue.

Être à l'aise, c'est former des phrases claires, organiser ses idées et parler avec fluidité quand on est pris au dépourvu. Pour les postes bâtis autour des appels en direct, c'est souvent la compétence la plus importante. Les premiers tests en ligne la mesuraient mal. Des outils comme Talketet la prennent aujourd'hui en charge avec des résultats immédiats et adaptés à de gros volumes.

Ce qu'un test de compétence en ligne a apporté à l'expression écrite et orale

L'avancée suivante a fait passer l'expression écrite et orale en ligne. Un test de compétence de ce type demande au candidat de produire de la langue plutôt que de la reconnaître. L'écran présente une situation professionnelle, le candidat tape une réponse ou en enregistre une à l'oral, et les réponses partent vers un examinateur humain qui les note selon l'échelle du CECRL, la grille internationale qui va de A1 à C2.

Pipplet, fondée en 2015, est devenue la référence dans ce domaine. Son test durait une trentaine de minutes, reposait sur des questions ouvertes ancrées dans des situations concrètes et couvrait la compréhension écrite, l'expression écrite, l'expression orale et la compréhension orale dans de vrais contextes professionnels. Les examinateurs rendaient un rapport aligné sur le CECRL en moins de vingt-quatre heures. Le même modèle s'étendait à plus de quarante langues et servait plus de mille six cents employeurs.

Le problème de l'évaluation de la langue écrite et parlée était ainsi réglé. Une tâche de rédaction libre ou une mise en situation à l'oral révèle ce qu'un candidat sait vraiment faire, ce qui intéresse les recruteurs. Et cela conservait le jugement humain qui rend les notes dignes de confiance.

Restait la limite de la rapidité et de la capacité. Même avec un délai de vingt-quatre heures, la notation humaine crée une file d'attente. Quand les candidatures affluent, la file s'allonge, car les examinateurs qualifiés ne sont qu'en nombre limité. Des tests comme Pipplet ont donc amélioré la qualité, sans répondre pleinement à la question de l'échelle.

Comment l'IA évalue-t-elle le niveau de langue dans une réponse ouverte ?

C'est là que l'IA rebat les cartes. Une évaluation linguistique moderne fondée sur l'IA lit une réponse ouverte ou écoute un enregistrement et en tire un niveau CECRL en quelques secondes, sans aucun examinateur dans la boucle. L'avancée repose sur les grands modèles de langage et la reconnaissance vocale, désormais capables de juger les qualités que recherche un examinateur humain : grammaire, étendue du vocabulaire, aisance, prononciation et cohérence d'ensemble des idées.

Le fonctionnement tient davantage de la correction que du quiz. Le modèle reçoit la réponse du candidat, une grille claire et les descripteurs du CECRL, puis note la réponse critère par critère. Les questions fermées de compréhension écrite et orale sont corrigées automatiquement. Les réponses ouvertes d'expression écrite et orale passent à un grand modèle de langage qui les note selon des critères fondés sur le CECRL, l'oral ayant d'abord été transcrit par reconnaissance vocale automatique. Aucun modèle spécialisé n'a besoin d'être entraîné de zéro : ce sont la grille et le prompt qui portent le jugement.

L'approche tient la route quand on la confronte à des personnes. L'équipe à l'origine de Talketet a fait passer le test à quarante italophones de niveaux d'anglais variés et a comparé les résultats CECRL du système à la fois avec l'auto-évaluation des candidats et avec le jugement de trois experts humains. Dans au moins la moitié des cas, le niveau automatique correspondait exactement à celui des experts, et dans le reste il se situait à un niveau près, dans un sens ou dans l'autre : le genre d'accord qui rend un résultat de présélection exploitable à lui seul. La validation complète est exposée dans la recherche publiée par l'équipe.

Pour la compréhension orale et écrite, on peut aussi sonder la compréhension par un résumé écrit ou oral, qui l'éprouve plus en profondeur que de cocher une case. Pour l'expression orale et écrite, le modèle transforme un test d'une demi-heure en résultat immédiat. Le candidat termine, et le recruteur voit un profil CECRL complet sur les quatre compétences avant même que le candidat suivant se connecte. Le goulot d'étranglement qui a défini les tests de langue pendant un siècle, l'attente d'une note humaine, finit par se desserrer.

L'évaluation linguistique automatisée peut-elle noter l'expression orale et écrite de façon équitable ?

La rapidité ne pèse pas lourd si les notes ne sont pas fiables, et c'est cette question qui décide si l'évaluation automatisée a sa place dans le recrutement. Côté encourageant, la technologie peut être à la fois rapide et constante, et des travaux récents le montrent.

La même équipe l'a mis à l'épreuve dans une étude publiée. Pour vérifier la stabilité de la notation, elle a fait passer dix fois chacune les mêmes réponses écrites et orales dans le système et a mesuré l'amplitude des écarts. Pour traquer un éventuel biais, elle a soumis des réponses orales prononcées par une voix masculine et une voix féminine, puis a comparé les notes. Les conclusions étaient nettes : les notes restaient constantes d'un passage à l'autre, avec une variation sous le seuil de dix pour cent fixé par les chercheurs pour la quasi-totalité des mesures, et le genre du locuteur n'avait aucun effet mesurable sur le résultat.

Cette constance est exactement ce dont un recrutement équitable a besoin. Un jury humain traîne avec lui l'humeur du jour, la fatigue et un préjugé discret envers un accent ou un nom. Un système automatisé applique la même grille à chaque candidat, passage après passage, quel que soit celui qui parle, ce qui donne aux recruteurs une mesure qu'ils peuvent défendre.

Le résultat repose sur une méthode, non sur l'intuition. La plateforme ancre sa notation dans les descripteurs du CECRL et dans la Processability Theory, un modèle de la façon dont l'apprenant construit naturellement une langue seconde, de sorte qu'une note reflète à la fois le niveau atteint et la plausibilité avec laquelle cette langue se développe. Le travail a été conçu et relu par des linguistes informaticiens, et l'équipe l'étend désormais par un essai à plus grande échelle qui compare le système à des évaluateurs humains experts et à des locuteurs natifs. L'équité, autrement dit, naît de la méthode, comme un bon texte naît de la relecture.

Quelles langues une évaluation linguistique par IA couvre-t-elle au-delà de l'anglais ?

L'anglais fait les gros titres, et pourtant l'argument le plus fort en faveur d'une évaluation par IA apparaît dès qu'une entreprise recrute dans plusieurs langues à la fois. Le modèle traite chaque langue de la même manière : il note la production d'après les descripteurs du CECRL, si bien qu'une réponse en allemand et une réponse en italien reviennent sur la même grille.

Ce n'est pas qu'une affirmation. La même recherche a passé le module d'italien au crible et, autant que ses concepteurs le sachent, la plateforme est le premier outil d'évaluation entièrement automatisée de l'italien comme langue seconde. Montrer que la méthode fonctionne pour l'italien, et pas seulement pour l'anglais, c'est tout l'enjeu : le même moteur, la même échelle CECRL, une langue différente.

En pratique, la couverture s'est étoffée vite. Talketet évalue l'anglais, le français, l'allemand, l'italien et l'espagnol, et de nouvelles langues s'ajoutent tous les quelques mois. On fixe un niveau CECRL minimal pour chaque poste et chaque langue, on fait passer à tous les candidats le même test fondé sur des mises en situation, et on lit les résultats sur une seule échelle, quelle que soit la langue dans laquelle ils ont répondu.

Chaque langue garde malgré tout sa propre texture, et un bon test en tient compte. Notre guide sur l'évaluation linguistique pour le recrutement approfondit le tableau langue par langue.

Que rechercher dans une plateforme en ligne de tests de langue pour entreprises

Une fois cette histoire en tête, choisir une plateforme en ligne de tests de langue pour entreprises se ramène à une poignée d'aspects qui comptent vraiment pour le recrutement.

Commencez par les compétences couvertes. Une plateforme sérieuse évalue les quatre compétences, compréhension écrite, compréhension orale, expression écrite et expression orale, car un candidat qui lit bien peut tout de même se figer pendant un appel en direct.

Les tâches de production, où la personne parle et écrit librement, pèsent le plus pour les postes en contact avec le public.

À cela, ajoutez un véritable alignement sur le CECRL, et demandez les preuves qui le soutiennent. Un niveau CECRL ne vaut que par la validation qui le fonde : privilégiez donc les plateformes qui comparent leur notation à celle d'évaluateurs humains experts et qui exposent leur méthode.

Le contenu compte autant que la notation. Des consignes génériques donnent des signaux génériques, tandis que des questions ancrées dans des situations, idéalement calibrées sur le vocabulaire de votre secteur, montrent si une personne peut tenir le poste réel. C'est ce qui sépare un vrai test de langue professionnel d'un questionnaire de grammaire.

Le reste relève de la commodité. Un bon test tourne dans le navigateur, sur n'importe quel appareil, sans application à installer ni rendez-vous à fixer, ce qui respecte le temps du candidat et préserve votre image d'employeur. Des fonctions de sécurité comme la surveillance à distance gardent les résultats honnêtes.

Talketet a été conçue autour de cette liste : une plateforme native pour l'IA, validée par des chercheurs en linguistique informatique d'universités européennes, qui évalue les quatre compétences dans des situations professionnelles et renvoie des résultats CECRL instantanés, entièrement dans le navigateur.

Pourquoi les tests de langue automatisés deviennent la nouvelle norme

Prenez du recul et la tendance saute aux yeux. Les tests de langue sont passés d'une salle avec un examinateur au choix multiple sur le web, puis aux épreuves ouvertes corrigées à la main, et aujourd'hui à une IA qui note instantanément la production réelle dans plusieurs langues. Chaque étape a élargi la portée tout en retenant le plus de qualité possible. La dernière comble le manque qui freinait les autres, car elle garde la profondeur des épreuves ouvertes et y ajoute la vitesse et l'échelle du logiciel.

Les entreprises le ressentent les premières, et c'est pourquoi elles l'adoptent les premières. Un centre d'assistance ou un BPO qui pourvoit des postes multilingues vit chaque semaine avec la pression des volumes : une présélection immédiate, constante et à distance porte ses fruits sans attendre. Notre guide sur l'évaluation linguistique pour le recrutement détaille ce cas d'usage en profondeur. C'est dans le cadre de l'entreprise que la technologie fait ses preuves.

De là, la même approche va plus loin. Les besoins qui nourrissent la demande de certifications linguistiques partagent tous une même forme : beaucoup de candidats, une échelle commune, de longues attentes pour une place. Les admissions universitaires qui exigent un B2, les règles de naturalisation qui demandent un B1, les tests de positionnement et de progression en classe entrent tous dans ce moule. Le passage de la présélection en entreprise vers l'évaluation institutionnelle et la certification ressemble donc moins à un saut qu'à l'étape suivante.

Ce qui rend tout cela durable, c'est l'alliance de la technologie et d'un dispositif de recherche solide. Un modèle livré seul n'est qu'une démonstration. Un modèle ancré dans les descripteurs du CECRL et dans la Processability Theory, validé face à des experts humains et bâti par des linguistes informaticiens, devient quelque chose que l'on peut assumer. C'est tout le propos de Talketet, et la mission qui l'anime est simple : rendre une évaluation linguistique fiable et alignée sur le CECRL accessible et déployable à grande échelle pour des candidats où qu'ils soient, dans toutes les langues où une entreprise recrute, depuis un navigateur et à leur propre rythme. L'aisance que vous mesurez au départ est celle qui se manifeste sur le poste, et d'ici peu elle se mesurera de la même façon, que le test décide d'une embauche, d'une place à l'université ou d'un certificat.