Comment nous mesurons nos modèles : le protocole de bancs d'essai

Pourquoi ce document existe

La plupart des lancements de modèles d'IA publient des chiffres. Peu publient le protocole qui les a produits.

Ce document précise le protocole complet de bancs d'essai appliqué aux modèles SimpleDirect — la suite d'évaluation complète, les harnais, la configuration de service, les règles de notation et les normes de rapport. C'est le complément de mesure de la Méthodologie d'évaluation de l'IA canadienne, qui définit précisément les volets de droit canadien.

Son but est simple : rendre chaque chiffre publié reproductible et chaque comparaison équitable.

Si vous ne pouvez pas régénérer nos scores à partir de notre configuration publiée, nous n'avons pas mesuré ; nous avons fait du marketing. Nous avons tâché de faire en sorte que vous puissiez les régénérer.

Cinq principes

Des conditions identiques pour la comparaison. Un modèle affiné et sa base sont évalués avec les mêmes invites, le même nombre d'exemples, le même code de notation, les mêmes paramètres de décodage et la même pile de service. Les différences de résultats sont alors attribuables au modèle, et non au montage de test.

La reproductibilité. Chaque score est régénérable à partir des éléments/tâches publiés, de la version du harnais et d'un décodage fixe (glouton, température 0, graine fixe).

Une notation robuste plutôt qu'une analyse fragile. La notation à choix multiples par log-vraisemblance est préférée. Lorsque la notation de la génération est requise, l'extracteur retient la réponse finale arrêtée par le modèle et est validé pour sa stabilité d'un budget de jetons à l'autre.

Un rapport par capacité, sans score fusionné. Les résultats sont rapportés par banc d'essai et par volet. Les régressions sont rapportées avec la même importance que les gains.

L'étanchéité aux fuites pour la recherche. L'évaluation de la recherche utilise des sources réservées par date, construites de sorte que les réponses ne puissent pas être retrouvées par correspondance de chaîne dans l'invite.

La suite d'évaluation

Chaque modèle SimpleDirect est mesuré sur sept familles, choisies pour que les gains de spécialisation et toute régression de capacité soient visibles.

Famille	Ce qu'elle couvre	Harnais / source
Capacité générale	MMLU, ARC-Challenge, HellaSwag, TruthfulQA (MC1/MC2), GSM8K, BBH	lm-evaluation-harness
Français général	Belebele FR, MGSM FR, ARC FR, HellaSwag FR	lm-evaluation-harness
Connaissances juridiques	MMLU droit professionnel / international / jurisprudence ; équivalents Global-MMLU FR	lm-evaluation-harness
Suivi des instructions	IFEval (prompt-strict)	lm-evaluation-harness
Droit canadien (CBLRE)	6 volets : common law, droit civil québécois, Charte, vie privée, citation, sûreté	CBLRE de SimpleDirect + noteur
Recherche (RAG)	Attribution de sources canadiennes réservées, étanche aux fuites	Jeu réservé de SimpleDirect
Appel de fonctions	BFCL v4 (à un et plusieurs tours)	Berkeley Function-Calling Leaderboard

La suite est exécutée au complet sur chaque modèle. Aucun sous-ensemble n'est sélectionné de façon arrangée. Les compromis de spécialisation — y compris toute régression par rapport à la base — sont visibles parce que l'ensemble complet est exécuté et rapporté.

Configuration de service

Les modèles sont servis de façon identique pour le modèle à l'essai et la comparaison de base :

Paramètre	Valeur
Moteur	vLLM (point d'accès compatible OpenAI)
Précision	bf16
Décodage	Glouton, température 0, graine fixe
Longueur de contexte	tâches lm-eval : 4 096 ; appel de fonctions : 32 768
Indicateurs	trust-remote-code ; échantillonneur déterministe
Isolement	Chaque modèle servi depuis son propre GPU dédié ; aucune contention pendant les exécutions parallèles

Ces paramètres sont publiés non parce qu'ils sont exotiques, mais parce qu'ils constituent la configuration exacte sous laquelle nos chiffres ont été produits. Quiconque a accès au modèle, aux éléments et à notre code de notation devrait pouvoir reproduire nos scores à l'intérieur du plancher de bruit du décodage glouton.

Paramètres few-shot

Le nombre d'exemples (few-shot) est fixé par tâche et maintenu identique entre le modèle à l'essai et sa base :

Tâche	Few-shot
MMLU / MMLU juridique / Global-MMLU FR	5 exemples
ARC-Challenge / ARC FR	25 exemples
HellaSwag / HellaSwag FR	10 exemples
TruthfulQA (MC1/MC2)	0 exemple
GSM8K	5 exemples
BBH	3 exemples
Belebele FR	5 exemples
MGSM FR	8 exemples
IFEval	0 exemple

Règles de notation

Choix multiples. Notation par log-vraisemblance lorsque le harnais la prend en charge (sélectionne directement l'option la plus probable). Lorsque la notation de la génération est inévitable, l'extracteur retient la réponse finale arrêtée et est validé pour produire des scores stables d'un budget de jetons à l'autre — un noteur dont la sortie change selon la longueur de la réponse est traité comme un défaut.

Citation. La notation du volet de citation valide une citation juridique correcte et bien formée par rapport à une référence (motif + identité), et non une simple lettre — elle mesure donc la production de citations, et non la chance au choix multiple.

Recherche. Correspondance exacte sur l'identité de la source sur un jeu réservé étanche aux fuites ; la référence aléatoire est rapportée à côté du score. Le taux d'analyse (part des sorties donnant une réponse notable) est rapporté séparément de l'exactitude, puisque ce sont des signaux de qualité distincts.

Appel de fonctions. Notation standard BFCL v4, rapportée comme score global plus des sous-scores (non en direct, en direct, plusieurs tours). Le mode à plusieurs tours est rapporté explicitement parce que c'est la sous-catégorie la plus exigeante et la plus discriminante.

Parité bilingue. Pour les volets à paires bilingues, l'exactitude EN et FR est rapportée séparément, accompagnée du ratio de parité (FR/EN). La parité n'est jamais fondue dans un chiffre unique.

La norme de rapport

Chaque résultat publié indique :

Le point de contrôle exact du modèle et sa base
Les scores par banc d'essai et par volet (aucun chiffre d'accroche fusionné)
Le nombre d'exemples (few-shot) et le décodage
Les références aléatoires pour la recherche
Les ratios de parité bilingue, le cas échéant
L'état de validation de tout élément de niveau aperçu
Les gains et les régressions avec la même importance

Un résultat qui ne peut pas être reproduit à partir de la configuration publiée n'est pas publié. C'est la règle.

Le processus d'acceptation

Un modèle n'atteint les bancs d'essai qu'après avoir franchi les seuils de vérification de l'étape de construction : audit du mouvement des poids, intégrité des clés, test de fumée de génération, vérification multimodale. Il est ensuite servi sous la configuration ci-dessus, évalué sur la suite complète, et l'ensemble complet des résultats — y compris toute régression — est compilé dans le rapport de bancs d'essai.

Aucun sous-ensemble n'est sélectionné de façon arrangée. La suite est exécutée au complet pour que les compromis de spécialisation soient visibles.

Ce que cela signifie pour vous

Si vous êtes responsable de l'approvisionnement : vous pouvez désigner cette méthodologie comme norme d'évaluation dans votre appel d'offres. Le protocole est neutre quant au fournisseur et citable. Quand nous rapportons des scores de modèle, vous pouvez les vérifier par rapport aux éléments, au code et à la configuration publiés.

Si vous êtes chercheur ou développeur en IA : utilisez ce protocole comme gabarit pour évaluer vos propres modèles en contexte canadien. Rapportez vos scores dans les mêmes conditions pour rendre les comparaisons équitables.

Si vous êtes acheteur ou donneur d'ouvrage pour du travail d'IA réglementé : un fournisseur qui refuse de publier sa configuration d'évaluation complète publie du marketing, pas de la mesure.

Pourquoi autant de rigueur

Le marché canadien de l'IA réglementée a été assez petit pour que les fournisseurs puissent livrer des chiffres approximatifs sans examen. À mesure que l'approvisionnement en IA au Canada prend de l'ampleur — fédéral, provincial, services professionnels, entreprises réglementées — cette époque tire à sa fin. Les responsables de l'approvisionnement et les auteurs d'appels d'offres exigeront de plus en plus des normes de mesure reproductibles. Nous publions ce protocole parce que nous croyons que les normes devraient être publiques et neutres quant au fournisseur, y compris à notre égard.

Nous serons jugés à cette aune. Nous nous y attendons.

Citer ceci

SimpleDirect® (Alpine Pacific Trading Inc.), « Model Benchmarking Methodology (v1.0) », juin 2026.

Pour aller plus loin

Méthodologie d'évaluation de l'IA canadienne v1.0 — la norme sous-jacente sur quoi mesurer pour le travail réglementé canadien, et pourquoi.
Suite d'évaluation CBLRE (aperçu) — le jeu de tests public qui met en œuvre les volets de droit canadien de ce protocole.

Pour aller plus loin

Voir les quatre biens publics Nous contacter

SimpleDirect®, exploitée sous Alpine Pacific Trading Inc., est une équipe basée à Toronto qui construit des modèles d'IA à poids ouverts, bilingues et de contexte canadien, que vous pouvez télécharger, exécuter et posséder.

Comment nous mesurons nos modèles : le protocole de bancs d'essai

Pourquoi ce document existe

Cinq principes

La suite d'évaluation

Configuration de service

Paramètres few-shot

Règles de notation

La norme de rapport

Le processus d'acceptation

Ce que cela signifie pour vous

Pourquoi autant de rigueur

Citer ceci

Pour aller plus loin

Plus de SimpleDirect

Évaluer l'IA pour le travail réglementé canadien : une méthodologie

Présentation de CBLRE : un banc d'essai public pour l'IA juridique bilingue canadienne

Chaque modèle, gratuit pour toujours