Pourquoi ce document existe
La plupart des lancements de modèles d'IA publient des chiffres. Peu publient le protocole qui les a produits.
Ce document précise le protocole complet de bancs d'essai appliqué aux modèles SimpleDirect — la suite d'évaluation complète, les harnais, la configuration de service, les règles de notation et les normes de rapport. C'est le complément de mesure de la Méthodologie d'évaluation de l'IA canadienne, qui définit précisément les volets de droit canadien.
Son but est simple : rendre chaque chiffre publié reproductible et chaque comparaison équitable.
Si vous ne pouvez pas régénérer nos scores à partir de notre configuration publiée, nous n'avons pas mesuré ; nous avons fait du marketing. Nous avons tâché de faire en sorte que vous puissiez les régénérer.
Cinq principes
Des conditions identiques pour la comparaison. Un modèle affiné et sa base sont évalués avec les mêmes invites, le même nombre d'exemples, le même code de notation, les mêmes paramètres de décodage et la même pile de service. Les différences de résultats sont alors attribuables au modèle, et non au montage de test.
La reproductibilité. Chaque score est régénérable à partir des éléments/tâches publiés, de la version du harnais et d'un décodage fixe (glouton, température 0, graine fixe).
Une notation robuste plutôt qu'une analyse fragile. La notation à choix multiples par log-vraisemblance est préférée. Lorsque la notation de la génération est requise, l'extracteur retient la réponse finale arrêtée par le modèle et est validé pour sa stabilité d'un budget de jetons à l'autre.
Un rapport par capacité, sans score fusionné. Les résultats sont rapportés par banc d'essai et par volet. Les régressions sont rapportées avec la même importance que les gains.
L'étanchéité aux fuites pour la recherche. L'évaluation de la recherche utilise des sources réservées par date, construites de sorte que les réponses ne puissent pas être retrouvées par correspondance de chaîne dans l'invite.
La suite d'évaluation
Chaque modèle SimpleDirect est mesuré sur sept familles, choisies pour que les gains de spécialisation et toute régression de capacité soient visibles.
| Famille | Ce qu'elle couvre | Harnais / source |
|---|---|---|
| Capacité générale | MMLU, ARC-Challenge, HellaSwag, TruthfulQA (MC1/MC2), GSM8K, BBH | lm-evaluation-harness |
| Français général | Belebele FR, MGSM FR, ARC FR, HellaSwag FR | lm-evaluation-harness |
| Connaissances juridiques | MMLU droit professionnel / international / jurisprudence ; équivalents Global-MMLU FR | lm-evaluation-harness |
| Suivi des instructions | IFEval (prompt-strict) | lm-evaluation-harness |
| Droit canadien (CBLRE) | 6 volets : common law, droit civil québécois, Charte, vie privée, citation, sûreté | CBLRE de SimpleDirect + noteur |
| Recherche (RAG) | Attribution de sources canadiennes réservées, étanche aux fuites | Jeu réservé de SimpleDirect |
| Appel de fonctions | BFCL v4 (à un et plusieurs tours) | Berkeley Function-Calling Leaderboard |
La suite est exécutée au complet sur chaque modèle. Aucun sous-ensemble n'est sélectionné de façon arrangée. Les compromis de spécialisation — y compris toute régression par rapport à la base — sont visibles parce que l'ensemble complet est exécuté et rapporté.
Configuration de service
Les modèles sont servis de façon identique pour le modèle à l'essai et la comparaison de base :
| Paramètre | Valeur |
|---|---|
| Moteur | vLLM (point d'accès compatible OpenAI) |
| Précision | bf16 |
| Décodage | Glouton, température 0, graine fixe |
| Longueur de contexte | tâches lm-eval : 4 096 ; appel de fonctions : 32 768 |
| Indicateurs | trust-remote-code ; échantillonneur déterministe |
| Isolement | Chaque modèle servi depuis son propre GPU dédié ; aucune contention pendant les exécutions parallèles |
Ces paramètres sont publiés non parce qu'ils sont exotiques, mais parce qu'ils constituent la configuration exacte sous laquelle nos chiffres ont été produits. Quiconque a accès au modèle, aux éléments et à notre code de notation devrait pouvoir reproduire nos scores à l'intérieur du plancher de bruit du décodage glouton.
Paramètres few-shot
Le nombre d'exemples (few-shot) est fixé par tâche et maintenu identique entre le modèle à l'essai et sa base :
| Tâche | Few-shot |
|---|---|
| MMLU / MMLU juridique / Global-MMLU FR | 5 exemples |
| ARC-Challenge / ARC FR | 25 exemples |
| HellaSwag / HellaSwag FR | 10 exemples |
| TruthfulQA (MC1/MC2) | 0 exemple |
| GSM8K | 5 exemples |
| BBH | 3 exemples |
| Belebele FR | 5 exemples |
| MGSM FR | 8 exemples |
| IFEval | 0 exemple |
Règles de notation
Choix multiples. Notation par log-vraisemblance lorsque le harnais la prend en charge (sélectionne directement l'option la plus probable). Lorsque la notation de la génération est inévitable, l'extracteur retient la réponse finale arrêtée et est validé pour produire des scores stables d'un budget de jetons à l'autre — un noteur dont la sortie change selon la longueur de la réponse est traité comme un défaut.
Citation. La notation du volet de citation valide une citation juridique correcte et bien formée par rapport à une référence (motif + identité), et non une simple lettre — elle mesure donc la production de citations, et non la chance au choix multiple.
Recherche. Correspondance exacte sur l'identité de la source sur un jeu réservé étanche aux fuites ; la référence aléatoire est rapportée à côté du score. Le taux d'analyse (part des sorties donnant une réponse notable) est rapporté séparément de l'exactitude, puisque ce sont des signaux de qualité distincts.
Appel de fonctions. Notation standard BFCL v4, rapportée comme score global plus des sous-scores (non en direct, en direct, plusieurs tours). Le mode à plusieurs tours est rapporté explicitement parce que c'est la sous-catégorie la plus exigeante et la plus discriminante.
Parité bilingue. Pour les volets à paires bilingues, l'exactitude EN et FR est rapportée séparément, accompagnée du ratio de parité (FR/EN). La parité n'est jamais fondue dans un chiffre unique.
La norme de rapport
Chaque résultat publié indique :
- Le point de contrôle exact du modèle et sa base
- Les scores par banc d'essai et par volet (aucun chiffre d'accroche fusionné)
- Le nombre d'exemples (few-shot) et le décodage
- Les références aléatoires pour la recherche
- Les ratios de parité bilingue, le cas échéant
- L'état de validation de tout élément de niveau aperçu
- Les gains et les régressions avec la même importance
Un résultat qui ne peut pas être reproduit à partir de la configuration publiée n'est pas publié. C'est la règle.
Le processus d'acceptation
Un modèle n'atteint les bancs d'essai qu'après avoir franchi les seuils de vérification de l'étape de construction : audit du mouvement des poids, intégrité des clés, test de fumée de génération, vérification multimodale. Il est ensuite servi sous la configuration ci-dessus, évalué sur la suite complète, et l'ensemble complet des résultats — y compris toute régression — est compilé dans le rapport de bancs d'essai.
Aucun sous-ensemble n'est sélectionné de façon arrangée. La suite est exécutée au complet pour que les compromis de spécialisation soient visibles.
Ce que cela signifie pour vous
Si vous êtes responsable de l'approvisionnement : vous pouvez désigner cette méthodologie comme norme d'évaluation dans votre appel d'offres. Le protocole est neutre quant au fournisseur et citable. Quand nous rapportons des scores de modèle, vous pouvez les vérifier par rapport aux éléments, au code et à la configuration publiés.
Si vous êtes chercheur ou développeur en IA : utilisez ce protocole comme gabarit pour évaluer vos propres modèles en contexte canadien. Rapportez vos scores dans les mêmes conditions pour rendre les comparaisons équitables.
Si vous êtes acheteur ou donneur d'ouvrage pour du travail d'IA réglementé : un fournisseur qui refuse de publier sa configuration d'évaluation complète publie du marketing, pas de la mesure.
Pourquoi autant de rigueur
Le marché canadien de l'IA réglementée a été assez petit pour que les fournisseurs puissent livrer des chiffres approximatifs sans examen. À mesure que l'approvisionnement en IA au Canada prend de l'ampleur — fédéral, provincial, services professionnels, entreprises réglementées — cette époque tire à sa fin. Les responsables de l'approvisionnement et les auteurs d'appels d'offres exigeront de plus en plus des normes de mesure reproductibles. Nous publions ce protocole parce que nous croyons que les normes devraient être publiques et neutres quant au fournisseur, y compris à notre égard.
Nous serons jugés à cette aune. Nous nous y attendons.
Citer ceci
SimpleDirect® (Alpine Pacific Trading Inc.), « Model Benchmarking Methodology (v1.0) », juin 2026.
Pour aller plus loin
- Méthodologie d'évaluation de l'IA canadienne v1.0 — la norme sous-jacente sur quoi mesurer pour le travail réglementé canadien, et pourquoi.
- Suite d'évaluation CBLRE (aperçu) — le jeu de tests public qui met en œuvre les volets de droit canadien de ce protocole.
Pour aller plus loin