Passer au contenu principal
Toutes les nouvellesMéthodologie

Comment nous mesurons nos modèles : le protocole de bancs d'essai

La suite d'évaluation complète, la configuration de service, les règles de notation et les normes de rapport que nous appliquons à chaque modèle SimpleDirect — conçue pour une seule chose : chaque chiffre que nous publions doit être reproductible.

Par l'équipe SimpleDirectToronto · 8 juin 20267 min de lecture

Pourquoi ce document existe

La plupart des lancements de modèles d'IA publient des chiffres. Peu publient le protocole qui les a produits.

Ce document précise le protocole complet de bancs d'essai appliqué aux modèles SimpleDirect — la suite d'évaluation complète, les harnais, la configuration de service, les règles de notation et les normes de rapport. C'est le complément de mesure de la Méthodologie d'évaluation de l'IA canadienne, qui définit précisément les volets de droit canadien.

Son but est simple : rendre chaque chiffre publié reproductible et chaque comparaison équitable.

Si vous ne pouvez pas régénérer nos scores à partir de notre configuration publiée, nous n'avons pas mesuré ; nous avons fait du marketing. Nous avons tâché de faire en sorte que vous puissiez les régénérer.

Cinq principes

Des conditions identiques pour la comparaison. Un modèle affiné et sa base sont évalués avec les mêmes invites, le même nombre d'exemples, le même code de notation, les mêmes paramètres de décodage et la même pile de service. Les différences de résultats sont alors attribuables au modèle, et non au montage de test.

La reproductibilité. Chaque score est régénérable à partir des éléments/tâches publiés, de la version du harnais et d'un décodage fixe (glouton, température 0, graine fixe).

Une notation robuste plutôt qu'une analyse fragile. La notation à choix multiples par log-vraisemblance est préférée. Lorsque la notation de la génération est requise, l'extracteur retient la réponse finale arrêtée par le modèle et est validé pour sa stabilité d'un budget de jetons à l'autre.

Un rapport par capacité, sans score fusionné. Les résultats sont rapportés par banc d'essai et par volet. Les régressions sont rapportées avec la même importance que les gains.

L'étanchéité aux fuites pour la recherche. L'évaluation de la recherche utilise des sources réservées par date, construites de sorte que les réponses ne puissent pas être retrouvées par correspondance de chaîne dans l'invite.

La suite d'évaluation

Chaque modèle SimpleDirect est mesuré sur sept familles, choisies pour que les gains de spécialisation et toute régression de capacité soient visibles.

FamilleCe qu'elle couvreHarnais / source
Capacité généraleMMLU, ARC-Challenge, HellaSwag, TruthfulQA (MC1/MC2), GSM8K, BBHlm-evaluation-harness
Français généralBelebele FR, MGSM FR, ARC FR, HellaSwag FRlm-evaluation-harness
Connaissances juridiquesMMLU droit professionnel / international / jurisprudence ; équivalents Global-MMLU FRlm-evaluation-harness
Suivi des instructionsIFEval (prompt-strict)lm-evaluation-harness
Droit canadien (CBLRE)6 volets : common law, droit civil québécois, Charte, vie privée, citation, sûretéCBLRE de SimpleDirect + noteur
Recherche (RAG)Attribution de sources canadiennes réservées, étanche aux fuitesJeu réservé de SimpleDirect
Appel de fonctionsBFCL v4 (à un et plusieurs tours)Berkeley Function-Calling Leaderboard

La suite est exécutée au complet sur chaque modèle. Aucun sous-ensemble n'est sélectionné de façon arrangée. Les compromis de spécialisation — y compris toute régression par rapport à la base — sont visibles parce que l'ensemble complet est exécuté et rapporté.

Configuration de service

Les modèles sont servis de façon identique pour le modèle à l'essai et la comparaison de base :

ParamètreValeur
MoteurvLLM (point d'accès compatible OpenAI)
Précisionbf16
DécodageGlouton, température 0, graine fixe
Longueur de contextetâches lm-eval : 4 096 ; appel de fonctions : 32 768
Indicateurstrust-remote-code ; échantillonneur déterministe
IsolementChaque modèle servi depuis son propre GPU dédié ; aucune contention pendant les exécutions parallèles

Ces paramètres sont publiés non parce qu'ils sont exotiques, mais parce qu'ils constituent la configuration exacte sous laquelle nos chiffres ont été produits. Quiconque a accès au modèle, aux éléments et à notre code de notation devrait pouvoir reproduire nos scores à l'intérieur du plancher de bruit du décodage glouton.

Paramètres few-shot

Le nombre d'exemples (few-shot) est fixé par tâche et maintenu identique entre le modèle à l'essai et sa base :

TâcheFew-shot
MMLU / MMLU juridique / Global-MMLU FR5 exemples
ARC-Challenge / ARC FR25 exemples
HellaSwag / HellaSwag FR10 exemples
TruthfulQA (MC1/MC2)0 exemple
GSM8K5 exemples
BBH3 exemples
Belebele FR5 exemples
MGSM FR8 exemples
IFEval0 exemple

Règles de notation

Choix multiples. Notation par log-vraisemblance lorsque le harnais la prend en charge (sélectionne directement l'option la plus probable). Lorsque la notation de la génération est inévitable, l'extracteur retient la réponse finale arrêtée et est validé pour produire des scores stables d'un budget de jetons à l'autre — un noteur dont la sortie change selon la longueur de la réponse est traité comme un défaut.

Citation. La notation du volet de citation valide une citation juridique correcte et bien formée par rapport à une référence (motif + identité), et non une simple lettre — elle mesure donc la production de citations, et non la chance au choix multiple.

Recherche. Correspondance exacte sur l'identité de la source sur un jeu réservé étanche aux fuites ; la référence aléatoire est rapportée à côté du score. Le taux d'analyse (part des sorties donnant une réponse notable) est rapporté séparément de l'exactitude, puisque ce sont des signaux de qualité distincts.

Appel de fonctions. Notation standard BFCL v4, rapportée comme score global plus des sous-scores (non en direct, en direct, plusieurs tours). Le mode à plusieurs tours est rapporté explicitement parce que c'est la sous-catégorie la plus exigeante et la plus discriminante.

Parité bilingue. Pour les volets à paires bilingues, l'exactitude EN et FR est rapportée séparément, accompagnée du ratio de parité (FR/EN). La parité n'est jamais fondue dans un chiffre unique.

La norme de rapport

Chaque résultat publié indique :

  • Le point de contrôle exact du modèle et sa base
  • Les scores par banc d'essai et par volet (aucun chiffre d'accroche fusionné)
  • Le nombre d'exemples (few-shot) et le décodage
  • Les références aléatoires pour la recherche
  • Les ratios de parité bilingue, le cas échéant
  • L'état de validation de tout élément de niveau aperçu
  • Les gains et les régressions avec la même importance

Un résultat qui ne peut pas être reproduit à partir de la configuration publiée n'est pas publié. C'est la règle.

Le processus d'acceptation

Un modèle n'atteint les bancs d'essai qu'après avoir franchi les seuils de vérification de l'étape de construction : audit du mouvement des poids, intégrité des clés, test de fumée de génération, vérification multimodale. Il est ensuite servi sous la configuration ci-dessus, évalué sur la suite complète, et l'ensemble complet des résultats — y compris toute régression — est compilé dans le rapport de bancs d'essai.

Aucun sous-ensemble n'est sélectionné de façon arrangée. La suite est exécutée au complet pour que les compromis de spécialisation soient visibles.

Ce que cela signifie pour vous

Si vous êtes responsable de l'approvisionnement : vous pouvez désigner cette méthodologie comme norme d'évaluation dans votre appel d'offres. Le protocole est neutre quant au fournisseur et citable. Quand nous rapportons des scores de modèle, vous pouvez les vérifier par rapport aux éléments, au code et à la configuration publiés.

Si vous êtes chercheur ou développeur en IA : utilisez ce protocole comme gabarit pour évaluer vos propres modèles en contexte canadien. Rapportez vos scores dans les mêmes conditions pour rendre les comparaisons équitables.

Si vous êtes acheteur ou donneur d'ouvrage pour du travail d'IA réglementé : un fournisseur qui refuse de publier sa configuration d'évaluation complète publie du marketing, pas de la mesure.

Pourquoi autant de rigueur

Le marché canadien de l'IA réglementée a été assez petit pour que les fournisseurs puissent livrer des chiffres approximatifs sans examen. À mesure que l'approvisionnement en IA au Canada prend de l'ampleur — fédéral, provincial, services professionnels, entreprises réglementées — cette époque tire à sa fin. Les responsables de l'approvisionnement et les auteurs d'appels d'offres exigeront de plus en plus des normes de mesure reproductibles. Nous publions ce protocole parce que nous croyons que les normes devraient être publiques et neutres quant au fournisseur, y compris à notre égard.

Nous serons jugés à cette aune. Nous nous y attendons.

Citer ceci

SimpleDirect® (Alpine Pacific Trading Inc.), « Model Benchmarking Methodology (v1.0) », juin 2026.

Pour aller plus loin

Pour aller plus loin


SimpleDirect®, exploitée sous Alpine Pacific Trading Inc., est une équipe basée à Toronto qui construit des modèles d'IA à poids ouverts, bilingues et de contexte canadien, que vous pouvez télécharger, exécuter et posséder.

Partager