Pourquoi cela existe
La plupart des suites d'évaluation publiques pour les modèles de langue sont centrées sur les États-Unis, axées sur la common law et uniquement en anglais. Elles ne mesurent pas ce qui détermine si un modèle convient au travail réglementé canadien.
Un modèle peut obtenir 90 % au MMLU de droit professionnel et néanmoins :
- Mal appliquer le Code civil du Québec parce qu'il raisonnait selon des hypothèses de common law
- Fabriquer une citation qui semble plausible mais qui n'existe pas
- Produire en français un raisonnement juridique de qualité anglaise à une fraction de son exactitude anglaise
- Refuser des demandes d'information anodines tout en répondant à des demandes d'exercice non autorisé
Aucun de ces modes de défaillance n'est visible sur les bancs d'essai auxquels les responsables de l'approvisionnement, les auteurs d'appels d'offres et les acheteurs d'IA se fient actuellement. Cette méthodologie définit donc quoi mesurer et comment le mesurer, pour ce qui compte quand l'IA rencontre le travail réglementé canadien.
Elle est neutre quant au fournisseur : le même protocole s'applique à nos propres modèles et à tout modèle tiers. Elle se veut citable dans les évaluations d'approvisionnement, les grilles de notation d'appels d'offres et les travaux universitaires sur l'IA en contexte canadien.
Principes directeurs
Cinq principes régissent chaque choix de cette méthodologie.
La reproductibilité avant les chiffres d'accroche. Chaque score doit pouvoir être régénéré à partir des éléments publiés, du code de notation et de paramètres de décodage fixes. Un chiffre qu'on ne peut pas reproduire n'est pas rapporté. Cela semble évident. Ce n'est pas une pratique courante.
Une notation robuste plutôt que l'analyse de la génération. Dans la mesure du possible, utilisez une notation à choix multiples fondée sur la log-vraisemblance plutôt que d'extraire une lettre d'un texte libre. L'analyse de la génération est fragile avec les modèles verbeux de type raisonnement — un même modèle peut obtenir des scores différents sur les mêmes éléments simplement en produisant plus de chaîne de pensée. La méthodologie traite cela comme un défaut à corriger avant de publier le moindre chiffre.
L'étanchéité aux fuites par construction. Les éléments d'évaluation réservés doivent être conçus de sorte que la réponse ne puisse pas être retrouvée par correspondance de chaîne dans l'invite, et qu'aucun document d'entraînement ne contienne trivialement la réponse.
La validation par des experts avant publication. Les éléments générés par machine sont des ébauches, jamais une vérité terrain. Chaque élément publié doit être révisé par une personne qualifiée dans le domaine pertinent du droit canadien, et pour les éléments en français, en français juridique.
La parité bilingue est une mesure de premier ordre. Un modèle fort en anglais et faible en français a échoué à une exigence bilingue canadienne, même si sa moyenne paraît acceptable.
Huit volets
La méthodologie définit huit volets d'évaluation. Chacun est noté indépendamment ; il n'y a pas de score unique fusionné, parce qu'un responsable de l'approvisionnement se soucie de la compétence précise pertinente à son flux de travail.
| Volet | Ce qu'il mesure | Méthode de notation |
|---|---|---|
| Common law | La doctrine dans les ressorts de common law du Canada | QCM, log-vraisemblance ou extraction de la réponse finale |
| Droit civil québécois | Le raisonnement selon le Code civil du Québec, en français | QCM, log-vraisemblance ou extraction de la réponse finale |
| Constitutionnel / Charte | Droits garantis par la Charte, proportionnalité (art. 1), partage des compétences | QCM + grille d'analyse structurée |
| Conformité — vie privée | Raisonnement selon la LPRPDE et les lois provinciales sur la vie privée, EN/FR | QCM, rapporté avec un ratio de parité bilingue |
| Intégrité des citations | Production de citations juridiques correctes et vérifiables | Validation du motif de citation par rapport à une référence |
| Calibrage de sûreté | Refuser les conseils juridiques non autorisés ; répondre aux demandes anodines | Classification refus / réponse |
| Recherche ancrée (RAG) | Attribution correcte de la source en contexte de recherche | Correspondance exacte sur l'identité du document (jeu étanche aux fuites) |
| Rétention des capacités générales | Aucun oubli catastrophique dû à la spécialisation | Bancs d'essai publics standards (MMLU, etc.) |
Les six premiers sont mis en œuvre dans la version publique de la Suite d'évaluation CBLRE. Le volet de recherche utilise un jeu complémentaire distinct, étanche aux fuites. Le volet des capacités générales utilise des bancs d'essai publics standards pour vérifier que la spécialisation juridique n'a pas détruit la compétence générale.
La parité bilingue, mesurée correctement
La compétence bilingue est mesurée comme un ratio de parité, et non comme deux scores sans rapport. Pour un volet offert dans les deux langues, des paires d'éléments appariées testent la même compétence en anglais et en français canadien. Chacune est notée séparément, et un ratio de parité (exactitude FR / exactitude EN) est rapporté par volet.
Un ratio proche de 1,0 indique une compétence bilingue équilibrée. Un ratio nettement inférieur à 1,0 indique que le modèle est sensiblement plus faible en français et ne convient pas à une exigence bilingue canadienne, peu importe l'allure de son score en anglais.
La parité est rapportée par volet. Un modèle peut montrer une parité sur le raisonnement en matière de vie privée, mais pas sur le raisonnement en droit civil. Ce sont des constats distincts qui ne doivent pas être effacés dans une moyenne.
Le français québécois exige son propre traitement
Le français juridique québécois n'est pas interchangeable avec le français métropolitain (de France). La méthodologie distingue deux questions séparables :
- L'exactitude juridique — la réponse de fond est-elle juste selon le droit civil québécois ? Notée de façon programmatique par rapport à une vérité terrain validée.
- Le registre et la terminologie — le modèle emploie-t-il le vocabulaire et le registre professionnel justes du droit civil québécois, par opposition au français de France ou à des tournures truffées d'anglicismes ? Cela exige des évaluateurs humains de langue maternelle québécoise et est évalué séparément de l'exactitude.
Les bancs d'essai publics en français (MMLU multilingue, BeleBele) mesurent la compréhension générale du français. Ils ne certifient pas le dialecte, le registre ni la terminologie de droit civil québécois. La méthodologie énonce cette limite explicitement, au lieu de laisser un score de français général tenir lieu de compétence en français québécois.
La recherche étanche aux fuites
Le volet de recherche ancrée est le test le plus exigeant d'une véritable capacité en contexte canadien, parce qu'il ne peut pas être satisfait par une doctrine mémorisée. Ses règles de construction :
- Les documents sources proviennent d'un corpus réservé par date — p. ex. des lois annuelles d'une année exclue de l'entraînement, alors que l'entraînement utilisait les lois de base consolidées
- Chaque élément présente plusieurs passages sources candidats et demande lequel porte sur un sujet nommé
- L'étiquette du sujet est tirée de la note marginale du passage, puis retirée du texte affiché, de sorte que la réponse ne puisse pas être retrouvée par correspondance de chaîne dans l'invite
- Les distracteurs comprennent des passages de la même loi, de sorte que le seul titre de la loi ne résout pas l'élément
- Noté par correspondance exacte sur l'identité de la source ; la référence aléatoire est rapportée à côté du score
Un score de recherche élevé selon cette construction reflète une véritable attribution sujet-vers-source, et non le rappel d'un texte d'entraînement.
La robustesse de la notation pour les modèles de raisonnement
Les modèles modernes émettent souvent une longue chaîne de pensée avant d'arrêter une réponse. Une extraction naïve de la réponse peut capter une lettre du raisonnement plutôt que la conclusion finale, produisant des scores qui varient selon le budget de jetons même si le modèle et les éléments sont fixes.
La méthodologie exige que l'extraction à choix multiples (lorsque la notation par log-vraisemblance n'est pas utilisée) retienne la réponse finale arrêtée par le modèle — le dernier engagement de réponse dans la réponse — et que l'extracteur soit validé en confirmant que les scores sont stables d'un budget de jetons à l'autre. Un noteur dont la sortie change selon la longueur de la réponse est traité comme un défaut à corriger avant de rapporter le moindre chiffre.
Le seuil de validation par des experts
Aucun score de volet n'est publiable tant que ses éléments n'ont pas franchi la validation par des experts :
- Chaque élément est révisé par une personne qualifiée dans le domaine pertinent du droit canadien
- Les éléments en français et de droit civil québécois sont en outre révisés par un réviseur compétent en français juridique
- Les éléments aux réponses de référence erronées, à la formulation ambiguë ou aux citations fabriquées sont corrigés ou retirés avant la publication
- Jusqu'à ce que cette révision soit terminée, les résultats sont publiés sous forme d'aperçu clairement étiqueté, l'état de validation étant indiqué sur chaque chiffre rapporté
Exigences de rapport
Tout résultat rapporté selon cette méthodologie doit indiquer :
- Le modèle et le point de contrôle exacts évalués
- Les scores par volet (jamais un seul chiffre fusionné)
- Les ratios de parité bilingue, le cas échéant
- La référence aléatoire pour les volets de recherche
- Le nombre d'exemples (few-shot) et les paramètres de décodage
- L'état de validation des éléments utilisés
Les régressions doivent être rapportées avec la même importance que les gains.
Pourquoi nous avons bâti ceci
Bâtir la norme pour nous seuls aurait été une occasion manquée. Le paysage de l'approvisionnement en IA au Canada — fédéral, provincial, services professionnels, entreprises réglementées — a besoin d'un instrument de mesure neutre quant au fournisseur, reproductible et propre au contexte canadien. Un tel instrument n'existait pas. Nous en avons donc bâti un et l'avons rendu public.
Nous nous attendons à être jugés à son égard nous-mêmes.
Citer ceci
SimpleDirect® (Alpine Pacific Trading Inc.), « Canadian Regulated-Workflow Evaluation Methodology (v1.0) », juin 2026.
Pour aller plus loin
- Suite d'évaluation CBLRE (aperçu) — le jeu de tests public qui met en œuvre cette méthodologie, avec 129 éléments révisés par des experts sur six volets actifs.
- Méthodologie de bancs d'essai des modèles v1.0 — comment nous appliquons cette méthodologie et la suite d'évaluation plus large pour mesurer nos propres modèles, de façon reproductible.
Pour aller plus loin