Évaluer l'IA pour le travail réglementé canadien : une méthodologie

Pourquoi cela existe

La plupart des suites d'évaluation publiques pour les modèles de langue sont centrées sur les États-Unis, axées sur la common law et uniquement en anglais. Elles ne mesurent pas ce qui détermine si un modèle convient au travail réglementé canadien.

Un modèle peut obtenir 90 % au MMLU de droit professionnel et néanmoins :

Mal appliquer le Code civil du Québec parce qu'il raisonnait selon des hypothèses de common law
Fabriquer une citation qui semble plausible mais qui n'existe pas
Produire en français un raisonnement juridique de qualité anglaise à une fraction de son exactitude anglaise
Refuser des demandes d'information anodines tout en répondant à des demandes d'exercice non autorisé

Aucun de ces modes de défaillance n'est visible sur les bancs d'essai auxquels les responsables de l'approvisionnement, les auteurs d'appels d'offres et les acheteurs d'IA se fient actuellement. Cette méthodologie définit donc quoi mesurer et comment le mesurer, pour ce qui compte quand l'IA rencontre le travail réglementé canadien.

Elle est neutre quant au fournisseur : le même protocole s'applique à nos propres modèles et à tout modèle tiers. Elle se veut citable dans les évaluations d'approvisionnement, les grilles de notation d'appels d'offres et les travaux universitaires sur l'IA en contexte canadien.

Principes directeurs

Cinq principes régissent chaque choix de cette méthodologie.

La reproductibilité avant les chiffres d'accroche. Chaque score doit pouvoir être régénéré à partir des éléments publiés, du code de notation et de paramètres de décodage fixes. Un chiffre qu'on ne peut pas reproduire n'est pas rapporté. Cela semble évident. Ce n'est pas une pratique courante.

Une notation robuste plutôt que l'analyse de la génération. Dans la mesure du possible, utilisez une notation à choix multiples fondée sur la log-vraisemblance plutôt que d'extraire une lettre d'un texte libre. L'analyse de la génération est fragile avec les modèles verbeux de type raisonnement — un même modèle peut obtenir des scores différents sur les mêmes éléments simplement en produisant plus de chaîne de pensée. La méthodologie traite cela comme un défaut à corriger avant de publier le moindre chiffre.

L'étanchéité aux fuites par construction. Les éléments d'évaluation réservés doivent être conçus de sorte que la réponse ne puisse pas être retrouvée par correspondance de chaîne dans l'invite, et qu'aucun document d'entraînement ne contienne trivialement la réponse.

La validation par des experts avant publication. Les éléments générés par machine sont des ébauches, jamais une vérité terrain. Chaque élément publié doit être révisé par une personne qualifiée dans le domaine pertinent du droit canadien, et pour les éléments en français, en français juridique.

La parité bilingue est une mesure de premier ordre. Un modèle fort en anglais et faible en français a échoué à une exigence bilingue canadienne, même si sa moyenne paraît acceptable.

Huit volets

La méthodologie définit huit volets d'évaluation. Chacun est noté indépendamment ; il n'y a pas de score unique fusionné, parce qu'un responsable de l'approvisionnement se soucie de la compétence précise pertinente à son flux de travail.

Volet	Ce qu'il mesure	Méthode de notation
Common law	La doctrine dans les ressorts de common law du Canada	QCM, log-vraisemblance ou extraction de la réponse finale
Droit civil québécois	Le raisonnement selon le Code civil du Québec, en français	QCM, log-vraisemblance ou extraction de la réponse finale
Constitutionnel / Charte	Droits garantis par la Charte, proportionnalité (art. 1), partage des compétences	QCM + grille d'analyse structurée
Conformité — vie privée	Raisonnement selon la LPRPDE et les lois provinciales sur la vie privée, EN/FR	QCM, rapporté avec un ratio de parité bilingue
Intégrité des citations	Production de citations juridiques correctes et vérifiables	Validation du motif de citation par rapport à une référence
Calibrage de sûreté	Refuser les conseils juridiques non autorisés ; répondre aux demandes anodines	Classification refus / réponse
Recherche ancrée (RAG)	Attribution correcte de la source en contexte de recherche	Correspondance exacte sur l'identité du document (jeu étanche aux fuites)
Rétention des capacités générales	Aucun oubli catastrophique dû à la spécialisation	Bancs d'essai publics standards (MMLU, etc.)

Les six premiers sont mis en œuvre dans la version publique de la Suite d'évaluation CBLRE. Le volet de recherche utilise un jeu complémentaire distinct, étanche aux fuites. Le volet des capacités générales utilise des bancs d'essai publics standards pour vérifier que la spécialisation juridique n'a pas détruit la compétence générale.

La parité bilingue, mesurée correctement

La compétence bilingue est mesurée comme un ratio de parité, et non comme deux scores sans rapport. Pour un volet offert dans les deux langues, des paires d'éléments appariées testent la même compétence en anglais et en français canadien. Chacune est notée séparément, et un ratio de parité (exactitude FR / exactitude EN) est rapporté par volet.

Un ratio proche de 1,0 indique une compétence bilingue équilibrée. Un ratio nettement inférieur à 1,0 indique que le modèle est sensiblement plus faible en français et ne convient pas à une exigence bilingue canadienne, peu importe l'allure de son score en anglais.

La parité est rapportée par volet. Un modèle peut montrer une parité sur le raisonnement en matière de vie privée, mais pas sur le raisonnement en droit civil. Ce sont des constats distincts qui ne doivent pas être effacés dans une moyenne.

Le français québécois exige son propre traitement

Le français juridique québécois n'est pas interchangeable avec le français métropolitain (de France). La méthodologie distingue deux questions séparables :

L'exactitude juridique — la réponse de fond est-elle juste selon le droit civil québécois ? Notée de façon programmatique par rapport à une vérité terrain validée.
Le registre et la terminologie — le modèle emploie-t-il le vocabulaire et le registre professionnel justes du droit civil québécois, par opposition au français de France ou à des tournures truffées d'anglicismes ? Cela exige des évaluateurs humains de langue maternelle québécoise et est évalué séparément de l'exactitude.

Les bancs d'essai publics en français (MMLU multilingue, BeleBele) mesurent la compréhension générale du français. Ils ne certifient pas le dialecte, le registre ni la terminologie de droit civil québécois. La méthodologie énonce cette limite explicitement, au lieu de laisser un score de français général tenir lieu de compétence en français québécois.

La recherche étanche aux fuites

Le volet de recherche ancrée est le test le plus exigeant d'une véritable capacité en contexte canadien, parce qu'il ne peut pas être satisfait par une doctrine mémorisée. Ses règles de construction :

Les documents sources proviennent d'un corpus réservé par date — p. ex. des lois annuelles d'une année exclue de l'entraînement, alors que l'entraînement utilisait les lois de base consolidées
Chaque élément présente plusieurs passages sources candidats et demande lequel porte sur un sujet nommé
L'étiquette du sujet est tirée de la note marginale du passage, puis retirée du texte affiché, de sorte que la réponse ne puisse pas être retrouvée par correspondance de chaîne dans l'invite
Les distracteurs comprennent des passages de la même loi, de sorte que le seul titre de la loi ne résout pas l'élément
Noté par correspondance exacte sur l'identité de la source ; la référence aléatoire est rapportée à côté du score

Un score de recherche élevé selon cette construction reflète une véritable attribution sujet-vers-source, et non le rappel d'un texte d'entraînement.

La robustesse de la notation pour les modèles de raisonnement

Les modèles modernes émettent souvent une longue chaîne de pensée avant d'arrêter une réponse. Une extraction naïve de la réponse peut capter une lettre du raisonnement plutôt que la conclusion finale, produisant des scores qui varient selon le budget de jetons même si le modèle et les éléments sont fixes.

La méthodologie exige que l'extraction à choix multiples (lorsque la notation par log-vraisemblance n'est pas utilisée) retienne la réponse finale arrêtée par le modèle — le dernier engagement de réponse dans la réponse — et que l'extracteur soit validé en confirmant que les scores sont stables d'un budget de jetons à l'autre. Un noteur dont la sortie change selon la longueur de la réponse est traité comme un défaut à corriger avant de rapporter le moindre chiffre.

Le seuil de validation par des experts

Aucun score de volet n'est publiable tant que ses éléments n'ont pas franchi la validation par des experts :

Chaque élément est révisé par une personne qualifiée dans le domaine pertinent du droit canadien
Les éléments en français et de droit civil québécois sont en outre révisés par un réviseur compétent en français juridique
Les éléments aux réponses de référence erronées, à la formulation ambiguë ou aux citations fabriquées sont corrigés ou retirés avant la publication
Jusqu'à ce que cette révision soit terminée, les résultats sont publiés sous forme d'aperçu clairement étiqueté, l'état de validation étant indiqué sur chaque chiffre rapporté

Exigences de rapport

Tout résultat rapporté selon cette méthodologie doit indiquer :

Le modèle et le point de contrôle exacts évalués
Les scores par volet (jamais un seul chiffre fusionné)
Les ratios de parité bilingue, le cas échéant
La référence aléatoire pour les volets de recherche
Le nombre d'exemples (few-shot) et les paramètres de décodage
L'état de validation des éléments utilisés

Les régressions doivent être rapportées avec la même importance que les gains.

Pourquoi nous avons bâti ceci

Bâtir la norme pour nous seuls aurait été une occasion manquée. Le paysage de l'approvisionnement en IA au Canada — fédéral, provincial, services professionnels, entreprises réglementées — a besoin d'un instrument de mesure neutre quant au fournisseur, reproductible et propre au contexte canadien. Un tel instrument n'existait pas. Nous en avons donc bâti un et l'avons rendu public.

Nous nous attendons à être jugés à son égard nous-mêmes.

Citer ceci

SimpleDirect® (Alpine Pacific Trading Inc.), « Canadian Regulated-Workflow Evaluation Methodology (v1.0) », juin 2026.

Pour aller plus loin

Suite d'évaluation CBLRE (aperçu) — le jeu de tests public qui met en œuvre cette méthodologie, avec 129 éléments révisés par des experts sur six volets actifs.
Méthodologie de bancs d'essai des modèles v1.0 — comment nous appliquons cette méthodologie et la suite d'évaluation plus large pour mesurer nos propres modèles, de façon reproductible.

Pour aller plus loin

Voir les quatre biens publics Nous contacter

SimpleDirect®, exploitée sous Alpine Pacific Trading Inc., est une équipe basée à Toronto qui construit des modèles d'IA à poids ouverts, bilingues et de contexte canadien, que vous pouvez télécharger, exécuter et posséder.

Évaluer l'IA pour le travail réglementé canadien : une méthodologie

Pourquoi cela existe

Principes directeurs

Huit volets

La parité bilingue, mesurée correctement

Le français québécois exige son propre traitement

La recherche étanche aux fuites

La robustesse de la notation pour les modèles de raisonnement

Le seuil de validation par des experts

Exigences de rapport

Pourquoi nous avons bâti ceci

Citer ceci

Pour aller plus loin

Plus de SimpleDirect

Présentation de CBLRE : un banc d'essai public pour l'IA juridique bilingue canadienne

Comment nous mesurons nos modèles : le protocole de bancs d'essai

Chaque modèle, gratuit pour toujours