La lacune
Si vous achetez de l'IA pour des travaux réglementés au Canada — juridiques, protection des renseignements personnels, constitutionnels — vous avez un problème : il n'existe aucun banc d'essai public standard qui mesure ce qui compte vraiment. Les bancs d'essai juridiques américains relèvent de la common law et sont uniquement en anglais. Les bancs d'essai multilingues généraux évaluent l'aisance en français, mais pas le français juridique. Aucun ne traite le droit civil québécois comme une tradition distincte. Aucun ne mesure la parité bilingue comme une mesure de premier ordre.
Un modèle peut bien réussir un banc d'essai juridique américain et demeurer inutilisable pour un flux de travail notarial québécois, une évaluation fédérale des facteurs relatifs à la vie privée ou une analyse fondée sur la Charte. Les bancs d'essai ne mesuraient tout simplement pas ces choses.
CBLRE — l'Évaluation juridique et réglementaire bilingue canadienne — est le banc d'essai public qui le fait.
Ce qu'est CBLRE
CBLRE est un jeu de tests ouvert pour évaluer les modèles de langue sur le raisonnement juridique et réglementaire bilingue canadien. La version actuelle (v1.0) contient 129 éléments révisés par des experts, répartis sur six volets actifs. Chaque élément est structuré comme un enregistrement JSON comportant un identifiant stable, l'invite, la vérité terrain validée et une documentation de provenance.
Les volets :
| Volet | Éléments | Langue | Type d'élément |
|---|---|---|---|
| Common law | 21 | EN | Doctrine à choix multiples |
| Droit civil québécois | 20 | FR | Choix multiples, Code civil du Québec |
| Constitutionnel / Charte | 22 | EN | Choix multiples + analyse structurée |
| Conformité — vie privée | 22 | EN/FR | Choix multiples, paires bilingues |
| Intégrité des citations | 22 | EN | Production / validation de citations |
| Calibrage de sûreté | 22 | EN | Classification refus / réponse |
Deux autres volets sont définis dans la méthodologie — la recherche ancrée (RAG) et la rétention des capacités générales — et sont évalués respectivement au moyen de jeux réservés complémentaires et de bancs d'essai publics standards.
Pourquoi cette structure
Trois choix de conception distinguent CBLRE des solutions de rechange :
Le droit civil québécois forme son propre volet, en français. La plupart des bancs d'essai « juridiques canadiens » (quand ils existent) traitent le droit civil comme une variante anglophone de la common law. CBLRE le traite pour ce qu'il est : une tradition juridique distincte, raisonnée en français, ancrée dans le Code civil du Québec.
La parité bilingue est mesurée, pas moyennée. Le volet de conformité en matière de vie privée est construit à partir de paires anglais/français appariées. Le ratio de parité — l'exactitude en FR divisée par l'exactitude en EN — est rapporté par volet. Un modèle peut être fort en raisonnement de protection de la vie privée en anglais et faible en français ; CBLRE le montrera, au lieu de le fondre dans une moyenne trompeuse.
La fiche du jeu de données ne publie aucun score de modèle. CBLRE v1.0 documente l'instrument : volets, structure des éléments, méthodes de notation, état de validation, limites. Les scores des modèles sont publiés séparément, seulement après validation par des experts, et uniquement à la version de la banque d'éléments qui les a produits. Les scores antérieurs ne peuvent pas être comparés aux scores ultérieurs ; chaque rapport doit citer la version utilisée.
Méthodes de notation
Chaque élément déclare explicitement sa méthode de notation :
- Correspondance exacte à choix multiples — notée sur la réponse finale arrêtée par le modèle ; la notation par log-vraisemblance est préférée lorsque le harnais la prend en charge.
- Validation des citations — vérifie une citation juridique correcte et bien formée par rapport à une référence, plutôt qu'une simple lettre.
- Calibrage refus / réponse — vérifie que le modèle refuse les demandes d'exercice non autorisé du droit et répond aux demandes d'information anodines.
- Correspondance exacte de recherche ancrée — correspondance d'identité de source sur un jeu réservé étanche aux fuites (version complémentaire).
La notation est déterministe pour un décodage fixe. Tout score rapporté à partir de CBLRE doit pouvoir être régénéré à partir des éléments et du code publiés.
État : de niveau préliminaire, en croissance
CBLRE v1.0 est la première version publique d'un banc d'essai évolutif. La banque d'éléments actuelle est un point de départ révisé par des experts, et non un ensemble final. Les chiffres issus de la v1.0 sont de niveau préliminaire et seront remplacés par des versions plus vastes et versionnées.
Nous publions à ce stade plutôt que d'attendre un ensemble « complet », parce que c'est la norme qui compte. Un banc d'essai public maintenu et en croissance est plus utile à l'approvisionnement et à la recherche en IA au Canada qu'un instantané unique et soigné.
Ce qui est en développement actif :
- Plus d'éléments par volet — bien au-delà des 129 actuels, chaque nouvel élément franchissant le même seuil de validation par des experts
- Une couverture de domaines plus large — s'étendant vers la fiscalité et les prestations, l'emploi et le travail, l'immigration, les valeurs mobilières et la conformité financière, ainsi que les recoupements entre santé et vie privée, à mesure que des réviseurs qualifiés sont recrutés
- Des éléments d'analyse structurée — des éléments de raisonnement structuré notés par grille (p. ex. des analyses complètes selon Oakes / la Charte) qui portent plus de signal que les choix multiples
- Un appariement bilingue élargi — des paires EN/FR appariées sur plus de volets
- Des versions versionnées et étiquetées par DOI — afin que les résultats antérieurs demeurent reproductibles par rapport à l'ensemble exact d'éléments qui les a produits
Comment l'utiliser
Pour les chercheurs et développeurs en IA :
- Chargez la banque d'éléments (JSONL).
- Servez le modèle à l'essai avec un décodage glouton (température 0) et une graine fixe.
- Exécutez le code de notation, qui dirige chaque élément vers sa méthode de notation déclarée.
- Rapportez l'exactitude par volet, les ratios de parité bilingue et — pour la recherche — la référence aléatoire à côté du score.
Pour les responsables de l'approvisionnement et les auteurs d'appels d'offres : CBLRE se veut citable dans les évaluations d'approvisionnement et les grilles de notation d'appels d'offres. Sa structure neutre quant au fournisseur — le même protocole s'applique à tout modèle, y compris les nôtres — fait qu'il peut être désigné comme norme d'évaluation dans les documents d'appel d'offres.
Pour les juristes et les chercheurs : la structure des volets correspond à de vrais domaines de pratique. Un avocat en protection de la vie privée qui évalue un outil d'IA peut consulter le ratio de parité en vie privée. Un constitutionnaliste peut consulter le volet de la Charte. Le document de méthodologie explique comment interpréter chacun d'eux.
Limites assumées
- L'ensemble est petit et en croissance. La v1.0 est révisée par des experts, mais de niveau préliminaire.
- CBLRE est rédigé par SimpleDirect ; les éléments ont d'abord été des ébauches assistées par IA, corrigées sous révision d'experts. Trois éléments aux réponses de référence erronées ont été repérés et retirés lors de la révision en cours — documenté ici par souci de transparence.
- CBLRE mesure l'exactitude juridique ; la qualité du dialecte et du registre québécois exige des évaluateurs humains de langue maternelle québécoise et est évaluée séparément dans la méthodologie.
- Sur une doctrine établie, des modèles compétents peuvent obtenir des scores quasi maximaux dans les volets à choix multiples. Les volets de recherche et de citation portent plus de signal entre des modèles forts.
Pourquoi nous publions ceci
Il n'existait aucun banc d'essai d'IA juridique bilingue canadien. Il en existe un maintenant. Nous l'avons bâti parce que le travail que nous faisons — entraîner et livrer de l'IA pour des flux de travail réglementés canadiens — exigeait une norme de mesure qui n'existait pas. La bâtir pour nous seuls aurait été une occasion manquée. La publier rend la norme accessible à tous ceux qui évaluent l'IA en contexte canadien : approvisionnement, recherche, milieu universitaire et autres fournisseurs.
L'instrument est neutre quant au fournisseur. Nous rapportons les scores de nos propres modèles à son égard. Nous nous attendons à ce que d'autres en fassent autant.
Citer ceci
SimpleDirect® (Alpine Pacific Trading Inc.), « CBLRE : Canadian Bilingual Legal & Regulatory Evaluation (v1.0) », juin 2026.
Les versions versionnées porteront des DOI une fois hébergées.
Pour aller plus loin
- Méthodologie d'évaluation de l'IA canadienne v1.0 — le protocole que CBLRE met en œuvre : quoi mesurer pour le travail d'IA réglementé canadien, et pourquoi.
- Méthodologie de bancs d'essai des modèles v1.0 — comment nous mesurons nos propres modèles à l'aide de CBLRE et de la suite d'évaluation plus large, de façon reproductible.
Pour aller plus loin