Passer au contenu principal
Toutes les nouvellesMéthodologie

L'affinage constitutionnel, en langage clair

Comment nous prenons un modèle ouvert solide et l'entraînons à vivre selon un ensemble de règles écrites que vous pouvez lire — les trois techniques, ce que nous avons emprunté et à qui, et là où ça achoppe. Le document technique complet, avec le code, sort le 8 août.

Par l'équipe SimpleDirectToronto · 17 juin 20267 min de lecture

Plus tôt, nous avons dit que nous vous montrerions comment Vinci est réellement fabriqué — la partie que les gens croient secrète. La voici donc, en langage clair. Le document technique complet, avec le code, sort le 8 août en même temps que les poids.

Nous l'écrivons ouvertement à dessein. Si ce qui est censé mériter votre confiance est une méthode que nous refusons de montrer, ce n'est pas de la confiance, c'est de la foi. Nous préférons montrer notre travail.

L'idée en une phrase

L'affinage constitutionnel, c'est la façon dont nous prenons un modèle ouvert solide et l'entraînons à vivre réellement selon un ensemble de règles écrites que vous pouvez lire.

Il y a deux documents, et les deux sont publics.

La Constitution est le règlement — environ 5 000 mots sur ce que Vinci valorise, ce qu'il refuse et ce qu'il s'engage à faire. Le document de Caractère est la personnalité — comment il sonne, comment il porte ces valeurs dans une vraie conversation, la voix que vous reconnaîtriez.

Vous lisez les deux avant de déployer quoi que ce soit. Ensuite, vous vérifiez que le modèle devant vous se comporte comme les documents le disent. C'est tout l'intérêt : la spécification n'est pas interne, elle accompagne le modèle, et c'est ce dont nous sommes responsables.

Comment ça fonctionne vraiment

Les mécanismes se résument à trois techniques, et aucune n'est exotique. Ce sont des outils standards utilisés partout dans le monde des modèles ouverts. Voici ce que fait chacune, sans laisser le jargon faire l'explication.

Lui montrer qui il est. Nous donnons au modèle un ensemble d'exemples qui renforcent sa propre identité et sa voix — pour qu'il sache qui il est censé être et le reste. (Dans le document : affinage supervisé d'identité.)

Lui montrer comment on fait les choses ici. Nous lui donnons des exemples concrets de la Constitution en action dans les situations qu'il rencontrera réellement — l'équivalent d'accueillir quelqu'un en lui disant « voici comment on gère ceci, et cela, et cela », plutôt que de lui tendre un manuel en espérant. (Affinage supervisé comportemental.)

Lui enseigner le jugement, pas seulement les règles. C'est celle qui fait le plus de travail. Nous montrons au modèle des paires de réponses — une bonne et une moins bonne — et nous lui apprenons à préférer la bonne. Et nous avons construit ces paires précisément autour des travers dont tout le monde est fatigué : le « Excellente question ! » réflexe, le « Je dois préciser… » qui se racle la gorge, le sermon de sécurité sur une demande parfaitement inoffensive. Nous avons entraîné cela hors du modèle, à dessein, en préférant toujours la version qui fait simplement le travail. (Optimisation directe des préférences, ou DPO.)

Il y a aussi un élément plus discret. Au lieu de seulement dire les règles au modèle, nous le laissons apprendre à partir de matériel rédigé comme si les règles étaient déjà la norme — la façon dont on absorbe la culture d'une entreprise en y travaillant, et non en lisant une fois la politique interne. C'est ce qui fait que les valeurs tiennent sous pression au lieu de s'écailler à la première poussée.

Ce que nous avons emprunté, et à qui

Nous voulons être francs là-dessus, parce que ça fait partie de l'idée.

Nous n'avons pas inventé ces techniques. L'approche par documents synthétiques, la méthode de réécriture pour aligner qui fait une grande partie du travail pour l'entraînement du caractère, le travail au moment de l'inférence qui garde la personnalité d'un modèle stable quand quelqu'un tente de le contourner — tout cela provient de recherches publiées par Anthropic, OpenAI, DeepMind et Apollo Research. Nous les avons adaptées pour fonctionner par-dessus une base ouverte plutôt qu'un entraînement à partir de zéro, et nous nommons chaque source dans le document de méthodologie.

Ce qui est à nous, c'est la combinaison : une Constitution publique comme source de vérité, un document de Caractère pour la personnalité, des paires de préférences construites autour des travers du monde réel, et un ensemble de vérification pour que vous puissiez contrôler le résultat. Pas les ingrédients — la recette, et le fait que nous la cuisinons au grand jour.

Une chose qui mérite d'être clarifiée

Plus tôt, nous avons tenu à dire que nous ne gavons pas le modèle de connaissances — que les faits appartiennent à la bibliothèque qu'il consulte, tenue à jour, et non figés dans les poids. Ceci pourrait sembler l'inverse. Ce ne l'est pas.

Nous ne cuisons pas de faits dans Vinci ici. Les faits changent, et ceux-là vivent toujours dans la recherche documentaire, où ils restent frais.

Ce que nous y cuisons, c'est le caractère — comment il se comporte, ce qu'il refuse, qui il est. Cela devrait être stable. Vous ne voulez pas d'un modèle dont les valeurs dérivent au gré de l'actualité. La séparation est donc simple : la connaissance reste dans la bibliothèque, le caractère va dans les poids, et l'affinage constitutionnel est la façon dont le caractère y parvient.

Ce que ce n'est pas

Un billet de méthodologie qui ne fait qu'énumérer des forces est une brochure de vente. Quelques limites honnêtes, parce qu'elles comptent plus que les forces.

Ce n'est pas une promesse de comportement parfait. Les modèles ouverts affinés peuvent tout de même être contournés. Nous publions les résultats des tests adverses précisément parce qu'ils montrent où Vinci tient et où il ne tient pas — et la Constitution nous engage à publier un diagnostic et un correctif dans les 30 jours lorsque son comportement déployé s'écarte de la spécification.

Ce n'est pas nous qui faisons avancer la recherche en sécurité. Nous nous appuyons sur le travail de sécurité d'autrui, nous l'adaptons, et nous le disons. Nous n'allons pas prétendre avoir bâti cette pile tout seuls.

Ce n'est pas la seule façon de faire. D'autres équipes feront des choix différents et raisonnables. Nous avons choisi cette combinaison parce qu'elle fonctionne sur des bases ouvertes, produit quelque chose que vous pouvez vérifier, et permet à une petite équipe de livrer un produit crédible.

Et ce n'est pas propre au Canada. La méthodologie est générale. Il se trouve que vinci-studio se spécialise dans le travail professionnel réglementé où le contexte canadien compte, mais l'approche fonctionne pour n'importe quelle spécialisation sur n'importe quelle base ouverte.

Pourquoi c'est important pour l'IA ouverte

Les fournisseurs fermés vous demandent de croire que leur modèle se comporte comme ils le disent. Vous ne pouvez pas vérifier.

Les fournisseurs ouverts vous remettent des poids, mais habituellement aucune spécification écrite de la façon dont la chose est censée agir et aucun test publié — vous avez donc un modèle qui fait des choses sans vous dire lesquelles, ni pourquoi.

L'affinage constitutionnel est notre tentative de combler cet écart du côté ouvert. Les poids sont ouverts. La Constitution énonce le comportement visé. Le document de Caractère énonce la personnalité visée. Les résultats adverses montrent le comportement mesuré. Vous alignez ce que nous avons voulu, ce que nous avons décrit et ce que nous avons mesuré avec ce que vous observez réellement dans votre propre déploiement.

C'est tout ce que « vérifiable » veut dire. Ce n'est pas un slogan. C'est simplement l'ensemble de documents qui vous permettent de vérifier.

Ce qui sort le 8 août

vinci-studio est le premier modèle que produit ce processus. Il est accompagné des poids ouverts (Apache 2.0, sur Hugging Face), de la Constitution v1.0, du document de Caractère v1.0, du texte de méthodologie complet avec le code, et des résultats des tests adverses — HarmBench, JailbreakBench et un banc d'essai sur la censure des modèles chinois — exécutés contre les poids exacts que nous déployons.

L'ensemble est le produit. Le modèle ne fait que l'exécuter.

À bientôt, L'équipe SimpleDirect

Pour aller plus loin


SimpleDirect®, exploitée sous Alpine Pacific Trading Inc., est une équipe basée à Toronto qui construit des modèles d'IA à poids ouverts, bilingues et de contexte canadien, que vous pouvez télécharger, exécuter et posséder.

Partager