Name: Pierre Kasparian - Intégration IA freelance
Rating: 5

Quand une PME veut intégrer un LLM à ses données internes, deux approches reviennent systématiquement : le RAG et le fine-tuning. Ces deux techniques permettent d'adapter un LLM généraliste à un domaine spécifique, mais elles ne fonctionnent pas de la même façon et ne répondent pas aux mêmes problèmes.

Réponse directe : le RAG (Retrieval-Augmented Generation) connecte un LLM à une base de connaissances externe. Le modèle ne mémorise rien : il cherche et synthétise à chaque requête. Le fine-tuning réentraîne le modèle sur vos données pour modifier ses poids de façon permanente. RAG = accès dynamique à vos documents. Fine-tuning = apprentissage statique d'un style ou d'un domaine.

Ce guide détaille les différences pratiques, les cas d'usage réels et l'impact RGPD de chaque approche.

Qu'est-ce que le RAG ?

Le RAG est une architecture en deux temps :

Retrieval : au moment de la requête, le système cherche dans une base vectorielle (Qdrant, Weaviate, pgvector) les passages les plus pertinents parmi vos documents.
Generation : ces passages sont injectés dans le contexte du LLM, qui génère une réponse ancrée dans vos sources.

Le LLM lui-même n'est pas modifié. Vous pouvez mettre à jour vos documents en temps réel sans re-déployer quoi que ce soit. C'est l'architecture utilisée dans le RAG multi-clients Ailog, déployé pour LiveSession et plusieurs autres clients.

Coût infrastructure RAG : hébergement d'un moteur vectoriel (Qdrant : environ 30 à 80 €/mois sur un VPS EU pour un volume raisonnable) + coût d'inférence du LLM (modèle local = gratuit, API = variable selon le volume).

Qu'est-ce que le fine-tuning ?

Le fine-tuning consiste à continuer l'entraînement d'un modèle préexistant sur votre propre dataset. Vous fournissez des centaines ou milliers de paires (prompt, réponse attendue), et la rétropropagation modifie les poids du modèle.

Résultat : un modèle qui a intégré votre vocabulaire métier, votre style de réponse, ou vos contraintes de format. Cette connaissance est permanente : elle n'a pas besoin d'être réinjectée à chaque requête.

Coût fine-tuning : formation sur GPU (A100 ou H100), de quelques heures à plusieurs jours selon la taille du modèle. OpenAI propose du fine-tuning via API (gpt-4o-mini : environ 3 à 8 €/1M tokens d'entraînement). Pour un modèle open source (Llama 3, Mistral), comptez 1 à 4 $/h par GPU sur des plateformes comme Lambda Labs ou RunPod.

Quelle est la différence fondamentale ?

La différence fondamentale est que le RAG accède aux informations en temps réel depuis une base externe sans modifier le modèle, tandis que le fine-tuning modifie les poids du modèle de façon permanente à partir de vos données d'entraînement. RAG signifie accès dynamique aux données, fine-tuning signifie connaissance statique incorporée dans le modèle.

Critère	RAG	Fine-tuning
Accès aux données	Dynamique (temps réel)	Statique (figé à l'entraînement)
Mise à jour	Immédiate (re-indexer)	Nécessite un re-entraînement
Coût initial	Faible	Moyen à élevé
Coût en production	Proportionnel au volume	Fixe (modèle déployé)
Traçabilité des sources	Oui (citations possibles)	Non
Risque d'hallucination	Réduit (ancrage dans les sources)	Identique au modèle de base
Volume de données requis	Quelques documents suffisent	Centaines à milliers d'exemples

Quand choisir le RAG ?

Choisissez le RAG quand vos données changent fréquemment, que vous avez besoin de traçabilité des sources, ou que vous ne disposez pas de centaines d'exemples annotés. Le RAG fonctionne dès le premier document indexé et se met à jour en temps réel sans réentraînement, ce qui en fait le point de départ naturel pour la majorité des PME.

Le RAG est la bonne approche dans ces situations :

Documentation qui change souvent : base de connaissances interne, contrats, procédures, FAQ. Mettre à jour un index vectoriel prend quelques secondes ; re-entraîner un modèle prend des heures.
Traçabilité exigée : vous devez pouvoir citer quelle phrase du document a justifié la réponse. Indispensable dans les secteurs réglementés (santé, finance, droit).
Faible volume de données initiales : vous n'avez pas 500 exemples annotés mais vous avez des documents. Le RAG fonctionne dès le premier document indexé.
Réponses basées sur des faits précis : numéros de contrat, montants, dates. Le RAG ancre la réponse dans une source vérifiable ; le modèle ne peut pas inventer.

Quand choisir le fine-tuning ?

Le fine-tuning est pertinent quand vous cherchez à modifier le comportement intrinsèque du modèle :

Style et ton spécifique : votre marque a un ton particulier que le prompting seul ne reproduit pas de façon fiable.
Vocabulaire très spécialisé : terminologie médicale, juridique ou technique que le modèle de base ne maîtrise pas.
Format de sortie strict : JSON structuré d'une certaine façon, ou format propriétaire, avec un taux de conformité très élevé.
Volume très élevé avec contrainte de coût : à 10 millions de requêtes par mois, un modèle fine-tuné plus petit peut remplacer un gros modèle avec du prompting long et réduire le coût d'inférence.

RGPD : quelle approche est plus sûre ?

C'est la question que les PME françaises oublient souvent de poser, et elle est pourtant déterminante.

RAG avec modèle local ou hébergement EU : vous indexez vos documents dans Qdrant hébergé sur un serveur français ou européen (OVHcloud, Scaleway), et vous utilisez Mistral AI via leur API EU ou un modèle open source (Mistral 7B, Llama 3) auto-hébergé. Vos données ne quittent jamais l'Union européenne. C'est l'architecture recommandée et déployée par défaut pour les clients sensibles.

Fine-tuning via API OpenAI : l'Article 28 du RGPD impose un DPA (Data Processing Agreement) avec tout sous-traitant. OpenAI propose un DPA, mais le CLOUD Act américain de 2018 (Clarifying Lawful Overseas Use of Data Act) permet aux autorités américaines d'accéder aux données hébergées par des entreprises US, même en Europe. Envoyer vos données d'entraînement (emails clients, contrats, données RH) à OpenAI pour un fine-tuning expose vos données à ce risque, difficile à justifier devant la CNIL.

Fine-tuning open source en EU : fine-tuner Llama 3 ou Mistral sur un GPU loué chez OVHcloud élimine ce risque. Plus technique, mais RGPD-compatible.

Peut-on combiner les deux ?

Oui, et c'est souvent la meilleure architecture pour les cas complexes. Le pattern courant : fine-tuner un petit modèle (Mistral 7B) sur votre style et votre terminologie, puis lui connecter un RAG sur vos documents. Le modèle comprend votre vocabulaire métier ; le RAG lui fournit les faits précis en temps réel.

Cette combinaison donne la fluidité du fine-tuning et la précision factuelle du RAG. Le coût est plus élevé mais justifié pour des assistants métier à fort usage.

TL;DR

RAG et fine-tuning ne sont pas en compétition : ils répondent à des besoins différents. Pour la majorité des PME françaises, le RAG est le bon point de départ : moins cher, plus rapide à déployer, et plus facile à rendre RGPD-conforme. Le fine-tuning devient pertinent quand le style, le vocabulaire ou le volume de requêtes le justifient.

Vous hésitez entre les deux pour votre projet ? Décrivez votre cas d'usage et obtenez une recommandation concrète.

RAG vs fine-tuning : quelle différence et quand choisir ?