Comprendre les coûts d'un projet RAG en production
Un système RAG (Retrieval-Augmented Generation) combine une base de données vectorielle avec un modèle de langage pour interroger vos documents internes. Le coût total dépend de trois postes : l'indexing initial des documents (embeddings), les tokens input consommés à chaque requête (question + contexte récupéré), et les tokens output générés par le LLM (réponse). Ce calculateur estime ces trois composantes en temps réel selon les tarifs officiels GPT-4o, GPT-5.5, Claude Sonnet 4.6, Claude Opus 4.6 et Mistral.
Quel modèle LLM choisir pour un RAG conforme RGPD ?
Pour les entreprises françaises et européennes soumises au RGPD, le choix du modèle LLM va au-delà du simple coût par token. Mistral AI, société française, propose des modèles open source déployables en hébergement souverain (OVHcloud, Scaleway) : les données ne quittent pas l'UE. Mistral Large 3 à 0,50 $/1M tokens input est aujourd'hui l'option la plus économique pour un RAG à fort volume avec hébergement EU. Claude Sonnet 4.6 et GPT-4o restent pertinents pour des cas d'usage complexes via API, mais impliquent un transfert de données vers des serveurs américains — à encadrer contractuellement (DPA, clauses SCCs).
Comment réduire les coûts tokens d'un RAG en entreprise ?
Plusieurs techniques permettent de diviser la facture LLM par 3 à 10 : le chunking adaptatif (chunks de 256 à 512 tokens selon la densité du document), le filtrage par seuil de similarité cosinus pour n'injecter que les passages réellement pertinents, la compression du contexte via un modèle léger avant appel au LLM principal (RAG-Fusion), et le routing intelligent qui oriente les requêtes simples vers Mistral Large 3 et les requêtes complexes vers Claude Opus 4.6. Un audit d'architecture RAG permet généralement d'identifier 50 à 80 % d'économies sans dégrader la qualité des réponses.
Coût d'un chatbot RAG sur documents internes : ordre de grandeur
Pour une PME de 50 utilisateurs posant 5 questions par jour (soit environ 7 500 requêtes/mois), le coût mensuel d'un RAG avec Claude Sonnet 4.6 est de l'ordre de 100 $ avec les hypothèses par défaut de ce calculateur. Avec Mistral Large 3 en hébergement souverain, ce coût tombe autour de 14 $ pour les tokens API, auxquels s'ajoutent les frais d'infrastructure GPU (~30 €/mois sur OVHcloud). Le coût d'indexing initial (embeddings) reste inférieur à 1 centime pour un corpus de 500 pages et ne se paie qu'une fois.