Pierre KasparianAI & Data freelancer
← Retour à la catégorie
PythonPDFLiteParseRAGRGPD

LiteParse v2.0 : extraction PDF locale sans LLM ni cloud

28 mai 2026 · 7 min de lecture · Guides

Pierre Kasparian

Freelance intégration IA · Spécialiste LLM, RAG · 11+ réalisations clients

Extraire du texte depuis des PDFs d'entreprise sans envoyer les données vers un service cloud externe : c'est la promesse de LiteParse v2.0, un outil open source entièrement réécrit en Rust par l'équipe LlamaIndex.

LiteParse v2.0 parse des PDFs et des documents Office en local, sans LLM, sans API distante. Le texte est extrait en respectant la mise en page originale, avec bounding boxes, de façon déterministe et sans dépendance réseau. Pour les entreprises qui manipulent des données sensibles (contrats, RH, comptabilité), c'est une brique essentielle pour un pipeline RAG conforme RGPD.

Pourquoi "sans cloud" change tout pour le RGPD

Envoyer un PDF vers une API d'extraction distante (Google Document AI, AWS Textract, Adobe Extract) revient à transférer des données vers un sous-traitant. L'Article 28 du RGPD exige que ce transfert fasse l'objet d'un DPA (Data Processing Agreement). Si le sous-traitant est une entreprise américaine, le CLOUD Act (2018) permet aux autorités américaines d'exiger l'accès à ces données, même hébergées en Europe.

Avec LiteParse, tout tourne en local : pas de réseau, pas de DPA à gérer, pas de risque de transfert hors UE.

Ce que LiteParse v2.0 apporte

LiteParse v2.0 est une réécriture complète en Rust du projet original (Node.js). Principaux changements :

  • Moteur Rust : performances jusqu'à 100x supérieures à v1.0 sur les petits documents, 3x sur les gros
  • Multi-langage : packages natifs pour Python, JavaScript/TypeScript, Rust, et WASM (navigateur et edge runtimes)
  • OCR intégré via Tesseract-rs pour les PDFs scannés
  • Pas de LLM : extraction purement structurelle, déterministe, reproductible
  • Layout préservé : le texte est restitué selon sa position spatiale dans le document

Benchmark publié : 0.777 seconde pour un document de 457 pages (100 Mo).

Installation

Python

pip install liteparse

JavaScript / TypeScript

npm install @llamaindex/liteparse

Rust

cargo install liteparse

Navigateur et edge runtimes (WASM)

npm install @llamaindex/liteparse-wasm

Le package WASM permet de parser des PDFs directement dans le navigateur, sans serveur. Les callbacks OCR sont configurés séparément en WASM (Tesseract n'est pas embarqué par défaut dans ce mode).

Utilisation en Python

from liteparse import parse_pdf
 
result = parse_pdf("contrat.pdf")
 
for page in result.pages:
    print(f"--- Page {page.number} ---")
    for block in page.blocks:
        print(block.text)
        print(f"  Bbox: {block.bbox}")  # (x, y, width, height)

L'extraction préserve l'ordre de lecture et les coordonnées spatiales de chaque bloc, ce qui facilite le découpage en chunks pour un pipeline RAG.

LiteParse ou PyMuPDF : lequel choisir ?

Les deux outils parsent des PDFs localement. Voici les différences clés :

CritèreLiteParse v2.0PyMuPDF (fitz)
LangagePython, JS, Rust, WASMPython uniquement
MoteurPDFium (fork custom)MuPDF (C)
OCR intégréOui (Tesseract-rs)Non (externe uniquement)
WASM / navigateurOuiNon
ÉcosystèmeLlamaIndexUniversel
Maturitév2.0 (2026)Très mature

Règle simple : pour un pipeline Python pur avec contrôle fin du parsing, PyMuPDF reste une référence solide. Si vous avez besoin de multi-langage, de WASM, ou d'intégration native dans LlamaIndex, LiteParse est le choix naturel.

Cas d'usage en entreprise

LiteParse convient particulièrement à :

  • Pipelines RAG sur documents internes : contrats, RH, documentation technique, sans exposer les PDFs vers l'extérieur
  • Traitement de factures et reçus : extraction locale, rapide, conforme RGPD
  • Applications web ou edge : parsing côté client via WASM, aucun serveur nécessaire
  • Workflows de conformité : audit documentaire où les données ne peuvent pas quitter l'infrastructure

Conclusion

LiteParse v2.0 s'impose comme une brique sérieuse pour l'extraction documentaire locale. Réécriture Rust, support multi-langage, OCR intégré et compatibilité WASM en font une option polyvalente pour les équipes qui veulent traiter des PDFs rapidement et sans envoyer de données dans le cloud.

Pour les entreprises françaises qui gèrent des données sensibles (données clients, contrats, dossiers RH), c'est exactement le type d'outil à privilégier dans une architecture IA RGPD-compatible.

Si vous souhaitez construire un pipeline d'extraction documentaire adapté à vos contraintes légales, prenez contact.

À propos de l'auteur

Pierre Kasparian

Étudiant ingénieur en fin de cursus à l'UTT (Université de Technologie de Troyes) et freelance en intégration IA. Il déploie des LLM, pipelines RAG et agents IA pour des PME françaises et européennes, avec une attention sur le RGPD et hébergement européen. 11+ réalisations clients, dont Pretto et LiveSession.