tadata
Retour à l'accueil

Architecture RAG : Ancrer les LLMs dans Vos Données

#artificial-intelligence#vector-search#rag#llm#architecture

La génération augmentée par la récupération (RAG) est le pattern dominant pour construire des applications LLM sur des données privées. Au lieu de fine-tuner un modèle, vous récupérez des fragments pertinents au moment de la requête et les injectez dans le prompt. Bien fait, cela réduit les hallucinations et maintient les connaissances à jour.

Architecture du Pipeline RAG

Requête Utilisateur
    |
    v
+---------------------+
| Traitement requête  |  (réécriture, expansion, décomposition)
+---------------------+
    |
    v
+---------------------+     +--------------------+
| Modèle d'embedding  |     | Ingestion Documents|
| (requête -> vecteur)|     |   |                 |
+---------------------+     |   v                 |
    |                        | Découpage          |
    v                        | Embedding          |
+---------------------+     | Indexation         |
| Recherche vectorielle|<---+--------------------+
+---------------------+
    |
    v
+---------------------+
| Re-ranking          |  (cross-encoder, Cohere Rerank, etc.)
+---------------------+
    |
    v
+---------------------+
| Assemblage prompt   |  (prompt système + fragments + requête)
+---------------------+
    |
    v
+---------------------+
| Génération LLM      |  (GPT-4, Claude, Llama, etc.)
+---------------------+

Comparaison des Stratégies de Découpage

StratégieTailleChevauchementAvantagesInconvénientsIdéal pour
Taille fixe256-512 tokens10-20%Simple, prévisibleCoupe en pleine phraseDocuments homogènes
Par phrase1-5 phrases1 phrasePréserve le sensTailles inégalesTexte narratif
Par paragraphe1-3 paragraphes0-1Limites naturellesGrande varianceArticles structurés
SémantiqueVariableAdaptatifGroupe le contenu liéPlus lent, plus complexeDocuments mixtes
RécursifTaille cible10-20%Respecte la structureNécessite connaissance du formatMarkdown, HTML, code
Parent-EnfantPetit (recherche) + grand (contexte)N/ARecherche précise, contexte richeIndexation complexeLongs documents

Comparaison des Modèles d'Embedding

ModèleDimensionsTokens maxScore MTEBCoûtOuvert/Ferme
OpenAI text-embedding-3-large30728191~650,13 $/1M tokensFermé
OpenAI text-embedding-3-small15368191~620,02 $/1M tokensFermé
Cohere embed-v31024512~650,10 $/1M tokensFermé
BGE-large-en-v1.51024512~64Gratuit (self-host)Ouvert
E5-mistral-7b-instruct409632768~66Gratuit (self-host)Ouvert
nomic-embed-text-v1.57688192~62Gratuit (self-host)Ouvert

Matrice des Méthodes de Recherche

MéthodePrécisionRappelLatenceComplexitéQuand l'utiliser
Recherche vectorielle denseÉlevéeMoyenneRapideFaiblePoint de départ par défaut
Sparse (BM25/SPLADE)MoyenneÉlevéeRapideFaibleRequêtes avec mots-clés exacts
Hybride (Dense + Sparse)ÉlevéeÉlevéeMoyenneMoyenneSystèmes de production
Multi-requêteÉlevéeTrès élevéeLenteMoyenneQuestions complexes
Graphe de connaissances + VecteurTrès élevéeÉlevéeLenteÉlevéeConnaissances structurées

Cadre d'Évaluation RAGAS

MétriqueCe que ça mesurePlageCible
FaithfulnessLa réponse est-elle ancrée dans le contexte ?0-1> 0,85
Answer RelevanceLa réponse répond-elle à la question ?0-1> 0,80
Context PrécisionLes fragments récupérés sont-ils pertinents ?0-1> 0,75
Context RecallTous les fragments nécessaires ont-ils été récupérés ?0-1> 0,75

Ressources

Nous utilisons des cookies analytiques pour améliorer votre expérience. Aucune donnée personnelle n'est collectée.