Comment construire un système RAG simple et efficace ?

Un système RAG (Retrieval-Augmented Generation) combine la recherche d’information et la génération de texte pour répondre précisément aux questions en s’appuyant sur vos propres données. Découvrez ici comment créer un RAG simple et fiable en 7 étapes clés, illustré par un tutoriel complet.

3 principaux points à retenir.

Alimentez vos LLM avec vos données spécifiques pour éviter les hallucinations.
Transformez les textes en vecteurs pour faciliter la recherche sémantique efficace avec FAISS.
Associez la recherche contextuelle à un LLM pour générer des réponses précises et actualisées.

Qu’est-ce qu’un système RAG et comment ça fonctionne

Le système de génération augmentée par récupération, aussi connu sous le terme anglais Retrieval-Augmented Generation (RAG), est une approche innovante qui réconcilie l’efficacité des modèles de langage avec l’actualité des informations. L’idée centrale de ce mécanisme réside dans la récupération d’extraits pertinents d’une base de données ou d’un document pour enrichir une réponse générée par un modèle de langage, comme ceux que l’on trouve dans des assistants virtuels. Grâce à cette méthode, il devient possible de répondre à des questions en se basant sur des données à jour, réduisant ainsi les risques d’erreurs que l’on pourrait rencontrer avec des modèles n’ayant pas accès à l’information récente.

La structure fondamentale d’un système RAG repose sur deux composants principaux : le retriever et le générateur. Le retriever est responsable de chercher et d’extraire les passages les plus pertinents d’une base de données lorsqu’une requête utilisateur est formulée. Parallèlement, le générateur, souvent un modèle de langage, prend ces passages récupérés pour construire une réponse cohérente et bien formulée.

Pour illustrer cela de manière concrète, imaginons un utilisateur posant la question : « Quelles sont les caractéristiques de l’apprentissage supervisé ? ». Le fonctionnement d’un système RAG se déroule alors comme suit :

Le système reçoit la question de l’utilisateur.
Le retriever explore la base de données (par exemple, un ensemble de documents sur le machine learning) et récupère les passages pertinents concernant l’apprentissage supervisé.
Ces passages sont ensuite transmis au générateur, qui les utilise comme contexte.
Enfin, le générateur produit une réponse enrichie, basée non seulement sur sa formation initiale, mais également sur l’information fraîchement récoltée.

Cette synergie entre récupération et génération permet ainsi d’améliorer la qualité des réponses. À une époque où l’information est en constante évolution, intégrer le concept de retrieval-augmented generation devient essentiel pour des systèmes d’IA efficaces. Pour approfondir ce sujet, vous pouvez consulter cet article qui traite des dispositifs RAG : Qu’est-ce qu’un système RAG ?.

Comment préparer et nettoyer vos données pour un RAG fiable

Avant de plonger dans l’univers technique du RAG, abordons un point crucial : l’importance de disposer de données actualisées. Utiliser uniquement les connaissances préexistantes d’un LLM, c’est un peu comme se fier à des rumeurs dans une soirée arrosée — ça mène souvent à des erreurs, ou devrais-je dire, à de véritables hallucinations. En intégrant vos propres données, vous donnez un coup de fouet à la précision des réponses générées. Les modèles, aussi impressionnants soient-ils, ont tendance à floppr juste quand vous en avez le plus besoin, déterrant des informations obsolètes. Ainsi, préparer et nettoyer vos données devient une étape incontournable pour assurer un RAG fiable.

Commençons par le chargement de fichiers texte en Python. L’idée ici est de créer un script qui extraira le contenu brut de vos fichiers et le mettra à disposition du modèle. Un exemple simple pourrait ressembler à ceci :

import os

def load_documents(folder_path):
    docs = []
    for file in os.listdir(folder_path):
        if file.endswith(".txt"):
            with open(os.path.join(folder_path, file), 'r', encoding='utf-8') as f:
                docs.append(f.read())
    return docs

Cette fonction parcourt un répertoire spécifié, charge chaque fichier texte et l’ajoute à une liste. Cela établit une base de donnéesélémentaire à partir de laquelle on peut travailler.

Puis, nous aborderons le nettoyage des données. Si vos textes sont truffés de formatages étranges ou de caractères invalides, cela peut semer le chaos dans le processus de réponse. C’est ici qu’entrent en jeu les expressions régulières. Voici un exemple de fonction de nettoyage :

import re

def clean_text(text: str) -> str:
    text = re.sub(r'\s+', ' ', text)
    text = re.sub(r'[^\x00-\x7F]+', ' ', text)
    return text.strip()

Cette fonction supprime les espaces en trop et tout caractère non ASCII. Un texte propre, c’est un texte qui minimise les risques de mauvaise interprétation ! N’oubliez pas que la qualité de votre base documentaire influence directement la fiabilité de votre RAG.

Dans le cadre de vos projets, n’hésitez pas à vous référer à des ressources complémentaires comme celles disponibles dans ce guide officiel. Il peut également vous fournir de précieux conseils pour affiner vos données et optimisez vos processus RAG.

Pourquoi et comment découper le texte en morceaux pertinents

Les modèles de langage, aussi puissants soient-ils, n’échappent pas à certaines limitations, en particulier celle de leur fenêtre de contexte. Ces modèles peuvent traiter uniquement une quantité limitée de données textuelles à la fois, généralement entre 512 et 4096 tokens selon le modèle. Cela signifie que si un document contient plus de mots que la limite, il faudra le découper en morceaux pour maintenir la précision du traitement. En d’autres termes, pour obtenir des réponses pertinentes, il devient essentiel de fragmenter le contenu en unités plus petites, appelées « chunks ».

Dans ce cadre, RecursiveCharacterTextSplitter de LangChain devient un outil précieux. Il permet de découper les documents à des points naturels comme les phrases ou les paragraphes tout en conservant un sens logique dans chaque segment. Imaginez que vous ayez un article de recherche de 10 pages à analyser. Plutôt que d’envoyer tout le texte à votre modèle de langage (ce qui pourrait entraîner une confusion et des réponses inexactes), vous pouvez le segmenter en morceaux de 300 à 500 mots. C’est précisément là que la capacité de chevauchement entre ces morceaux entre en jeu.

Le chevauchement est crucial pour éviter que le modèle ne perde le fil du discours à la fin d’un morceau, ce qui pourrait créer des coupures abruptes dans le sens obtenu. Par exemple, si un morceau se termine au milieu d’une phrase, le modèle risque de générer des réponses qui ne rendent pas correctement la continuité de l’idée. En intégrant un chevauchement de 100 mots entre les morceaux, vous garantissez que chaque segment conserve le contexte de son voisin. Voici un exemple de code qui illustre comment utiliser RecursiveCharacterTextSplitter :

from langchain.text_splitter import RecursiveCharacterTextSplitter

def split_docs(documents, chunk_size=500, chunk_overlap=100):
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap
    )
    chunks = splitter.create_documents(documents)
    print(f"Total chunks created: {len(chunks)}")
    return chunks

Dans cet exemple, le texte est divisé en morceaux de 500 mots avec un chevauchement de 100 mots. En appliquant cette méthode lors de la construction de votre système RAG, vous optimisez non seulement la pertinence des réponses générées mais aussi la fluidité du contenu traité. En somme, une bonne gestion du découpage est la clé pour garantir des résultats de qualité dans votre pipeline d’information.

Comment transformer vos textes en vecteurs exploitables

Dans le monde fascinant de l’intelligence artificielle, transformer nos textes en vecteurs numériques n’est pas qu’une simple formalité. C’est un exercice crucial qui permet d’optimiser la recherche sémantique. Pourquoi ? Parce qu’un modèle de langage comprend les chiffres bien mieux que les mots. Imaginez que vous devez enseigner un langage complexe à un enfant : utiliser des jeux et des images peut simplifier l’apprentissage. En gros, la conversion de texte en vecteurs crée des représentations numériques de la signification d’un texte, ce qui permet d’effectuer des recherches bien plus pertinentes.

Parmi les outils disponibles dans cet espace, nous avons des champions comme SentenceTransformers, OpenAI et Hugging Face. Prenons par exemple SentenceTransformers. Avec un simple modèle tel que ‘all-MiniLM-L6-v2’, vous pouvez facilement obtenir des embeddings pour vos textes. Il n’y a pas de magie ici, juste des mathématiques précises et des réseaux neuronaux qui font le travail. Mais voyons comment ça fonctionne concrètement.

from sentence_transformers import SentenceTransformer
import numpy as np

def get_embeddings(text_chunks):
    model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
    embeddings = model.encode(text_chunks, show_progress_bar=True)
    return np.array(embeddings)

Une fois que vous avez vos vecteurs, il devient impératif de les stocker efficacement pour une recherche rapide. C’est là qu’entre en jeu FAISS (Facebook AI Similarity Search). FAISS est optimisé pour gérer de grandes quantités de données, facilitant ainsi la recherche des documents similaires. La première étape consiste à construire un index à partir des embeddings, puis à sauvegarder cet index pour une utilisation future. Voici comment vous pouvez le faire :

import faiss
import numpy as np

def build_faiss_index(embeddings, save_path="faiss_index"):
    dim = embeddings.shape[1]
    index = faiss.IndexFlatL2(dim)
    index.add(embeddings.astype('float32'))
    faiss.write_index(index, f"{save_path}.index")
    return index

Et n’oubliez pas de sauvegarder les métadonnées associées à ces vecteurs, car elles nous permettent de retrouver facilement les textes d’origine. Chaque vecteur doit être lié à son texte pour que notre système soit opérationnel et efficace.

Pour approfondir davantage sur ce thème, vous pouvez consulter cet article pertinent ici.

Comment récupérer et combiner les passages pour générer des réponses précises

Quand on parle de RAG, l’art de récupérer et de combiner les passages pour générer des réponses n’est jamais une mince affaire. Mais ne vous inquiétez pas, on va décortiquer ça ensemble. Tout commence par une question de l’utilisateur. Cette question va être transformée en un vecteur, comme une pièce de puzzle numérique qui va s’imbriquer parfaitement dans notre système de récupération de données. On va utiliser notre moteur FAISS pour ça.

Tout d’abord, il faut embêter un peu notre système en convertissant la question en un vecteur, semblable à ce que nous avons fait avec nos chunks de texte. Voici un aperçu du code que vous pouvez utiliser pour cette opération :

from sentence_transformers import SentenceTransformer

def embed_query(query):
    model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
    query_vector = model.encode([query]).astype('float32')
    return query_vector

Une fois que nous avons notre vecteur de requête, il est temps de poser notre question au moteur FAISS. Le processus est simple : nous allons rechercher les passages les plus pertinents en comparant notre vecteur de requête à ceux des chunks sauvegardés. Check ça :

def retrieve_similar_chunks(query, index, text_chunks, top_k=3):
    query_vector = embed_query(query)
    distances, indices = index.search(query_vector, top_k)
    return [text_chunks[i] for i in indices[0]]

Une fois que nous avons récupéré les textes pertinents, il est crucial de les combiner. C’est comme faire une belle salade : on prend un peu de chaque ingrédient pour obtenir un goût harmonieux. On fusionne les chunks récupérés pour créer un contexte qui sera ensuite glissé dans notre prompt pour le modèle de langage. Voici comment créer ce contexte :

context_chunks = retrieve_similar_chunks(query, index, text_chunks, top_k=3)
context = "\n\n".join(context_chunks)

Maintenant, armé de votre contexte, il ne reste plus qu’à le passer à un modèle de langage. Utilisons Hugging Face pour générer une réponse :

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

def generate_answer(query):
    # Chargement du modèle
    model_name = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForCausalLM.from_pretrained(model_name)

    # Préparation du prompt
    prompt = f"Context:\n{context}\nQuestion:\n{query}\nAnswer:\n"
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

    with torch.no_grad():
        outputs = model.generate(**inputs, max_new_tokens=200)
    answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return answer.split("Answer:")[1].strip() if "Answer:" in answer else answer.strip()

Voilà, vous êtes maintenant capable de créer un système qui récupère des informations pertinentes, crée un contexte cohérent et génère des réponses éclairées !

Étape	Outils / Fonctions Clés
Création de vecteur pour la requête	SentenceTransformer
Recherche dans FAISS	FAISS, search()
Combinaison des passages	join()
Génération de réponse	Hugging Face Transformers

Ça vous donne une bonne vue d’ensemble, n’est-ce pas ? Pour aller plus loin, vous pouvez aussi consulter d’autres ressources comme ce guide sur la construction de systèmes RAG multimodaux. Attrapez vos outils, et bon codage !

Prêt à intégrer un système RAG dans vos projets dès maintenant ?

Le RAG offre une stratégie robuste pour enrichir les modèles de langue avec des données spécifiques, actualisées et pertinentes, éliminant la dépendance aux seules connaissances statiques du LLM. En suivant ces étapes précises, vous sécurisez la pertinence et la fraîcheur des réponses fournies. Pour tout professionnel du data engineering ou de l’IA, maîtriser un pipeline RAG est un atout stratégique pour créer des agents intelligents, fiables et facilement adaptables. Adopter cette approche, c’est s’assurer d’une réponse précise, contextualisée, et donc d’un réel avantage business.

FAQ

Qu’est-ce qu’un système Retrieval-Augmented Generation (RAG) ?

Un système RAG combine un moteur de recherche pour extraire les passages pertinents de documents avec un modèle de langage qui génère des réponses contextualisées et précises en s’appuyant sur ces informations externes.

Pourquoi découper les documents en morceaux avant d’utiliser un LLM ?

Les LLM ont une fenêtre contextuelle limitée ; découper les documents en morceaux courts et qui se chevauchent permet d’éviter la perte d’information et d’améliorer la pertinence lors de la recherche et de la génération de réponse.

Comment crée-t-on des vecteurs pour la recherche sémantique ?

On utilise des modèles d’embeddings comme SentenceTransformers pour transformer des textes en vecteurs numériques représentant leur sens, facilitant ainsi la recherche rapide et pertinente avec des outils comme FAISS.

Quel rôle joue FAISS dans un système RAG ?

FAISS est une librairie optimisée pour indexer et rechercher rapidement les vecteurs d’embeddings, permettant de retrouver efficacement les passages les plus proches d’une requête dans une grande base de données textuelle.

Peut-on utiliser n’importe quel modèle de langage pour générer les réponses ?

Oui, mais il faut privilégier des LLM capables de gérer des prompts avec contexte étendu ; open source ou commerciaux peuvent convenir selon les besoins de précision, de coût et de confidentialité.

A propos de l’auteur

Je suis Franck Scandolera, consultant expert en data engineering et IA générative, avec plus d’une décennie d’expérience dans la conception de pipelines data robustes, l’automatisation intelligente et la formation sur les technologies IA. Responsable de l’agence webAnalyste et formateur reconnu en analytics, je guide des entreprises en France et au-delà dans la mise en œuvre de solutions innovantes basées sur les LLM et les architectures RAG, garantissant qualité, conformité et performance.

Franck Scandolera

⭐ Analytics engineer, Data Analyst et Automatisation IA indépendant ⭐

Ref clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Football Français, Texdecor…

Mon terrain de jeu :

Data Analyst & Analytics engineering : tracking avancé (GTM server, e-commerce, CAPI, RGPD), entrepôt de données (BigQuery, Snowflake, PostgreSQL, ClickHouse), modèles (Airflow, dbt, Dataform), dashboards décisionnels (Looker, Power BI, Metabase, SQL, Python).
Automatisation IA des taches Data, Marketing, RH, compta etc : conception de workflows intelligents robustes (n8n, App Script, scraping) connectés aux API de vos outils et LLM (OpenAI, Mistral, Claude…).
Engineering IA pour créer des applications et agent IA sur mesure : intégration de LLM (OpenAI, Mistral…), RAG, assistants métier, génération de documents complexes, APIs, backends Node.js/Python.