Ce document se concentre sur l'optimisation de l'intégration des sources de connaissances dans un chatbot (DialOnce). Il insiste sur :
Il est possible d'intégrer des sources de connaissances dans notre chatbot DialOnce.
Ces sources doivent être au format HTML, Markdown ou PDF.
Une fois insérée, chaque source est automatiquement convertie en Markdown par DialOnce, un format facilement interprétable par les modèles de langage (LLM).
Ce guide fournit des recommandations sur la structure optimale de vos sources pour créer un chatbot performant.
<aside> <img src="/icons/share_lightgray.svg" alt="/icons/share_lightgray.svg" width="40px" />
Si vos documents sont dans un format d’édition (.docx par exemple) il faut d’abord l’exporter en version pdf avant de l’insérer en tant que source de connaissances dans Crai Office.
</aside>
<aside> <img src="/icons/book_lightgray.svg" alt="/icons/book_lightgray.svg" width="40px" />
Vos sources seront transformées en format markdown, ce format permet:
⚠️ Tout ce qui est dans vos sources, mais pas dans cette liste, sera perdu dans la transformation
Par exemple : vidéos (mais un lien vers une vidéo est acceptable), couleur du texte, fichiers audio, taille du texte, police...
</aside>
<aside> <img src="/icons/photo-landscape_lightgray.svg" alt="/icons/photo-landscape_lightgray.svg" width="40px" />
Vos documents peuvent contenir des images.
Cependant, ces images ne sont pas utilisées lors de la rechercher d’information.
Elles peuvent uniquement être affichées par le chatbot lors de ses réponses à l'utilisateur.
Par exemple :
❌ Sans introduire les images avec du texte sur le PDF (sans texte d’intro avant l’image):


Réponse du bot
✅ Avec une phrase d’intro en texte au dessus de l’image sur PDF (avec une phrase d’intro avant l’image):


Reponse du bot
</aside>
<aside> <img src="/icons/subtask_lightgray.svg" alt="/icons/subtask_lightgray.svg" width="40px" />
Il est préférable d'éviter les schema (organigramme, arborescence, diagramme etc.), car le chatbot ne pourra pas les interpréter correctement ni en extraire les informations. Au mieux, ils seront traités comme des images, et au pire, ils seront fragmentés en plusieurs parties (images et texte), ce qui leur fera perdre tout leur sens. On conseille de soit: