Le problème : des agents qui oublient tout
La plupart des agents IA souffrent aujourd'hui de la même limitation fondamentale : ils oublient tout dès que la session se termine. Même une fenêtre de contexte d'un million de tokens a ses limites — et son coût augmente linéairement à chaque requête.
C'est précisément ce fossé que Cognee v1.0 cible, sorti le 26 juin 2026. Plutôt que d'agrandir les fenêtres de contexte, Cognee construit un graphe de connaissances auto-actualisable qui persiste entre les sessions, compresse ce que les agents savent, et récupère exactement ce dont ils ont besoin — sans brûler des tokens sur des informations déjà traitées.
Qu'est-ce que Cognee ?
Cognee est une plateforme de mémoire IA open-source pour les agents. Elle ingère des données brutes dans n'importe quel format — texte, PDF, code, données structurées — et construit en continu un graphe de connaissances qui donne aux agents IA une mémoire persistante à long terme entre les sessions.
La version 1.0 introduit une API native de mémoire centrée sur quatre opérations :
- remember — stocker de nouvelles informations
- recall — récupérer des informations contextuelles
- improve — repondérer la mémoire selon les corrections et les retours
- forget — supprimer proprement des données quand elles ne sont plus nécessaires
Plus de 100 entreprises utilisent Cognee en production, générant 6 millions de souvenirs par mois. Le projet compte 17,5 k étoiles GitHub après le lancement de la v1.0, soutenu par une levée de fonds de 7,5 M$ auprès de Pebblebed (avec des fondateurs issus d'OpenAI et de Facebook AI Research).
Architecture : trois couches de stockage, un seul moteur mémoire
L'insight architectural clé de Cognee est qu'un seul type de stockage — le RAG vectoriel pur — laisse trop de valeur inexploitée. La v1.0 unifie trois couches :
| Couche | Ce qu'elle stocke | Backend par défaut |
|---|---|---|
| Stockage graphe | Entités, relations, concepts | PostgreSQL + pgvector |
| Stockage vectoriel | Embeddings sémantiques | pgvector / Qdrant / ChromaDB |
| Stockage relationnel | Documents, provenance, métadonnées | PostgreSQL |
Les trois couches sont interrogées ensemble au moment de la récupération. Résultat : Cognee peut répondre à "qu'est-ce que cet utilisateur m'a dit il y a trois semaines ?" avec la précision d'une traversée de graphe et la flexibilité sémantique de la recherche vectorielle.
L'architecture permet également le routage automatique — Cognee sélectionne la bonne stratégie de récupération (similarité vectorielle, traversée de graphe, lookup relationnel ou un hybride) selon le type de requête.
Démarrage rapide
Installation en une seule commande :
pip install cogneePour un stockage PostgreSQL (recommandé en production) :
pip install "cognee[postgres]"Voici une boucle minimale de mémoire d'agent :
import cognee
import asyncio
async def main():
# Stocker des informations de la session courante
await cognee.remember("L'utilisateur préfère des réponses concises, sans puces.")
await cognee.remember(
"Contexte du projet : construction d'un CRM pour une startup tunisienne.",
session_id="proj_123"
)
# Récupérer entre les sessions
results = await cognee.recall("Que préfère l'utilisateur ?")
project_ctx = await cognee.recall(
"Sur quel projet travaillons-nous ?",
session_id="proj_123"
)
# Mettre à jour la mémoire selon les retours
await cognee.improve()
# Nettoyer quand c'est fini
await cognee.forget(dataset="main_dataset")
asyncio.run(main())Le paramètre session_id délimite les souvenirs à une conversation ou un projet spécifique, vous donnant à la fois une mémoire persistante et éphémère dans la même API.
Interface en ligne de commande
Cognee embarque aussi un CLI pour tester rapidement sans écrire de Python :
cognee-cli remember "Vos informations ici"
cognee-cli recall "Votre requête ici"
cognee-cli forget --all
cognee-cli -ui # Lancer l'interface webIntégration MCP
Cognee v1.0 intègre nativement le protocole MCP (Model Context Protocol). Vous pouvez exposer Cognee comme serveur MCP que tout agent compatible MCP peut lire et écrire :
docker pull cognee/cognee-mcp:main
docker run -p 8001:8001 cognee/cognee-mcp:mainLe serveur MCP supporte les transports HTTP, SSE et stdio. Claude Desktop, Claude Code, Cursor, Windsurf, Cline et tout client MCP peuvent ainsi utiliser Cognee comme backend de mémoire partagée — un seul graphe de connaissances accessible à tous vos agents simultanément.
Backends de stockage
Cognee supporte une large gamme de backends pour correspondre à votre infrastructure existante :
Graphes : PostgreSQL (défaut), Neo4j, Amazon Neptune, KuzuDB
Vecteurs : pgvector (défaut), Qdrant, ChromaDB, Weaviate, Milvus, LanceDB
Sessions : Redis
Développement local : SQLite et KuzuDB — sans serveur requis
Pour les équipes en Afrique du Nord et au Moyen-Orient soumises aux exigences de résidence des données (INPDP en Tunisie, PDPL en Arabie saoudite), l'auto-hébergement avec PostgreSQL sur votre propre infrastructure garde toutes les mémoires dans la région, sans que les données ne la quittent.
Options de déploiement
Cognee v1.0 propose quatre modes de déploiement :
- Cloud géré — service hébergé sur cognee.ai, accès par clé API
- Auto-hébergé — instance PostgreSQL unique, propriété totale des données
- Edge / sur appareil — SDK Rust pour environnements contraints en ressources
- Workflows Node — SDK TypeScript pour les stacks JavaScript et Next.js
Déploiement cloud via Python en une ligne :
await cognee.serve(url="https://your-instance.cognee.ai", api_key="ck_...")Benchmarks BEAM
Cognee se mesure sur la suite BEAM (Benchmark for Evaluation of Agent Memory) :
| Taille du corpus | Cognee | SOTA précédent |
|---|---|---|
| 100 k tokens | 79 % | 73,4 % |
| 10 M tokens | 67 % | 64,1 % |
L'utilisation de tokens reste stable à mesure que la taille du corpus augmente. En comparaison, les approches tout-contexte voient leur coût croître linéairement.
Point d'équilibre : pour moins de 23 à 26 requêtes répétées, une grande fenêtre de contexte est souvent moins chère. Au-delà de ce seuil, la mémoire persistante de Cognee gagne systématiquement en coût comme en précision.
Quand ne pas utiliser la mémoire persistante ?
Cognee est une infrastructure — il ajoute une charge opérationnelle. Envisagez de vous en passer quand :
- Votre agent exécute une seule session sans attente de continuité
- Votre corpus fait moins de 50 k tokens et tient confortablement dans une fenêtre de contexte
- Vous avez besoin d'une latence minimale (la récupération par graphe ajoute un aller-retour réseau)
Pour les tâches sans état et ponctuelles, le long contexte reste gagnant. Pour tout ce qui construit une compréhension persistante des utilisateurs, un contexte de projet, ou un raisonnement inter-sessions, Cognee comble le fossé que le RAG seul ne peut pas réduire.
Écosystème et migration
Cognee v1.0 supporte la migration depuis les solutions existantes comme Mem0, Zep et Letta. La portabilité des données est assurée via le format ouvert COGX, sans jamais vous enfermer dans une solution propriétaire.
La plateforme s'intègre avec LangGraph, smolagents, et tout framework supportant le tool-calling ou MCP. Pour les équipes qui construisent sur le Claude Agent SDK, Cognee fournit exactement la couche de persistance mémoire qui rend les coéquipiers IA véritablement utiles sur des projets longs.
Conclusion
Cognee v1.0 plaide convaincamment pour que la mémoire des agents mérite sa propre couche d'infrastructure — non pas une astuce de prompt ou une fenêtre de contexte plus grande, mais un vrai moteur à base de graphes avec une sémantique ouverte.
Avec pip install cognee, quatre méthodes API simples, le support MCP natif, un hébergement flexible et des chemins de migration clairs depuis les solutions existantes, il est désormais simple de doter n'importe quel agent Python ou TypeScript d'une mémoire long-terme réellement utile entre les sessions.
La couche mémoire devient le troisième composant d'infrastructure critique pour les agents en production — après le modèle et le harnais d'exécution. Cognee v1.0 est la tentative open-source la plus crédible à ce jour pour occuper ce rôle.