Cognee v1.0 : Ajoutez une mémoire persistante à vos agents IA

Le problème : des agents qui oublient tout

La plupart des agents IA souffrent aujourd'hui de la même limitation fondamentale : ils oublient tout dès que la session se termine. Même une fenêtre de contexte d'un million de tokens a ses limites — et son coût augmente linéairement à chaque requête.

C'est précisément ce fossé que Cognee v1.0 cible, sorti le 26 juin 2026. Plutôt que d'agrandir les fenêtres de contexte, Cognee construit un graphe de connaissances auto-actualisable qui persiste entre les sessions, compresse ce que les agents savent, et récupère exactement ce dont ils ont besoin — sans brûler des tokens sur des informations déjà traitées.

Qu'est-ce que Cognee ?

Cognee est une plateforme de mémoire IA open-source pour les agents. Elle ingère des données brutes dans n'importe quel format — texte, PDF, code, données structurées — et construit en continu un graphe de connaissances qui donne aux agents IA une mémoire persistante à long terme entre les sessions.

La version 1.0 introduit une API native de mémoire centrée sur quatre opérations :

remember — stocker de nouvelles informations
recall — récupérer des informations contextuelles
improve — repondérer la mémoire selon les corrections et les retours
forget — supprimer proprement des données quand elles ne sont plus nécessaires

Plus de 100 entreprises utilisent Cognee en production, générant 6 millions de souvenirs par mois. Le projet compte 17,5 k étoiles GitHub après le lancement de la v1.0, soutenu par une levée de fonds de 7,5 M$ auprès de Pebblebed (avec des fondateurs issus d'OpenAI et de Facebook AI Research).

Architecture : trois couches de stockage, un seul moteur mémoire

L'insight architectural clé de Cognee est qu'un seul type de stockage — le RAG vectoriel pur — laisse trop de valeur inexploitée. La v1.0 unifie trois couches :

Couche	Ce qu'elle stocke	Backend par défaut
Stockage graphe	Entités, relations, concepts	PostgreSQL + pgvector
Stockage vectoriel	Embeddings sémantiques	pgvector / Qdrant / ChromaDB
Stockage relationnel	Documents, provenance, métadonnées	PostgreSQL

Les trois couches sont interrogées ensemble au moment de la récupération. Résultat : Cognee peut répondre à "qu'est-ce que cet utilisateur m'a dit il y a trois semaines ?" avec la précision d'une traversée de graphe et la flexibilité sémantique de la recherche vectorielle.

L'architecture permet également le routage automatique — Cognee sélectionne la bonne stratégie de récupération (similarité vectorielle, traversée de graphe, lookup relationnel ou un hybride) selon le type de requête.

Démarrage rapide

Installation en une seule commande :

pip install cognee

Pour un stockage PostgreSQL (recommandé en production) :

pip install "cognee[postgres]"

Voici une boucle minimale de mémoire d'agent :

import cognee
import asyncio
 
async def main():
    # Stocker des informations de la session courante
    await cognee.remember("L'utilisateur préfère des réponses concises, sans puces.")
    await cognee.remember(
        "Contexte du projet : construction d'un CRM pour une startup tunisienne.",
        session_id="proj_123"
    )
 
    # Récupérer entre les sessions
    results = await cognee.recall("Que préfère l'utilisateur ?")
    project_ctx = await cognee.recall(
        "Sur quel projet travaillons-nous ?",
        session_id="proj_123"
    )
 
    # Mettre à jour la mémoire selon les retours
    await cognee.improve()
 
    # Nettoyer quand c'est fini
    await cognee.forget(dataset="main_dataset")
 
asyncio.run(main())

Le paramètre session_id délimite les souvenirs à une conversation ou un projet spécifique, vous donnant à la fois une mémoire persistante et éphémère dans la même API.

Interface en ligne de commande

Cognee embarque aussi un CLI pour tester rapidement sans écrire de Python :

cognee-cli remember "Vos informations ici"
cognee-cli recall "Votre requête ici"
cognee-cli forget --all
cognee-cli -ui   # Lancer l'interface web

Intégration MCP

Cognee v1.0 intègre nativement le protocole MCP (Model Context Protocol). Vous pouvez exposer Cognee comme serveur MCP que tout agent compatible MCP peut lire et écrire :

docker pull cognee/cognee-mcp:main
docker run -p 8001:8001 cognee/cognee-mcp:main

Le serveur MCP supporte les transports HTTP, SSE et stdio. Claude Desktop, Claude Code, Cursor, Windsurf, Cline et tout client MCP peuvent ainsi utiliser Cognee comme backend de mémoire partagée — un seul graphe de connaissances accessible à tous vos agents simultanément.

Backends de stockage

Cognee supporte une large gamme de backends pour correspondre à votre infrastructure existante :

Graphes : PostgreSQL (défaut), Neo4j, Amazon Neptune, KuzuDB

Vecteurs : pgvector (défaut), Qdrant, ChromaDB, Weaviate, Milvus, LanceDB

Sessions : Redis

Développement local : SQLite et KuzuDB — sans serveur requis

Pour les équipes en Afrique du Nord et au Moyen-Orient soumises aux exigences de résidence des données (INPDP en Tunisie, PDPL en Arabie saoudite), l'auto-hébergement avec PostgreSQL sur votre propre infrastructure garde toutes les mémoires dans la région, sans que les données ne la quittent.

Options de déploiement

Cognee v1.0 propose quatre modes de déploiement :

Cloud géré — service hébergé sur cognee.ai, accès par clé API
Auto-hébergé — instance PostgreSQL unique, propriété totale des données
Edge / sur appareil — SDK Rust pour environnements contraints en ressources
Workflows Node — SDK TypeScript pour les stacks JavaScript et Next.js

Déploiement cloud via Python en une ligne :

await cognee.serve(url="https://your-instance.cognee.ai", api_key="ck_...")

Benchmarks BEAM

Cognee se mesure sur la suite BEAM (Benchmark for Evaluation of Agent Memory) :

Taille du corpus	Cognee	SOTA précédent
100 k tokens	79 %	73,4 %
10 M tokens	67 %	64,1 %

L'utilisation de tokens reste stable à mesure que la taille du corpus augmente. En comparaison, les approches tout-contexte voient leur coût croître linéairement.

Point d'équilibre : pour moins de 23 à 26 requêtes répétées, une grande fenêtre de contexte est souvent moins chère. Au-delà de ce seuil, la mémoire persistante de Cognee gagne systématiquement en coût comme en précision.

Quand ne pas utiliser la mémoire persistante ?

Cognee est une infrastructure — il ajoute une charge opérationnelle. Envisagez de vous en passer quand :

Votre agent exécute une seule session sans attente de continuité
Votre corpus fait moins de 50 k tokens et tient confortablement dans une fenêtre de contexte
Vous avez besoin d'une latence minimale (la récupération par graphe ajoute un aller-retour réseau)

Pour les tâches sans état et ponctuelles, le long contexte reste gagnant. Pour tout ce qui construit une compréhension persistante des utilisateurs, un contexte de projet, ou un raisonnement inter-sessions, Cognee comble le fossé que le RAG seul ne peut pas réduire.

Écosystème et migration

Cognee v1.0 supporte la migration depuis les solutions existantes comme Mem0, Zep et Letta. La portabilité des données est assurée via le format ouvert COGX, sans jamais vous enfermer dans une solution propriétaire.

La plateforme s'intègre avec LangGraph, smolagents, et tout framework supportant le tool-calling ou MCP. Pour les équipes qui construisent sur le Claude Agent SDK, Cognee fournit exactement la couche de persistance mémoire qui rend les coéquipiers IA véritablement utiles sur des projets longs.

Conclusion

Cognee v1.0 plaide convaincamment pour que la mémoire des agents mérite sa propre couche d'infrastructure — non pas une astuce de prompt ou une fenêtre de contexte plus grande, mais un vrai moteur à base de graphes avec une sémantique ouverte.

Avec pip install cognee, quatre méthodes API simples, le support MCP natif, un hébergement flexible et des chemins de migration clairs depuis les solutions existantes, il est désormais simple de doter n'importe quel agent Python ou TypeScript d'une mémoire long-terme réellement utile entre les sessions.

La couche mémoire devient le troisième composant d'infrastructure critique pour les agents en production — après le modèle et le harnais d'exécution. Cognee v1.0 est la tentative open-source la plus crédible à ce jour pour occuper ce rôle.