Headroom: ضغط سياق وكلاء الذكاء الاصطناعي 95% بأداة مفتوحة المصدر

أزمة فواتير رموز الذكاء الاصطناعي

الأرقام صادمة. جلسة واحدة لتصحيح الأخطاء يمكن أن تولّد أكثر من 65,000 رمز من سجلات النظام قبل أن يبدأ النموذج في الاستدلال. بحث في الكود يُعيد 17,000 رمز لسؤال لا يحتاج إلا إلى 1,400 رمز. ومع تحويل GitHub Copilot إلى نظام الفوترة بالرمز، وتحديد شركات كـ Uber حداً أقصى بـ 1,500 دولار شهرياً لأدوات الترميز بالذكاء الاصطناعي، أصبح كل رمز مهدر تكلفة تجارية حقيقية.

Headroom هي المشروع مفتوح المصدر الذي كان مجتمع المطورين ينتظره. في أيام قليلة تجاوز 19,000 نجمة على GitHub واحتل المرتبة الأولى في قائمة المشاريع الأكثر انتشاراً. الفكرة بسيطة: اضغط كل ما يقرأه وكيلك الذكي قبل أن يصل إلى النموذج، وحقق توفيراً من 60 إلى 95% في الرموز دون التأثير على جودة الإجابات.

ما هي Headroom؟

Headroom هي طبقة ضغط سياق مفتوحة المصدر للوكلاء الذكيين وأدوات الترميز وتطبيقات نماذج اللغة الكبيرة. بُنيت بواسطة Tejas Chopra وتصدر بترخيص Apache 2.0، وتجلس بين مخرجات الأدوات والنموذج الذكي لتضغط كل شيء — استجابات الأدوات، ملفات السجلات، مقاطع RAG، الكود المصدري، وتاريخ المحادثة — قبل أن يراها النموذج.

النتائج لافتة للنظر:

بحث في الكود: 17,765 رمز → 1,408 رمز (توفير 92%)
تصحيح أخطاء SRE: 65,694 رمز → 5,118 رمز (توفير 92%)
فرز مشكلات GitHub: 54,174 رمز → 14,761 رمز (توفير 73%)

والأهم أن الدقة محفوظة تماماً. على اختبار GSM8K للاستدلال الرياضي، تحقق Headroom نفس نتيجة النموذج غير المضغوط (87.0%). وعلى TruthfulQA تتحسن بنسبة 3.0%. وعلى SQuAD v2 تحافظ على دقة 97% حتى مع ضغط 19%.

كيف يعمل خط أنابيب الضغط؟

تستخدم Headroom نظام توجيه واعٍ بالمحتوى يختار الخوارزمية المثلى بناءً على نوع ما يُضغط:

SmartCrusher يتعامل مع بيانات JSON والاستجابات المهيكلة، يحذف المفاتيح الزائدة ويطوي القيم المتكررة مع الحفاظ على سلامة المخطط.

CodeCompressor يضغط الكود باستخدام تحليل شجرة البنية المجردة (AST) لست لغات برمجة: Python وJavaScript وGo وRust وJava وC++. يعالج الكود كبنية وليس كنص، فيحذف التعليقات ويطوي الكليشيهات مع الحفاظ على الدلالات.

Kompress-base يعالج النص الحر. نموذج HuggingFace مدرّب على آثار الوكلاء — سجلات الأخطاء ورسائل الخطأ والوثائق — محسّن للحفاظ على كثافة المعلومات مع تقليص عدد الكلمات.

CacheAligner يثبّت بادئات الرسائل لتتطابق مع مفاتيح البحث في ذاكرة التخزين المؤقت KV لدى Claude وOpenAI، مما يتيح الاستفادة من خصم Claude بنسبة 90% على الرموز المخزنة. التأثير مُضاعَف: رموز أقل وأرخص في آنٍ واحد.

CCR (الضغط القابل للعكس) هو شبكة الأمان. لا تُحذف الأصول أبداً — تُخزَّن محلياً، وإذا احتاج النموذج للمحتوى الكامل يستدعي headroom_retrieve للحصول عليه فوراً. لا يضيع شيء بصفة دائمة.

ثلاث طرق للنشر

1. تغليف وكيل الترميز (أمر واحد)

# تغليف Claude Code
headroom wrap claude
 
# تغليف OpenAI Codex
headroom wrap codex
 
# تغليف Cursor
headroom wrap cursor
 
# تغليف GitHub Copilot CLI
headroom wrap copilot --subscription

كل مخرجات الأدوات التي يقرأها وكيلك تُضغط بشفافية تامة. لا تغييرات في الكود، لا إعداد، لا مفاتيح API إضافية مطلوبة.

2. التشغيل كبروكسي شفاف

headroom proxy --port 8787

وجّه أي عميل متوافق مع OpenAI إلى localhost:8787 بدلاً من api.openai.com وسيُضغط كل طلب تلقائياً. يعمل مع أي لغة وأي إطار عمل دون أي تغييرات.

3. استخدام خادم MCP

تأتي Headroom مع خادم MCP كامل يكشف الضغط كأدوات يمكن لأي وكيل متوافق مع MCP استخدامها:

headroom_compress — ضغط نص أو ملف أو مصفوفة رسائل
headroom_retrieve — استرداد المحتوى الأصلي عند الحاجة
headroom_stats — عرض إحصائيات الرموز الموفرة في الجلسة الحالية

أضفه إلى Claude Desktop وأي وكيل يدعم MCP وسيصبح الضغط قدرة أساسية لا ترفاً.

التكامل كمكتبة

Python:

from headroom import compress
 
result = compress(messages, model="claude-3-5-sonnet")
# result.messages — مضغوط وجاهز للإرسال
# result.tokens_saved — عدد الرموز الموفرة بدقة

TypeScript:

import { compress } from 'headroom-ai';
 
const result = await compress(messages, { model: 'gpt-4o' });

Vercel AI SDK:

const model = wrapLanguageModel({
  middleware: headroomMiddleware(),
  model: openai('gpt-4o'),
});

LangChain:

llm = HeadroomChatModel(your_llm)

ميزات متقدمة تستحق الاهتمام

headroom learn

بعد جلسة وكيل فاشلة، نفّذ headroom learn وستقوم Headroom بمسح المحادثة لاستخراج الأنماط — استدعاءات الأدوات التي فشلت، السياقات التي أُسيء فهمها — وتكتب التصحيحات مباشرة في CLAUDE.md أو AGENTS.md أو GEMINI.md. وكلاؤك يتعلمون من أخطائهم تلقائياً.

الذاكرة المشتركة بين الوكلاء

يمكن لوكلاء متعددين — Claude وCodex وGemini — مشاركة مخزن سياق Headroom واحد. عندما يقرأ الوكيل A قاعدة كود ضخمة، يحصل الوكيل B على النسخة المضغوطة تلقائياً مع إلغاء تكرار عبر حدود الوكلاء. لا إعادة قراءة لنفس الملفات مرتين.

CacheAligner يُضاعف التوفير

فضلاً عن تقليص الرموز الخام، يُعيد CacheAligner هيكلة الرسائل لتعظيم نجاحات ذاكرة التخزين المؤقت KV لدى Claude وOpenAI. هذا يعني أن الرموز المضغوطة تصل كثيراً مخزّنة مسبقاً، مما يُطبّق خصومات المزوّد فوق وفورات الضغط.

التثبيت

# التثبيت الكامل بـ Python
pip install "headroom-ai[all]"
 
# إضافات محددة فقط
pip install "headroom-ai[proxy,mcp]"
 
# Node/TypeScript
npm install headroom-ai
 
# Docker
docker pull ghcr.io/chopratejas/headroom:latest

يتطلب Python 3.10 أو أحدث. الإضافات المتاحة: proxy وmcp وml وcode وmemory وrelevance وimage وagno وlangchain وevals.

لماذا يهم هذا مطوري منطقة MENA؟

تكاليف رموز API ليست موحدة جغرافياً. للفرق في تونس ومصر والمملكة العربية السعودية والإمارات التي تبني على Claude أو GPT-4o، الفواتير بالدولار تتراكم بسرعة. توفير 92% في استهلاك الرموز ليس رفاهية — لفريق صغير يشغّل سير عمل متعددة الوكلاء، هو الفرق بين منتج قابل للحياة وهيكل تكلفة لا يُحتمل.

Headroom تعمل بنسبة 100% محلياً. لا بيانات تغادر جهازك أثناء الضغط. لا حساب بائع مطلوب. الملفات الأصلية تبقى على القرص. للفرق في القطاعات المنظّمة أو ذات متطلبات الإقامة البيانية، هذا يهمّ بقدر ما تهمّ وفورات التكلفة.

البداية في أمرين

pip install "headroom-ai[all]"
headroom wrap claude

هذا كل شيء. جلسة Claude Code التالية ستسجّل وفورات الرموز في الوقت الفعلي. المشروع الكامل على GitHub في github.com/chopratejas/headroom مع توثيق كامل ونصوص إعادة إنتاج المعايير وإرشادات المساهمة.

مع تحوّل أسعار أدوات الترميز بالذكاء الاصطناعي من اشتراكات ثابتة إلى استهلاك بالرمز، الفرق التي تتحكم في سياقها ستتحكم في تكاليفها. Headroom تجعل هذا التحكم في متناول كل مطور — بأمر واحد.