طوال ثلاث سنوات، كانت Markdown هي اللغة المشتركة بين نماذج اللغة الكبيرة والبشر. كل واجهة محادثة، وكل وكيل برمجي، وكل تدفق عمل ذاتي كان ينطلق من الافتراض ذاته: اعرض استجابة النموذج بصيغة Markdown، وأرسلها إلى المتصفح، وانتهى الأمر.
هذا الافتراض بدأ يتصدّع. في مايو 2026، تغريدة لـ Thariq Shihipar، مهندس في Anthropic، يقول فيها إن HTML تنسيق مخرجات أفضل من Markdown، انتقلت من 326 منشورًا إلى أكثر من 15,000 خلال 24 ساعة، بدفعة قوية من Andrej Karpathy. خلال أسبوع، صارت عبارة "هيكل استجابتك بصيغة HTML" واحدةً من أكثر أنماط التوجيه تداولًا بين المطوّرين على تويتر — وانفتح أول خط صدع حقيقي في النقاش حول الكيفية التي ينبغي بها لوكلاء الذكاء الاصطناعي أن يخاطبوا البشر.
في ما يلي ما يحدث، ولماذا يهم كل من يبني باستخدام نماذج اللغة، وكيف نفكّر في المفاضلات.
الحجة: عرض النطاق، الكثافة، والتفاعلية
تستند حجة Shihipar إلى ثلاث ادعاءات يصعب رفضها.
كثافة المعلومات. جدول Markdown يبلغ سقفه عند بضعة أعمدة قبل أن يصبح غير مقروء. أما جدول HTML فيمكن فرزه وتصفيته وترقيمه وترميزه بالألوان، مع إدراج رسوم بيانية مصغّرة داخل الخلايا. الاستجابة ذاتها التي تستهلك 800 توكن بصيغة HTML تنقل بنية قابلة للاستخدام أكبر بثلاث إلى خمس مرّات من نظيرتها بصيغة Markdown.
قابلية القراءة للوثائق الطويلة. التجربة التي يستشهد بها Karpathy: اطلب من النموذج "هيكلة الاستجابة بصيغة HTML"، افتح الملف في المتصفح، فتتحوّل استجابة من أربعة آلاف كلمة إلى محتوى يسهل تصفّحه بأقسام قابلة للطي، وتنقل داخل الصفحة، ورسوم SVG مدمجة. الاستجابة نفسها بصيغة Markdown الخام تبقى جدارًا من النص يتجاوزه المستخدمون ويتركونه.
التفاعل ثنائي الاتجاه. هنا الإسفين الحقيقي. Markdown تنسيق للقراءة فقط. أما HTML فيحمل النماذج والأزرار والمنزلقات ومعالجات الأحداث. حين يعيد الوكيل استجابة HTML تحتوي نموذجًا، يصير الإجراء التالي للمستخدم تقديمًا مهيكلًا بدل توجيه نصّي حر جديد. هذا يلغي فئات كاملة من جولات الاستيضاح.
ووضع Karpathy المسألة في إطار أوسع في منشوره الأصلي: الرؤية هي قناة الإدخال الأعلى تدفّقًا التي يملكها البشر. والنص هو قناة المخرجات الأدنى تدفّقًا التي يستطيع نموذج لغوي إنتاجها. دفع مخرجات النموذج نحو قطع بصرية — شرائح عرض، لوحات معلومات، HTML تفاعلي — هو ترقية لعرض النطاق، لا خيار جمالي.
الحجة المضادة: التوكنز، الأمان، وتلويث خطوط الإنتاج
جاءت الردود سريعًا. ووصلت أوضح صياغة من ممارسين يديرون خطوط إنتاج وكلاء في الإنتاج الفعلي.
كلفة التوكنز. العلامات المتداخلة في HTML تمثّل وزنًا ميتًا حين يكون المستهلك نموذجًا لغويًا آخر. غلاف div class rounded-lg p-4 bg-gray-100 يكلّف نحو 12 توكن في حين أن مكافئه في Markdown لا يحتاج إلى ذلك. في حلقة وكيل متعدّدة الخطوات حيث تصير كل مخرجات مدخلات للخطوة التالية، تتراكم هذه التوكنز بسرعة — تمتلئ نوافذ السياق، يرتفع التأخير، وتتضخّم الفواتير.
سطح الأمان. HTML قابل للتنفيذ. ما إن يصدر الوكيل HTML وتعرضه واجهة لاحقة دون تطهير، حتى يصبح لديك خطر حقن سكربتات. ضيق قواعد Markdown هو جزء من سبب صيرورتها التنسيق الافتراضي — لا تستطيع أن تؤذي القارئ كثيرًا.
ضوضاء في الفروقات والإصدارات. فروقات HTML أعلى ضوضاءً بمراحل من فروقات Markdown. وهذا يهم للوكلاء الذين يكتبون كودًا أو وثائق في مستودع: كل تغيير صغير يلامس كل علامة محيطة، وتتحوّل مراجعة الكود إلى عمل أركيولوجي.
أنظف صياغة جاءت من Tony، الممارس الذي ردّ على التأطير ذاته: Markdown يتولّى التفكير والنقل. HTML يتولّى العرض النهائي. إبقاء كلٍّ في مساره هو الهندسة الجيدة بكل بساطة. استخدم Markdown داخل خط إنتاج الوكيل — بين استدعاءات الأدوات، وفي ساحات المسوّدة، وفي الاستنتاج الوسيط. وحوّل إلى HTML عند الخطوة النهائية للعرض فقط، حين يكون هناك إنسان فعلًا على وشك النظر إلى المخرجات.
ما يعنيه هذا لأدوات المطوّرين
النقاش في حقيقته ليس حول البنية الصيغية. إنه نقاش حول اللحظة التي تتوقّف فيها مخرجات الوكيل عن كونها نصًّا وتصير واجهة استخدام.
طوال ثلاث سنوات، كان العقد الضمني: النموذج يكتب نصًّا، وتطبيقك يعرضه. اندفاع HTML يكسر هذا العقد — النموذج يكتب الواجهة مباشرةً. Claude Code وCursor وأغلب بيئات التطوير القائمة على المحادثة تميل أصلًا إلى هذا الاتجاه عبر القطع والمعاينات الداخلية. السؤال هو ما إذا كان تنسيق المخرجات الافتراضي لكل استدعاء لنموذج لغوي يجب أن يكون HTML، أم أن HTML ينبغي أن يظل سطحًا اختياريًا للميل الأخير.
بعض الخلاصات العملية من أسبوع النقاش:
-
للاستجابات الموجهة للمستخدم النهائي، فإن توجيه "هيكل استجابتك بصيغة HTML" ترقية مجانية. أضف فئات Tailwind، ووضعًا داكنًا، وأزرار نسخ، فتحوّل جدار النص إلى لوحة معلومات تفاعلية دون أي تعديل في البنية التحتية.
-
للتواصل بين الوكلاء، ابقَ على Markdown أو JSON. كلفة التوكنز حقيقية، وفائدة العرض غير ذات صلة حين يكون المستهلك نموذجًا آخر.
-
لمخرجات أدوات المطوّرين — سجلات الأخطاء، نتائج الاستعلامات، فروقات الملفات — يفوز HTML في قابلية الاستخدام. اختبار فاشل يُعرض بصيغة HTML قابلة للطي مع إطارات مكدّس قابلة للتوسيع أسرع فعلًا في التنقيح من المحتوى نفسه بصيغة Markdown.
-
للمحتوى الطويل — التقارير البحثية، الشروح التقنية المعمّقة، الإجابات متعدّدة الأقسام — يفوز HTML في قابلية القراءة، لكن فقط إذا فتحت الملف فعلًا في متصفح. الاستجابة ذاتها داخل فقاعة محادثة تكون أسوأ، لا أفضل.
التحول الأعمق: تنسيق المخرجات قرار منتج
اللافت أن هذا النقاش استغرق خمس سنوات حتى يطفو إلى السطح. فازت Markdown افتراضيًا في 2021 لأنها كانت كافية ولأن كل إطار عمل يدعمها. لم يخترها أحد — حدث الأمر هكذا.
نحن الآن عند نقطة يصبح فيها تنسيق المخرجات قرارًا تصميميًّا مدروسًا. بعض الوكلاء سيُصدر HTML افتراضيًا. وبعضهم سيُصدر مخطط واجهة مخصّصًا مدفوعًا بـ JSON يعرضه التطبيق المضيف على هيئة عناصر أصيلة. وآخرون سيُصدرون رسوم Mermaid، أو شرائح، أو صوتًا. تتوقّف "الإجابة" عن كونها سلسلة نصّية وتصير قطعة مهيكلة يختار النموذج شكلها بناءً على ما يحاول إيصاله.
هذا تحول حقيقي، ويفسّر لماذا أصابت تغريدة كارباثي المؤلفة من جملتين العصب الحساس. التنسيق الافتراضي كان خاطئًا بصمت منذ سنوات. الإصلاح سطر واحد في نهاية التوجيه — وارتداداته تمتد إلى تصميم أطر الوكلاء وبيئات التطوير وواجهات الدردشة.
جرّبه اليوم
إن كنت تبني بنماذج اللغة، فإن أرخص تجربة هذا الأسبوع هي: خذ توجيهًا تطلقه باستمرار، وأضف "هيكل استجابتك بصيغة HTML مع وضع داكن وتنسيق نظيف"، واحفظ المخرجات في ملف .html، وافتحه في المتصفح. شاهد ما يتغيّر.
إذا كان الجواب "لا شيء" — فحالة استخدامك في وضع جيد مع Markdown، فأطلقها. وإذا كان الجواب "هذا أكثر فائدة بمراحل" — فلديك مؤشر على الاتجاه الذي ينبغي أن يسلكه تنسيق مخرجات منتجك.
في كلتا الحالتين، فُتح النقاش الآن. بعد عامين، ستكون عبارة "هل يجب أن يعيد هذا الوكيل Markdown أم HTML؟" سؤالًا اعتياديًّا في مراجعات التصميم. اليوم هي جدال على تويتر بـ 15,000 إعادة اقتباس. وهكذا تبدأ عادة هذه التحولات.
في نقطة، نبني تجارب ويب مدفوعة بالوكلاء لشركات منطقة الشرق الأوسط وشمال إفريقيا — من أدوات داخلية تُعيد لوحات معلومات تفاعلية بدل تصديرات CSV، إلى روبوتات دردشة عامة تحوّل الإجابات إلى نماذج قابلة للحجز. إن كنت تفكّر في الكيفية التي ينبغي أن تقدّم بها واجهات الذكاء الاصطناعي نفسها لمستخدميك، تواصل معنا.