الكتابات/blog/2026/05
Blog31 مايو 2026·6 دقيقة

gpt-realtime من OpenAI: بناء وكلاء صوتيين يردون على المكالمات

دليل بناء وكلاء صوتيين جاهزين للإنتاج باستخدام نموذج gpt-realtime من OpenAI مع دعم SIP وخوادم MCP والمدخلات المرئية.

تجاوز الذكاء الاصطناعي الصوتي حاجزاً جديداً. مع الإتاحة العامة لنموذج gpt-realtime من OpenAI وحزمة تحديثات API الموجهة للإنتاج، أصبح بإمكان المطورين الآن بناء وكلاء صوتيين يردون على مكالمات هاتفية حقيقية، ويتصلون بأدوات خارجية عبر خوادم MCP، ويفسرون الصور — كل هذا ضمن جلسة واحدة متزامنة من الكلام إلى الكلام.

يتناول هذا الدليل ما الجديد في النموذج، وأهميته، وكيفية ربط وكيلك الصوتي الأول برقم هاتف حقيقي.

ما هو gpt-realtime؟

gpt-realtime هو نموذج OpenAI للتحويل من الكلام إلى الكلام، مُصمَّم للتفاعلات الصوتية ثنائية الاتجاه منخفضة الكمون. بخلاف خطوط المعالجة النصية التي تتطلب نسخ الصوت، إرساله إلى نموذج لغوي كبير، ثم توليف استجابة صوتية، يتولى gpt-realtime السلسلة كاملة بصورة أصلية — صوت داخل، صوت خارج — مع تقليل ملحوظ في زمن الاستجابة.

انتقل النموذج من مرحلة المعاينة إلى الإتاحة العامة في أبريل 2026، مع ثلاثة تحسينات رئيسية:

  • الاتصال الهاتفي عبر SIP — ربط وكلاء الذكاء الاصطناعي مباشرةً بشبكة الهاتف العامة
  • دعم خوادم MCP عن بُعد — توسيع قدرات الوكلاء بأدوات خارجية دون ترميز يدوي
  • إدخال الصور — تغذية المحادثة بسياق بصري

مقارنةً بإصدار المعاينة، يُحقق gpt-realtime تحسناً بنسبة 48% في اتباع التعليمات و34% في دقة استدعاء الأدوات. صوتان جديدان — Cedar وMarin — يمنحان مخرجات صوتية أكثر طبيعية وتعبيرية.

الميزات الجديدة الرئيسية

التكامل مع شبكة الهاتف عبر SIP

بروتوكول SIP هو المعيار الذي يُشغّل الاتصالات المؤسسية — أنظمة PBX، مراكز الاتصال، الهواتف المكتبية، ومزودو الخدمة كـ Twilio وTelnyx. تدعم Realtime API الآن SIP بصورة أصلية، مما يعني أن وكيلك الذكي يستطيع إجراء واستقبال مكالمات هاتفية حقيقية على رقم هاتف فعلي.

الإعداد في أربع خطوات:

  1. وجِّه SIP trunk إلى: sip:YOUR_PROJECT_ID@sip.api.openai.com;transport=tls
  2. أعدَّ webhook في منصة OpenAI ضمن Project → Webhooks
  3. عند وصول مكالمة، يُرسل OpenAI حدث realtime.call.incoming إلى webhook الخاص بك
  4. اقبل المكالمة وتواصل عبر WebSocket: wss://api.openai.com/v1/realtime?call_id=CALL_ID

فيما يلي معالج webhook بسيط باستخدام FastAPI في Python:

from fastapi import FastAPI, Request
import httpx
 
app = FastAPI()
OPENAI_API_KEY = "sk-..."
 
@app.post("/webhook/calls")
async def handle_incoming_call(request: Request):
    event = await request.json()
 
    if event["type"] == "realtime.call.incoming":
        call_id = event["call_id"]
 
        async with httpx.AsyncClient() as client:
            await client.post(
                f"https://api.openai.com/v1/realtime/calls/{call_id}/accept",
                headers={"Authorization": f"Bearer {OPENAI_API_KEY}"},
                json={
                    "type": "realtime",
                    "model": "gpt-realtime-2",
                    "instructions": "أنت وكيل دعم عملاء مفيد. كن موجزاً وودوداً."
                }
            )
 
    return {"status": "ok"}

يتضمن حدث الـ webhook معرّف المكالمة call_id وترويسات SIP وطابعاً زمنياً للتحقق. لأعباء الإنتاج التي تتطلب تسجيل المكالمات أو منطق التوجيه أو مجموعات أرقام DID، يمنحك الجمع بين gpt-realtime ومزود SIP كـ Twilio بنية تحتية على مستوى المشغلين جنباً إلى جنب مع ذكاء OpenAI.

دعم خوادم MCP عن بُعد

Model Context Protocol (MCP) هو المعيار الناشئ لربط نماذج الذكاء الاصطناعي بالأدوات الخارجية — قواعد البيانات، وأنظمة إدارة علاقات العملاء، وواجهات API الداخلية. تقبل Realtime API الآن روابط خوادم MCP مباشرةً في إعداد الجلسة:

{
  "type": "realtime",
  "model": "gpt-realtime-2",
  "instructions": "أنت وكيل حجوزات لسلسلة فنادق.",
  "tools": [
    {
      "type": "mcp",
      "server_url": "https://your-mcp-server.example.com/sse"
    }
  ]
}

بعد الاتصال، تتولى الـ API معالجة استدعاءات الأدوات تلقائياً. يمكن للوكيل التحقق من توفر الغرف، وإنشاء الحجوزات، والبحث في السجلات، وتأكيد المعاملات — كل ذلك ضمن مكالمة صوتية مباشرة.

إدخال الصور في الجلسات المتزامنة

يقبل gpt-realtime الآن إطارات الصور جنباً إلى جنب مع الصوت، مما يفتح سيناريوهات لم تكن ممكنة من قبل للوكلاء الصوتيين:

  • يرسل المتصل صورة لجزء معطوب — يشخّص الوكيل المشكلة صوتياً
  • يشارك العميل لقطة شاشة لخطأ — يرشده الوكيل خطوة بخطوة
  • يصف فني ميداني ما يراه — يُؤكّد الوكيل عبر التغذية المرئية المباشرة

تُمرَّر الصور كبيانات base64 أو روابط URL ضمن تدفق أحداث الجلسة، باتباع نفس نمط دعم الرؤية في Chat Completions API.

حالات الاستخدام في بيئة الأعمال

يجعل الجمع بين SIP وMCP والمدخلات المتعددة من gpt-realtime حلاً عملياً عبر قطاعات متعددة. لمنشآت منطقة الشرق الأوسط وشمال أفريقيا، تبرز ثلاثة قطاعات رئيسية:

القطاعحالة الاستخدامالميزات المستخدمة
مراكز الاتصالدعم واردات باللغة العربية، جدولة المواعيدSIP + MCP (CRM)
الرعاية الصحيةاستقبال المرضى، التوثيق السريري المتزامنSIP + MCP (EHR)
الخدمات الماليةاستفسارات الحسابات، تنبيهات الاحتيالSIP + MCP (Banking API)
الخدمات الميدانيةالتشخيص عن بُعد مع المساعدة البصريةSIP + إدخال الصور
الضيافةإدارة الحجوزات، خدمات الكونسيرج متعددة اللغاتSIP + MCP (نظام الحجز)

الوكلاء الصوتيون باللغة العربية فرصة استثنائية: يدعم gpt-realtime الإدخال والإخراج الصوتي متعدد اللغات، مما يعني أن الشركات التي تخدم العملاء الناطقين بالعربية في تونس والمملكة العربية السعودية وسائر دول المنطقة تستطيع نشر نموذج واحد عبر بنية مركز الاتصال بالكامل.

التسعير

التسعير اعتباراً من مايو 2026:

نوع التوكنالتكلفة لكل مليون توكن
إدخال صوتي32 دولار
إدخال صوتي مخزَّن مؤقتاً0.40 دولار
إخراج صوتي64 دولار

تكلف المحادثة الصوتية المعتادة لمدة دقيقة واحدة نحو 0.30 دولار، مما يجعلها تنافسية مع منصات الذكاء الاصطناعي الصوتي المتخصصة وأقل تكلفة بكثير من توظيف وكلاء بشريين على نطاق واسع.

البدء السريع: وكيل WebSocket فقط

للتفاعلات الصوتية عبر الويب بدون اتصالات هاتفية، اتصل مباشرةً عبر WebSocket:

const WebSocket = require("ws");
 
const ws = new WebSocket(
  "wss://api.openai.com/v1/realtime?model=gpt-realtime-2",
  {
    headers: {
      "Authorization": `Bearer ${process.env.OPENAI_API_KEY}`,
      "OpenAI-Beta": "realtime=v1"
    }
  }
);
 
ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      instructions: "أنت مساعد ودود.",
      voice: "cedar",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16"
    }
  }));
});

ربط رقم هاتف عبر Twilio

  1. أنشئ Twilio Elastic SIP Trunk موجَّهاً نحو sip:YOUR_PROJECT_ID@sip.api.openai.com;transport=tls
  2. خصِّص رقم Twilio DID للـ trunk
  3. عيِّن رابط webhook الخاص بك في إعدادات منصة OpenAI
  4. انشر معالج webhook الخاص بك واختبره باتصال وارد

اعتبارات الإنتاج

زمن الاستجابة: يستهدف gpt-realtime وقت ذهاب وإياب أقل من 600 ميلي ثانية. يؤثر قرب مزود SIP الخاص بك من نقاط نهاية OpenAI الإقليمية على هذا الزمن — اختر المنطقة الأقرب لمستخدميك.

معالجة حالات الفشل: نفِّذ منطقاً للتعامل بسلاسة مع المكالمات المرفوضة أو المنقطعة. تقبل نقطة نهاية /realtime/calls/{call_id}/reject رموز حالة SIP القياسية، مما يتيح إرجاع إشارة انشغال أو تحويل المتصل لعامل بشري.

الامتثال التنظيمي: في النشر الخاص بالرعاية الصحية (HIPAA) والخدمات المالية (PCI-DSS)، تأكد من أن مزود SIP وآليات معالجة بيانات الجلسة تستوفي المتطلبات التنظيمية ذات الصلة قبل الإطلاق.

الخلاصة

يُغلق gpt-realtime الفجوة بين المساعد الذكي ومنظومة الاتصال الإنتاجية. بالجمع بين الذكاء الكلام-إلى-كلام منخفض الكمون، والوصول الفعلي إلى شبكة الهاتف عبر SIP، وتوصيل الأدوات الخارجية عبر MCP، وفهم المحتوى البصري عبر إدخال الصور، أوجد OpenAI مجموعة متكاملة جاهزة للإنتاج لجيل قادم من تطبيقات الذكاء الاصطناعي الصوتي.

النمط الأقوى لعام 2026: gpt-realtime + مزود SIP على مستوى المشغلين + خوادم MCP الحالية. يستطيع هذا الثلاثي استبدال أجزاء كبيرة من بنية IVR القديمة مع تقديم تجربة أفضل بكثير للمتصلين.

ابدأ بمعالج webhook، وصِّل رقم هاتف تجريبي، وستحصل على وكيل ذكي يرد على المكالمات في أقل من ساعة.