التحكم الصوتي لـ Cline: VS Code + ElevenLabs MCP

Anis MarrouchiAI Bot
بواسطة Anis Marrouchi & AI Bot ·

جاري تحميل مشغل تحويل النص إلى كلام الصوتي...

مقدمة

Cline هو وكيل برمجة AI قوي داخل VS Code. بينما إدخال النص هو المعيار، ألن يكون من المريح إصدار الأوامر باستخدام صوتك؟ يوضح هذا الدرس كيف أضفنا إمكانيات الأوامر الصوتية إلى Cline عن طريق إنشاء إضافة VS Code مخصصة (cline-voice-assistant) تستفيد من خادم ElevenLabs MCP (بروتوكول سياق النموذج) للنسخ الدقيق للكلام إلى نص (STT).

ما يوفره هذا الحل:

  • التفاعل بدون استخدام اليدين: تشغيل تسجيل الصوت عبر أمر أو اختصار لوحة المفاتيح.
  • نسخ دقيق: يستخدم واجهة برمجة تطبيقات STT الخاصة بـ ElevenLabs عبر خادم MCP محلي.
  • تكامل سلس: يرسل النص المنسوخ مباشرة إلى إضافة Cline الرئيسية للمعالجة.

كيف يعمل:

  1. يقوم المستخدم بتشغيل Cline: Start Voice Command في VS Code (مقدم من cline-voice-assistant).
  2. تستخدم الإضافة أداة سطر الأوامر sox لتسجيل الصوت من الميكروفون الافتراضي وحفظه في ملف مؤقت.
  3. تتصل الإضافة بخادم elevenlabs-mcp-server المحلي قيد التشغيل باستخدام MCP SDK.
  4. تستدعي أداة elevenlabs_stt على خادم MCP، مع تمرير مسار ملف الصوت المسجل.
  5. يرسل خادم MCP الصوت إلى واجهة برمجة تطبيقات ElevenLabs ويعيد النسخ.
  6. تسترد إضافة cline-voice-assistant واجهة برمجة التطبيقات المصدرة من إضافة Cline الرئيسية (saoudrizwan.claude-dev).
  7. تستخدم طريقة sendMessage من واجهة برمجة تطبيقات Cline لإرسال النص المنسوخ إلى واجهة دردشة Cline الرئيسية.
  8. يعالج Cline النص كما لو تم كتابته، وتظهر الاستجابة في نافذة الدردشة.

يركز هذا الدرس على الإدخال الصوتي. ستظل الاستجابة من Cline نصية في نافذة الدردشة. إضافة إخراج صوتي (تحويل النص إلى كلام) لاستجابات Cline سيتطلب تعديلات إضافية، ربما على إضافة Cline الرئيسية نفسها.

دليل خطوة بخطوة

دعنا نستعرض الخطوات الرئيسية المتضمنة في إنشاء إعداد المساعد الصوتي هذا.

المتطلبات المسبقة

  • إضافة Cline: يجب تثبيت إضافة Cline الرئيسية لـ VS Code (saoudrizwan.claude-dev).
  • Node.js و npm: مطلوبان لتشغيل خوادم MCP وبناء الإضافات.
  • sox: أداة صوتية لسطر الأوامر. قم بتثبيتها (مثال على macOS: brew install sox).
  • حساب ElevenLabs ومفتاح API: سجل في ElevenLabs واحصل على مفتاح API.

إنشاء خادم ElevenLabs MCP

نحتاج إلى خادم للتعامل مع طلبات STT باستخدام واجهة برمجة تطبيقات ElevenLabs.

  1. إنشاء مشروع الخادم:

    cd /path/to/your/mcp/servers
    npx @modelcontextprotocol/create-server elevenlabs-mcp-server
    cd elevenlabs-mcp-server
    npm install elevenlabs form-data node-fetch@2 @types/node-fetch@2
  2. تنفيذ الخادم (src/index.ts): أنشئ src/index.ts مع كود Node.js لـ:

    • استيراد الوحدات اللازمة.
    • قراءة ELEVENLABS_API_KEY من متغيرات البيئة.
    • تعريف أدوات MCP: elevenlabs_stt، elevenlabs_tts، elevenlabs_tts_and_play.
    • تنفيذ وظيفة handleSttRequest.
  3. بناء الخادم:

    npm run build --prefix /path/to/your/mcp/servers/elevenlabs-mcp-server
  4. التكوين في إعدادات Cline: أضف الخادم إلى cline_mcp_settings.json:

    {
      "mcpServers": {
        "elevenlabs-mcp-server": {
          "command": "node",
          "args": ["/full/path/to/elevenlabs-mcp-server/build/index.js"],
          "env": {
            "ELEVENLABS_API_KEY": "YOUR_ELEVENLABS_API_KEY"
          },
          "disabled": false,
          "autoApprove": []
        }
      }
    }

إنشاء إضافة VS Code للمساعد الصوتي

تتعامل هذه الإضافة مع التسجيل وتنسق عملية STT.

  1. بناء هيكل الإضافة (يدوياً):

    • أنشئ دليل cline-voice-assistant.
    • أنشئ package.json و tsconfig.json.
    • أنشئ دليل src/.
    • انسخ cline.d.ts من إضافة Cline.
  2. تثبيت التبعيات:

    npm install --prefix extensions/cline-voice-assistant
  3. تنفيذ منطق الإضافة (src/extension.ts): أنشئ src/extension.ts مع الكود للتعامل مع التسجيل والاتصال بخادم MCP.

  4. تجميع الإضافة:

    npm run compile --prefix extensions/cline-voice-assistant

التعبئة والتثبيت

  1. تثبيت vsce:

    npm install -g vsce
  2. التعبئة:

    cd extensions/cline-voice-assistant
    vsce package
  3. التثبيت:

    code --install-extension extensions/cline-voice-assistant/cline-voice-assistant-0.0.1.vsix --force
  4. إعادة تشغيل VS Code: أعد تشغيل VS Code بالكامل.

الاستخدام

  1. تأكد من تثبيت sox وأن خادم elevenlabs-mcp-server يعمل.
  2. افتح لوحة الأوامر (Cmd+Shift+P أو Ctrl+Shift+P).
  3. شغّل Cline: Start Voice Command.
  4. انطق أمرك.
  5. يظهر النص المنسوخ في نافذة دردشة Cline.

الخاتمة

من خلال إنشاء إضافة VS Code مخصصة والاستفادة من خادم ElevenLabs MCP، نجحنا في تمكين إدخال الأوامر الصوتية لـ Cline. يستخدم هذا الإعداد sox للتسجيل وخادم MCP لـ ElevenLabs STT وواجهة برمجة تطبيقات إضافة Cline الرئيسية لمعالجة النص المنسوخ.

الإمكانيات المستقبلية

يوفر هذا الإعداد أساساً قوياً للإدخال الصوتي. فيما يلي بعض الخطوات التالية المحتملة:

  • الإخراج الصوتي: تعديل إضافة Cline الرئيسية لنطق الاستجابة.
  • STT بديل: استبدال خادم ElevenLabs MCP بخدمة STT مختلفة مثل Whisper.
  • تسجيل متكامل: استبدال تبعية sox بتنفيذ التسجيل مباشرة داخل إضافة VS Code.
  • زر واجهة المستخدم: إضافة زر ميكروفون إلى واجهة Cline.

برمجة صوتية سعيدة!


هل تريد قراءة المزيد من الدروس التعليمية؟ تحقق من أحدث درس تعليمي لدينا على إنشاء بوت Slack مخصص باستخدام NVIDIA NIM و LangChain.

ناقش مشروعك معنا

نحن هنا للمساعدة في احتياجات تطوير الويب الخاصة بك. حدد موعدًا لمناقشة مشروعك وكيف يمكننا مساعدتك.

دعنا نجد أفضل الحلول لاحتياجاتك.

مقالات ذات صلة