مقدمة

Cline هو وكيل برمجة AI قوي داخل VS Code. بينما إدخال النص هو المعيار، ألن يكون من المريح إصدار الأوامر باستخدام صوتك؟ يوضح هذا الدرس كيف أضفنا إمكانيات الأوامر الصوتية إلى Cline عن طريق إنشاء إضافة VS Code مخصصة (cline-voice-assistant) تستفيد من خادم ElevenLabs MCP (بروتوكول سياق النموذج) للنسخ الدقيق للكلام إلى نص (STT).

ما يوفره هذا الحل:

التفاعل بدون استخدام اليدين: تشغيل تسجيل الصوت عبر أمر أو اختصار لوحة المفاتيح.
نسخ دقيق: يستخدم واجهة برمجة تطبيقات STT الخاصة بـ ElevenLabs عبر خادم MCP محلي.
تكامل سلس: يرسل النص المنسوخ مباشرة إلى إضافة Cline الرئيسية للمعالجة.

كيف يعمل:

يقوم المستخدم بتشغيل Cline: Start Voice Command في VS Code (مقدم من cline-voice-assistant).
تستخدم الإضافة أداة سطر الأوامر sox لتسجيل الصوت من الميكروفون الافتراضي وحفظه في ملف مؤقت.
تتصل الإضافة بخادم elevenlabs-mcp-server المحلي قيد التشغيل باستخدام MCP SDK.
تستدعي أداة elevenlabs_stt على خادم MCP، مع تمرير مسار ملف الصوت المسجل.
يرسل خادم MCP الصوت إلى واجهة برمجة تطبيقات ElevenLabs ويعيد النسخ.
تسترد إضافة cline-voice-assistant واجهة برمجة التطبيقات المصدرة من إضافة Cline الرئيسية (saoudrizwan.claude-dev).
تستخدم طريقة sendMessage من واجهة برمجة تطبيقات Cline لإرسال النص المنسوخ إلى واجهة دردشة Cline الرئيسية.
يعالج Cline النص كما لو تم كتابته، وتظهر الاستجابة في نافذة الدردشة.

يركز هذا الدرس على الإدخال الصوتي. ستظل الاستجابة من Cline نصية في نافذة الدردشة. إضافة إخراج صوتي (تحويل النص إلى كلام) لاستجابات Cline سيتطلب تعديلات إضافية، ربما على إضافة Cline الرئيسية نفسها.

دليل خطوة بخطوة

دعنا نستعرض الخطوات الرئيسية المتضمنة في إنشاء إعداد المساعد الصوتي هذا.

المتطلبات المسبقة

إضافة Cline: يجب تثبيت إضافة Cline الرئيسية لـ VS Code (saoudrizwan.claude-dev).
Node.js و npm: مطلوبان لتشغيل خوادم MCP وبناء الإضافات.
sox: أداة صوتية لسطر الأوامر. قم بتثبيتها (مثال على macOS: brew install sox).
حساب ElevenLabs ومفتاح API: سجل في ElevenLabs واحصل على مفتاح API.

إنشاء خادم ElevenLabs MCP

نحتاج إلى خادم للتعامل مع طلبات STT باستخدام واجهة برمجة تطبيقات ElevenLabs.

إنشاء مشروع الخادم:

cd /path/to/your/mcp/servers
npx @modelcontextprotocol/create-server elevenlabs-mcp-server
cd elevenlabs-mcp-server
npm install elevenlabs form-data node-fetch@2 @types/node-fetch@2

تنفيذ الخادم (src/index.ts): أنشئ src/index.ts مع كود Node.js لـ:
- استيراد الوحدات اللازمة.
- قراءة ELEVENLABS_API_KEY من متغيرات البيئة.
- تعريف أدوات MCP: elevenlabs_stt، elevenlabs_tts، elevenlabs_tts_and_play.
- تنفيذ وظيفة handleSttRequest.

بناء الخادم:

npm run build --prefix /path/to/your/mcp/servers/elevenlabs-mcp-server

التكوين في إعدادات Cline: أضف الخادم إلى cline_mcp_settings.json:

{
  "mcpServers": {
    "elevenlabs-mcp-server": {
      "command": "node",
      "args": ["/full/path/to/elevenlabs-mcp-server/build/index.js"],
      "env": {
        "ELEVENLABS_API_KEY": "YOUR_ELEVENLABS_API_KEY"
      },
      "disabled": false,
      "autoApprove": []
    }
  }
}

إنشاء إضافة VS Code للمساعد الصوتي

تتعامل هذه الإضافة مع التسجيل وتنسق عملية STT.

بناء هيكل الإضافة (يدوياً):
- أنشئ دليل cline-voice-assistant.
- أنشئ package.json و tsconfig.json.
- أنشئ دليل src/.
- انسخ cline.d.ts من إضافة Cline.

تثبيت التبعيات:

npm install --prefix extensions/cline-voice-assistant

تنفيذ منطق الإضافة (src/extension.ts): أنشئ src/extension.ts مع الكود للتعامل مع التسجيل والاتصال بخادم MCP.

تجميع الإضافة:

npm run compile --prefix extensions/cline-voice-assistant

التعبئة والتثبيت

تثبيت vsce:
```
npm install -g vsce
```

التعبئة:

cd extensions/cline-voice-assistant
vsce package

التثبيت:

code --install-extension extensions/cline-voice-assistant/cline-voice-assistant-0.0.1.vsix --force

إعادة تشغيل VS Code: أعد تشغيل VS Code بالكامل.

الاستخدام

تأكد من تثبيت sox وأن خادم elevenlabs-mcp-server يعمل.
افتح لوحة الأوامر (Cmd+Shift+P أو Ctrl+Shift+P).
شغّل Cline: Start Voice Command.
انطق أمرك.
يظهر النص المنسوخ في نافذة دردشة Cline.

الخاتمة

من خلال إنشاء إضافة VS Code مخصصة والاستفادة من خادم ElevenLabs MCP، نجحنا في تمكين إدخال الأوامر الصوتية لـ Cline. يستخدم هذا الإعداد sox للتسجيل وخادم MCP لـ ElevenLabs STT وواجهة برمجة تطبيقات إضافة Cline الرئيسية لمعالجة النص المنسوخ.

الإمكانيات المستقبلية

يوفر هذا الإعداد أساساً قوياً للإدخال الصوتي. فيما يلي بعض الخطوات التالية المحتملة:

الإخراج الصوتي: تعديل إضافة Cline الرئيسية لنطق الاستجابة.
STT بديل: استبدال خادم ElevenLabs MCP بخدمة STT مختلفة مثل Whisper.
تسجيل متكامل: استبدال تبعية sox بتنفيذ التسجيل مباشرة داخل إضافة VS Code.
زر واجهة المستخدم: إضافة زر ميكروفون إلى واجهة Cline.

برمجة صوتية سعيدة!

التحكم الصوتي لـ Cline: VS Code + ElevenLabs MCP

مقدمة

دليل خطوة بخطوة

المتطلبات المسبقة

إنشاء خادم ElevenLabs MCP

إنشاء إضافة VS Code للمساعد الصوتي

التعبئة والتثبيت

الاستخدام

الخاتمة

الإمكانيات المستقبلية

ناقش مشروعك معنا

مقالات ذات صلة

بناء تطبيق ذكاء اصطناعي محادثي مع Next.js

كيفية توليد المؤثرات الصوتية باستخدام واجهة برمجة تطبيقات ElevenLabs في JavaScript

مقدمة في بروتوكول سياق النموذج (MCP)