إطلاق العنان للذكاء الاصطناعي: صياغة روايات الحياة البرية الجذابة باستخدام GPT وواجهة TTS API

Anis MarrouchiAI Bot
بواسطة Anis Marrouchi & AI Bot ·

جاري تحميل مشغل تحويل النص إلى كلام الصوتي...

المقدمة

في المشهد المتطور لخدمات تطوير الويب، يمكن أن يرتقي تسخير قوة الذكاء الاصطناعي لصياغة روايات الحياة البرية الجذابة بمحتواك إلى مستويات استثنائية. سيرشدك هذا الدليل المتقدم عبر استخدام GPT-4 وواجهة TTS API من OpenAI لمعالجة وسرد فيديوهات الحياة البرية. إتقانك لهذه الأدوات يمكن أن يساعد في إنشاء محتوى جذاب وبجودة احترافية يجذب جمهوراً واسعاً.

مستوى الصعوبة: متقدم

وقت القراءة المقدر: 10 دقائق

المتطلبات الأساسية

قبل الغوص في هذا الدليل، تأكد من توفر ما يلي:

  1. فهم أساسي لـ Python.
  2. تثبيت المكتبات الضرورية مثل opencv-python و requests و openai.
  3. الحصول على مفاتيح API الخاصة بـ OpenAI وإعدادها في بيئتك.

الخطوة 1: استخراج الإطارات من فيديو الحياة البرية

ابدأ باستخراج الإطارات من فيديو الحياة البرية الخاص بك. سنستخدم OpenCV لهذه المهمة. تأكد من وضع الفيديو في مجلد يمكن الوصول إليه، واتبع الخطوات أدناه:

from IPython.display import display, Image
import cv2
import base64
 
# Read the video file
video = cv2.VideoCapture("data/bison.mp4")
base64Frames = []
 
# Extract frames
while video.isOpened():
    success, frame = video.read()
    if not success:
        break
    _, buffer = cv2.imencode(".jpeg", frame)
    base64Frames.append(base64.b64encode(buffer).decode("utf-8"))
 
video.release()
print(len(base64Frames), "frames read.")

الخطوة 2: عرض الإطارات المستخرجة

قبل المعالجة، تحقق من قراءة الإطارات بشكل صحيح:

from IPython.display import display
 
display_handle = display(None, display_id=True)
for img in base64Frames:
    display_handle.update(Image(data=base64.b64decode(img.encode("utf-8"))))
    time.sleep(0.025)

الخطوة 3: توليد أوصاف الفيديو باستخدام GPT-4

بعد ذلك، استخدم نموذج GPT-4 من OpenAI لتوليد وصف متقن لفيديو الحياة البرية الخاص بك. لاحظ أنك لا تحتاج إلى إرسال جميع الإطارات إلى GPT؛ مجموعة فرعية ستكفي.

from openai import OpenAI
import os
 
client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY", ""))
 
# Prepare prompt messages
PROMPT_MESSAGES = [
    {
        "role": "user",
        "content": [
            `These are frames from a video that I want to upload.
            Generate a compelling description that I can upload along with the video.`,
            *map(lambda x: {"image": x, "resize": 768}, base64Frames[0::50])
        ],
    }
]
 
# Define request parameters
params = {
    "model": "gpt-4",
    "messages": PROMPT_MESSAGES,
    "max_tokens": 200,
}
 
# Get description from GPT-4
result = client.chat.completions.create(**params)
print(result.choices[0].message.content)

الخطوة 4: صياغة نص التعليق الصوتي

أنشئ نصاً احترافياً للتعليق الصوتي للفيديو بأسلوب David Attenborough. هذا يضيف طبقة سردية جذابة، مما يحسن تجربة المشاهد.

PROMPT_MESSAGES = [
    {
        "role": "user",
        "content": [
            `These are frames of a video.
            Create a short voiceover script in the style of David Attenborough. Only include the narration.`,
            *map(lambda x: {"image": x, "resize": 768}, base64Frames[0::60])
        ],
    }
]
 
# Request GPT-4 to create the script
params = {
    "model": "gpt-4",
    "messages": PROMPT_MESSAGES,
    "max_tokens": 500,
}
 
result = client.chat.completions.create(**params)
print(result.choices[0].message.content)

الخطوة 5: توليد التعليق الصوتي باستخدام TTS API

استخدم النص من GPT-4 وحوله إلى ملف صوتي باستخدام واجهة TTS (تحويل النص إلى كلام) API.

import requests
 
# Request to TTS API
response = requests.post(
    "https://api.openai.com/v1/audio/speech",
    headers={
        "Authorization": f"Bearer {os.environ['OPENAI_API_KEY']}",
    },
    json={
        "model": "tts-1-1106",
        "input": result.choices[0].message.content,
        "voice": "onyx",
    },
)
 
# Fetch the audio
audio = b""
for chunk in response.iter_content(chunk_size=1024 * 1024):
    audio += chunk
 
# Display audio output
from IPython.display import Audio
 
Audio(audio)

الخلاصة

باتباع هذه الخطوات، تسخر قوة الذكاء الاصطناعي لإنشاء روايات وتعليقات صوتية متطورة لفيديوهات الحياة البرية. هذا التكامل المتقدم بين GPT-4 وواجهة TTS API لا يعزز السرد القصصي فحسب، بل يثري أيضاً بشكل كبير تفاعل المشاهدين مع محتواك. مع إتقانك لهذه الأدوات، ستجدها لا غنى عنها لتطوير محتوى احترافي وترويجي عبر منصات مختلفة.

موارد إضافية

لتعزيز فهمك بشكل أكبر، قم بزيارة وثائق OpenAI API للحصول على إرشادات متعمقة حول استخدام هذه الأدوات الثورية.

اكتشف المزيد حول تسخير الذكاء الاصطناعي لإنشاء المحتوى! تعلم المزيد هنا.

سرداً سعيداً!

المرجع

هذا الدليل مستوحى من المثال المقدم في GPT with Vision for Video Understanding بواسطة Kai Chen.


هل تريد قراءة المزيد من الدروس التعليمية؟ تحقق من أحدث درس تعليمي لدينا على 1 مبادئ لارافيل Laravel 11: تعلم برمجة PHP.

ناقش مشروعك معنا

نحن هنا للمساعدة في احتياجات تطوير الويب الخاصة بك. حدد موعدًا لمناقشة مشروعك وكيف يمكننا مساعدتك.

دعنا نجد أفضل الحلول لاحتياجاتك.

مقالات ذات صلة