Introduction

Dans le paysage en constante évolution des services de développement web, exploiter la puissance de l'IA pour créer des récits animaliers captivants peut élever votre contenu à des sommets extraordinaires. Ce tutoriel avancé vous guidera dans l'utilisation de GPT-4 et de l'API TTS d'OpenAI pour traiter et narrer des vidéos animalières. Votre maîtrise de ces outils peut vous aider à créer un contenu engageant et de qualité professionnelle qui attire un large public.

Niveau de difficulté : Avancé

Temps de lecture estimé : 10 minutes

Prérequis

Avant de plonger dans ce tutoriel, assurez-vous d'avoir :

Une compréhension basique de Python.
Installé les bibliothèques nécessaires comme opencv-python, requests et openai.
Acquis les clés API OpenAI et les avoir configurées dans votre environnement.

Étape 1 : Extraire les images de votre vidéo animalière

Commencez par extraire les images de votre vidéo animalière. Nous utiliserons OpenCV pour cette tâche. Assurez-vous que votre vidéo est placée dans un répertoire accessible et suivez les étapes ci-dessous :

from IPython.display import display, Image
import cv2
import base64
 
# Read the video file
video = cv2.VideoCapture("data/bison.mp4")
base64Frames = []
 
# Extract frames
while video.isOpened():
    success, frame = video.read()
    if not success:
        break
    _, buffer = cv2.imencode(".jpeg", frame)
    base64Frames.append(base64.b64encode(buffer).decode("utf-8"))
 
video.release()
print(len(base64Frames), "frames read.")

Étape 2 : Afficher les images extraites

Avant le traitement, validez que les images sont correctement lues :

from IPython.display import display
 
display_handle = display(None, display_id=True)
for img in base64Frames:
    display_handle.update(Image(data=base64.b64decode(img.encode("utf-8"))))
    time.sleep(0.025)

Étape 3 : Générer des descriptions vidéo avec GPT-4

Ensuite, utilisez le modèle GPT-4 d'OpenAI pour générer une description bien élaborée pour votre vidéo animalière. Notez que vous n'avez pas besoin d'envoyer toutes les images à GPT ; un sous-ensemble suffira.

from openai import OpenAI
import os
 
client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY", ""))
 
# Prepare prompt messages
PROMPT_MESSAGES = [
    {
        "role": "user",
        "content": [
            `These are frames from a video that I want to upload.
            Generate a compelling description that I can upload along with the video.`,
            *map(lambda x: {"image": x, "resize": 768}, base64Frames[0::50])
        ],
    }
]
 
# Define request parameters
params = {
    "model": "gpt-4",
    "messages": PROMPT_MESSAGES,
    "max_tokens": 200,
}
 
# Get description from GPT-4
result = client.chat.completions.create(**params)
print(result.choices[0].message.content)

Étape 4 : Créer un script de voix off

Créez un script de voix off professionnel pour la vidéo dans le style de David Attenborough. Cela ajoute une couche narrative engageante, améliorant l'expérience du spectateur.

PROMPT_MESSAGES = [
    {
        "role": "user",
        "content": [
            `These are frames of a video.
            Create a short voiceover script in the style of David Attenborough. Only include the narration.`,
            *map(lambda x: {"image": x, "resize": 768}, base64Frames[0::60])
        ],
    }
]
 
# Request GPT-4 to create the script
params = {
    "model": "gpt-4",
    "messages": PROMPT_MESSAGES,
    "max_tokens": 500,
}
 
result = client.chat.completions.create(**params)
print(result.choices[0].message.content)

Étape 5 : Générer la voix off avec l'API TTS

Utilisez le script de GPT-4 et convertissez-le en fichier audio en utilisant l'API TTS (Text-to-Speech).

import requests
 
# Request to TTS API
response = requests.post(
    "https://api.openai.com/v1/audio/speech",
    headers={
        "Authorization": f"Bearer {os.environ['OPENAI_API_KEY']}",
    },
    json={
        "model": "tts-1-1106",
        "input": result.choices[0].message.content,
        "voice": "onyx",
    },
)
 
# Fetch the audio
audio = b""
for chunk in response.iter_content(chunk_size=1024 * 1024):
    audio += chunk
 
# Display audio output
from IPython.display import Audio
 
Audio(audio)

Conclusion

En suivant ces étapes, vous exploitez la puissance de l'IA pour créer des récits sophistiqués et des voix off pour des vidéos animalières. Cette intégration avancée de GPT-4 et de l'API TTS améliore non seulement la narration mais enrichit également significativement l'engagement des spectateurs avec votre contenu. À mesure que vous maîtrisez ces outils, vous les trouverez indispensables pour développer du contenu professionnel et promotionnel sur diverses plateformes.

Ressources supplémentaires

Pour approfondir votre compréhension, visitez la Documentation API OpenAI pour des conseils approfondis sur l'utilisation de ces outils révolutionnaires.

Découvrez-en plus sur l'exploitation de l'IA pour la création de contenu ! En savoir plus ici.

Bonne narration !

Référence

Ce tutoriel est inspiré de l'exemple fourni dans GPT with Vision for Video Understanding par Kai Chen.

Libérer l'IA : Créer des récits animaliers captivants avec GPT et l'API TTS