Introduction a GPT-4o et GPT-4o mini

Bienvenue dans ce tutoriel complet visant a vous presenter les modeles pionniers d'OpenAI - GPT-4o et GPT-4o mini. En vous lancant dans ce voyage pour comprendre ces technologies revolutionnaires, notre objectif est de vous fournir les connaissances et competences fondamentales pour les exploiter efficacement dans vos propres applications.
Que sont GPT-4o et GPT-4o mini ?
GPT-4o, ou "o" signifie "omni", represente le dernier bond generationnel dans l'arsenal de modeles de langage d'OpenAI. Contrairement a ses predecesseurs, qui etaient limites aux entrees et sorties textuelles uniquement, GPT-4o est un modele multimodal, capable de comprendre et generer des informations a travers le texte, l'audio et les entrees video.
GPT-4o mini est essentiellement son "petit frere", offrant une variante plus petite et plus abordable qui conserve une vitesse et une precision remarquables, tout en etant capable de supporter des interactions multimodales.

Demarrer avec GPT-4o mini
Avant de plonger dans les aspects pratiques, il est crucial de comprendre que GPT-4o mini fonctionne sur un reseau neuronal unifie, traitant de maniere transparente les entrees textuelles, visuelles et auditives. Cela signifie que que vous fournissiez une requete textuelle, une image ou un clip audio, le modele renverra des sorties textuelles de maniere coherente et cohesive.
Installation
Pour commencer, vous devrez installer le SDK OpenAI pour Python. Cela peut etre fait en utilisant le gestionnaire de paquets pip avec la commande suivante :
%pip install --upgrade openaiConfiguration
Ensuite, vous devrez configurer le client OpenAI, pour lequel une cle API est essentielle. Si vous n'en avez pas deja une, creez un nouveau projet sur la plateforme OpenAI et generez une cle API. Une fois obtenue, definissez cette cle API comme variable d'environnement pour un acces facile a travers les projets.
Votre Premiere Requete
Une fois votre installation et configuration en place, il est temps de faire votre premiere requete. Voici comment vous pouvez initier la conversation avec GPT-4o mini :
from openai import OpenAI
import os
MODEL = "gpt-4o-mini"
client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY", ""))
response = client.chat.completions.create(
model=MODEL,
messages=[
{"role": "system", "content": "Vous etes un assistant utile. Aidez-moi avec mes devoirs de maths!"},
{"role": "user", "content": "Bonjour! Pouvez-vous resoudre 2+2?"}
]
)
print("Assistant: " + response.choices[0].message.content)La sortie sera la solution au probleme mathematique fourni comme message user.
Traitement d'Images avec GPT-4o mini
Avec ses capacites multimodales, GPT-4o mini peut egalement interpreter des requetes basees sur des images. Par exemple, si vous demandez l'aire d'un triangle et fournissez une image d'un triangle, GPT-4o mini peut l'analyser et repondre en consequence.
Images Encodees en Base64
Pour traiter des images, vous pouvez les passer comme chaines encodees en Base64 ou comme liens URL directs. Voici un exemple d'encodage d'une image et d'envoi d'une requete :
import base64
def encode_image(image_path):
with open(image_path, "rb") as image_file:
return base64.b64encode(image_file.read()).decode("utf-8")
base64_image = encode_image("triangle.png") # Remplacez par votre chemin d'image reel
response = client.chat.completions.create(
model=MODEL,
messages=[
{"role": "system", "content": "Vous etes un assistant utile qui repond en Markdown. Aidez-moi avec mes devoirs de maths!"},
{"role": "user", "content": [{"type": "text", "text": "Quelle est l'aire du triangle?"}, {"type": "image_url", "image_url": { "url": f"data:image/png;base64,{base64_image}"}}]}
],
temperature=0.0,
)
print(response.choices[0].message.content)Resume et Q&R avec du Contenu Video
Bien que le traitement video direct ne soit pas encore supporte, la capacite de GPT-4o a comprendre les videos via l'echantillonnage de trames ouvre la porte a des applications telles que le resume video et les questions-reponses.
Configuration du Traitement Video
D'abord, assurez-vous d'avoir les dependances necessaires installees :
%pip install opencv-python
%pip install moviepyEnsuite, traitez la video pour extraire les trames et l'audio :
import cv2
from moviepy.editor import VideoFileClip
def process_video(video_path, seconds_per_frame=2):
# ... code pour traiter la video
# cela ajoutera les trames a base64Frames et sauvegardera l'audio comme fichier mp3
base64Frames, audio_path = process_video("keynote_recap.mp4") # Remplacez par votre chemin video reelResumer le Contenu Video
Apres le traitement, envoyez les trames et les transcriptions audio au modele pour le resume :
# ... code pour afficher les trames et jouer l'audio pour le contexte
# Maintenant generez un resume avec les entrees visuelles et audio
response = client.chat.completions.create(
model=MODEL,
messages=[
{"role": "system", "content": "Vous generez un resume video. Creez un resume de la video fournie et de sa transcription. Repondez en Markdown"},
{"role": "user", "content": [
# ... messages contenant les URLs des images de trames video et la transcription textuelle
]}
],
temperature=0,
)
print(response.choices[0].message.content)Grace a cette methode, GPT-4o mini peut vous donner un resume riche et complet en exploitant les details visuels et parles de la video.
Ce tutoriel a presente les etapes pour demarrer avec GPT-4o et GPT-4o mini, de l'installation a la realisation de requetes sophistiquees impliquant des entrees textuelles et images. Avec la pratique, vous serez apte a exploiter ces modeles pour un eventail plus large de taches a mesure qu'OpenAI introduit des modalites supplementaires comme l'audio.
Elargissez votre comprehension et continuez a explorer les capacites de ces puissants outils d'IA.
Source: OpenAI Cookbook: Introduction to GPT-4o par Juston Forte. Publie le 18 juillet 2024.
Discutez de votre projet avec nous
Nous sommes ici pour vous aider avec vos besoins en développement Web. Planifiez un appel pour discuter de votre projet et comment nous pouvons vous aider.
Trouvons les meilleures solutions pour vos besoins.
Articles connexes

Demarrer avec ALLaM-7B-Instruct-preview
Apprenez a utiliser le modele ALLaM-7B-Instruct-preview avec Python, et comment interagir avec lui depuis JavaScript via une API hebergee (ex: sur Hugging Face Spaces).

Créez votre propre interpréteur de code avec génération dynamique d'outils
Apprenez à créer un interpréteur de code personnalisé utilisant la génération et l'exécution dynamiques d'outils avec o3-mini, permettant une résolution de problèmes flexible et adaptative.

Créer un interpréteur de code personnalisé pour les agents LLM
Apprenez à créer un interpréteur de code personnalisé pour les agents de grands modèles de langage (LLM), permettant l'appel dynamique d'outils et l'exécution isolée de code pour une flexibilité et une sécurité accrues.