Bienvenue dans ce tutoriel complet visant a vous presenter les modeles pionniers d'OpenAI - GPT-4o et GPT-4o mini. En vous lancant dans ce voyage pour comprendre ces technologies revolutionnaires, notre objectif est de vous fournir les connaissances et competences fondamentales pour les exploiter efficacement dans vos propres applications.

Que sont GPT-4o et GPT-4o mini ?

GPT-4o, ou "o" signifie "omni", represente le dernier bond generationnel dans l'arsenal de modeles de langage d'OpenAI. Contrairement a ses predecesseurs, qui etaient limites aux entrees et sorties textuelles uniquement, GPT-4o est un modele multimodal, capable de comprendre et generer des informations a travers le texte, l'audio et les entrees video.

GPT-4o mini est essentiellement son "petit frere", offrant une variante plus petite et plus abordable qui conserve une vitesse et une precision remarquables, tout en etant capable de supporter des interactions multimodales.

Demarrer avec GPT-4o mini

Avant de plonger dans les aspects pratiques, il est crucial de comprendre que GPT-4o mini fonctionne sur un reseau neuronal unifie, traitant de maniere transparente les entrees textuelles, visuelles et auditives. Cela signifie que que vous fournissiez une requete textuelle, une image ou un clip audio, le modele renverra des sorties textuelles de maniere coherente et cohesive.

Installation

Pour commencer, vous devrez installer le SDK OpenAI pour Python. Cela peut etre fait en utilisant le gestionnaire de paquets pip avec la commande suivante :

%pip install --upgrade openai

Configuration

Ensuite, vous devrez configurer le client OpenAI, pour lequel une cle API est essentielle. Si vous n'en avez pas deja une, creez un nouveau projet sur la plateforme OpenAI et generez une cle API. Une fois obtenue, definissez cette cle API comme variable d'environnement pour un acces facile a travers les projets.

Votre Premiere Requete

Une fois votre installation et configuration en place, il est temps de faire votre premiere requete. Voici comment vous pouvez initier la conversation avec GPT-4o mini :

from openai import OpenAI
import os
 
MODEL = "gpt-4o-mini"
client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY", ""))
 
response = client.chat.completions.create(
    model=MODEL,
    messages=[
        {"role": "system", "content": "Vous etes un assistant utile. Aidez-moi avec mes devoirs de maths!"},
        {"role": "user", "content": "Bonjour! Pouvez-vous resoudre 2+2?"}
    ]
)
print("Assistant: " + response.choices[0].message.content)

La sortie sera la solution au probleme mathematique fourni comme message user.

Traitement d'Images avec GPT-4o mini

Avec ses capacites multimodales, GPT-4o mini peut egalement interpreter des requetes basees sur des images. Par exemple, si vous demandez l'aire d'un triangle et fournissez une image d'un triangle, GPT-4o mini peut l'analyser et repondre en consequence.

Images Encodees en Base64

Pour traiter des images, vous pouvez les passer comme chaines encodees en Base64 ou comme liens URL directs. Voici un exemple d'encodage d'une image et d'envoi d'une requete :

import base64
 
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")
 
base64_image = encode_image("triangle.png") # Remplacez par votre chemin d'image reel
response = client.chat.completions.create(
    model=MODEL,
    messages=[
        {"role": "system", "content": "Vous etes un assistant utile qui repond en Markdown. Aidez-moi avec mes devoirs de maths!"},
        {"role": "user", "content": [{"type": "text", "text": "Quelle est l'aire du triangle?"}, {"type": "image_url", "image_url": { "url": f"data:image/png;base64,{base64_image}"}}]}
    ],
    temperature=0.0,
)
print(response.choices[0].message.content)

Resume et Q&R avec du Contenu Video

Bien que le traitement video direct ne soit pas encore supporte, la capacite de GPT-4o a comprendre les videos via l'echantillonnage de trames ouvre la porte a des applications telles que le resume video et les questions-reponses.

Configuration du Traitement Video

D'abord, assurez-vous d'avoir les dependances necessaires installees :

%pip install opencv-python
%pip install moviepy

Ensuite, traitez la video pour extraire les trames et l'audio :

import cv2
from moviepy.editor import VideoFileClip
 
def process_video(video_path, seconds_per_frame=2):
    # ... code pour traiter la video
    # cela ajoutera les trames a base64Frames et sauvegardera l'audio comme fichier mp3
 
base64Frames, audio_path = process_video("keynote_recap.mp4") # Remplacez par votre chemin video reel

Resumer le Contenu Video

Apres le traitement, envoyez les trames et les transcriptions audio au modele pour le resume :

# ... code pour afficher les trames et jouer l'audio pour le contexte
 
# Maintenant generez un resume avec les entrees visuelles et audio
response = client.chat.completions.create(
    model=MODEL,
    messages=[
        {"role": "system", "content": "Vous generez un resume video. Creez un resume de la video fournie et de sa transcription. Repondez en Markdown"},
        {"role": "user", "content": [
            # ... messages contenant les URLs des images de trames video et la transcription textuelle
        ]}
    ],
    temperature=0,
)
print(response.choices[0].message.content)

Grace a cette methode, GPT-4o mini peut vous donner un resume riche et complet en exploitant les details visuels et parles de la video.

Ce tutoriel a presente les etapes pour demarrer avec GPT-4o et GPT-4o mini, de l'installation a la realisation de requetes sophistiquees impliquant des entrees textuelles et images. Avec la pratique, vous serez apte a exploiter ces modeles pour un eventail plus large de taches a mesure qu'OpenAI introduit des modalites supplementaires comme l'audio.

Elargissez votre comprehension et continuez a explorer les capacites de ces puissants outils d'IA.

Source: OpenAI Cookbook: Introduction to GPT-4o par Juston Forte. Publie le 18 juillet 2024.

Introduction a GPT-4o et GPT-4o mini

Que sont GPT-4o et GPT-4o mini ?

Demarrer avec GPT-4o mini

Installation

Configuration

Votre Premiere Requete

Traitement d'Images avec GPT-4o mini

Images Encodees en Base64

Resume et Q&R avec du Contenu Video

Configuration du Traitement Video

Resumer le Contenu Video

Discutez de votre projet avec nous

Articles connexes

Demarrer avec ALLaM-7B-Instruct-preview

Comment Nous Avons Adapté Autoresearch de Karpathy pour les Compétitions Kaggle

Construire une Bibliothèque de Skills Agent Multi-Outils pour Votre Équipe