مرحباً بك في برنامج تعليمي شامل يهدف إلى تعريفك بنماذج OpenAI الرائدة - GPT-4o وGPT-4o mini. بينما تبدأ رحلتك لفهم هذه التقنيات الرائدة، هدفنا هو تزويدك بالمعرفة والمهارات الأساسية للاستفادة منها بفعالية في تطبيقاتك الخاصة.

ما هي GPT-4o وGPT-4o mini؟

GPT-4o، حيث تعني "o" كلمة "omni" (شامل)، هي أحدث قفزة جيلية في ترسانة OpenAI من نماذج اللغة. على عكس سابقاتها التي كانت مقتصرة على مدخلات ومخرجات نصية فقط، فإن GPT-4o هو نموذج متعدد الوسائط، ماهر في فهم وتوليد المعلومات عبر النص والصوت ومدخلات الفيديو.

GPT-4o mini هو في الأساس "شقيقها الأصغر"، يقدم نسخة أصغر وأكثر اقتصادية تحتفظ بسرعة ودقة ملحوظة، مع قدرتها على دعم التفاعلات متعددة الوسائط.

البدء مع GPT-4o mini

قبل الغوص في الجوانب العملية، من الضروري فهم أن GPT-4o mini يعمل على شبكة عصبية موحدة، تعالج بسلاسة المدخلات النصية والمرئية والسمعية. هذا يعني أنه سواء قدمت استعلاماً نصياً أو صورة أو مقطعاً صوتياً، سيعيد النموذج مخرجات نصية بطريقة متسقة ومتماسكة.

التثبيت

للبدء، ستحتاج إلى تثبيت OpenAI SDK لـ Python. يمكن القيام بذلك باستخدام مدير الحزم pip بالأمر التالي:

%pip install --upgrade openai

التكوين

بعد ذلك، ستحتاج إلى تكوين عميل OpenAI، والذي يتطلب مفتاح API. إذا لم يكن لديك واحد بالفعل، أنشئ مشروعاً جديداً على منصة OpenAI وولد مفتاح API. بمجرد الحصول عليه، قم بتعيين مفتاح API كمتغير بيئة للوصول السهل عبر المشاريع.

طلبك الأول

بمجرد أن يكون التثبيت والتكوين في مكانهما، حان الوقت لإجراء طلبك الأول. إليك كيفية بدء المحادثة مع GPT-4o mini:

from openai import OpenAI
import os
 
MODEL = "gpt-4o-mini"
client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY", ""))
 
response = client.chat.completions.create(
    model=MODEL,
    messages=[
        {"role": "system", "content": "أنت مساعد مفيد. ساعدني في واجبي في الرياضيات!"},
        {"role": "user", "content": "مرحباً! هل يمكنك حل 2+2؟"}
    ]
)
print("المساعد: " + response.choices[0].message.content)

سيكون المخرج هو حل مسألة الرياضيات المقدمة كرسالة user.

معالجة الصور مع GPT-4o mini

مع قدراته متعددة الوسائط، يمكن لـ GPT-4o mini أيضاً تفسير الاستعلامات المبنية على الصور. على سبيل المثال، إذا سألت عن مساحة مثلث وقدمت صورة لمثلث، يمكن لـ GPT-4o mini تحليلها والاستجابة وفقاً لذلك.

الصور المشفرة بـ Base64

لمعالجة الصور، يمكنك تمريرها كسلاسل مشفرة بـ Base64 أو كروابط URL مباشرة. إليك مثال على ترميز صورة وإرسال طلب:

import base64
 
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")
 
base64_image = encode_image("triangle.png") # استبدل بمسار صورتك الفعلي
response = client.chat.completions.create(
    model=MODEL,
    messages=[
        {"role": "system", "content": "أنت مساعد مفيد يستجيب بـ Markdown. ساعدني في واجبي في الرياضيات!"},
        {"role": "user", "content": [{"type": "text", "text": "ما هي مساحة المثلث؟"}, {"type": "image_url", "image_url": { "url": f"data:image/png;base64,{base64_image}"}}]}
    ],
    temperature=0.0,
)
print(response.choices[0].message.content)

التلخيص والأسئلة والأجوبة مع محتوى الفيديو

بينما لا يتم دعم معالجة الفيديو المباشرة بعد، فإن قدرة GPT-4o على فهم الفيديوهات من خلال أخذ عينات الإطارات تفتح الباب لتطبيقات مثل تلخيص الفيديو والإجابة على الأسئلة.

إعداد معالجة الفيديو

أولاً، تأكد من تثبيت التبعيات الضرورية:

%pip install opencv-python
%pip install moviepy

بعد ذلك، عالج الفيديو لاستخراج الإطارات والصوت:

import cv2
from moviepy.editor import VideoFileClip
 
def process_video(video_path, seconds_per_frame=2):
    # ... كود لمعالجة الفيديو
    # سيضيف هذا الإطارات إلى base64Frames ويحفظ الصوت كملف mp3
 
base64Frames, audio_path = process_video("keynote_recap.mp4") # استبدل بمسار الفيديو الفعلي

تلخيص محتوى الفيديو

بعد المعالجة، أرسل كل من الإطارات ونصوص الصوت إلى النموذج للتلخيص:

# ... كود لعرض الإطارات وتشغيل الصوت للسياق
 
# الآن ولد ملخصاً بالمدخلات المرئية والصوتية
response = client.chat.completions.create(
    model=MODEL,
    messages=[
        {"role": "system", "content": "أنت تولد ملخص فيديو. أنشئ ملخصاً للفيديو المقدم ونصه. استجب بـ Markdown"},
        {"role": "user", "content": [
            # ... رسائل تحتوي على URLs صور إطارات الفيديو والنص
        ]}
    ],
    temperature=0,
)
print(response.choices[0].message.content)

من خلال هذه الطريقة، يمكن لـ GPT-4o mini أن يعطيك ملخصاً غنياً وشاملاً من خلال الاستفادة من التفاصيل المرئية والمنطوقة في الفيديو.

قدم هذا البرنامج التعليمي الخطوات للبدء مع GPT-4o وGPT-4o mini، من التثبيت إلى إجراء طلبات متطورة تتضمن مدخلات نصية وصور. مع الممارسة، ستكون بارعاً في الاستفادة من هذه النماذج لمجموعة أوسع من المهام مع تقديم OpenAI لوسائط إضافية مثل الصوت.

وسّع فهمك واستمر في استكشاف قدرات أدوات الذكاء الاصطناعي القوية هذه.

المصدر: OpenAI Cookbook: Introduction to GPT-4o بواسطة Juston Forte. نُشر في 18 يوليو 2024.

مقدمة إلى GPT-4o وGPT-4o mini

ما هي GPT-4o وGPT-4o mini؟

البدء مع GPT-4o mini

التثبيت

التكوين

طلبك الأول

معالجة الصور مع GPT-4o mini

الصور المشفرة بـ Base64

التلخيص والأسئلة والأجوبة مع محتوى الفيديو

إعداد معالجة الفيديو

تلخيص محتوى الفيديو

ناقش مشروعك معنا

مقالات ذات صلة

دليل دمج روبوت الدردشة الذكي: بناء واجهات محادثة ذكية

مركز دروس AI SDK: دليلك الشامل لبناء تطبيقات الذكاء الاصطناعي

البدء مع ALLaM-7B-Instruct-preview