مقدمة إلى GPT-4o وGPT-4o mini

Anis MarrouchiAI Bot
بواسطة Anis Marrouchi & AI Bot ·

جاري تحميل مشغل تحويل النص إلى كلام الصوتي...

مرحباً بك في برنامج تعليمي شامل يهدف إلى تعريفك بنماذج OpenAI الرائدة - GPT-4o وGPT-4o mini. بينما تبدأ رحلتك لفهم هذه التقنيات الرائدة، هدفنا هو تزويدك بالمعرفة والمهارات الأساسية للاستفادة منها بفعالية في تطبيقاتك الخاصة.

ما هي GPT-4o وGPT-4o mini؟

GPT-4o، حيث تعني "o" كلمة "omni" (شامل)، هي أحدث قفزة جيلية في ترسانة OpenAI من نماذج اللغة. على عكس سابقاتها التي كانت مقتصرة على مدخلات ومخرجات نصية فقط، فإن GPT-4o هو نموذج متعدد الوسائط، ماهر في فهم وتوليد المعلومات عبر النص والصوت ومدخلات الفيديو.

GPT-4o mini هو في الأساس "شقيقها الأصغر"، يقدم نسخة أصغر وأكثر اقتصادية تحتفظ بسرعة ودقة ملحوظة، مع قدرتها على دعم التفاعلات متعددة الوسائط.

GPT-4o وGPT-4o mini

البدء مع GPT-4o mini

قبل الغوص في الجوانب العملية، من الضروري فهم أن GPT-4o mini يعمل على شبكة عصبية موحدة، تعالج بسلاسة المدخلات النصية والمرئية والسمعية. هذا يعني أنه سواء قدمت استعلاماً نصياً أو صورة أو مقطعاً صوتياً، سيعيد النموذج مخرجات نصية بطريقة متسقة ومتماسكة.

التثبيت

للبدء، ستحتاج إلى تثبيت OpenAI SDK لـ Python. يمكن القيام بذلك باستخدام مدير الحزم pip بالأمر التالي:

%pip install --upgrade openai

التكوين

بعد ذلك، ستحتاج إلى تكوين عميل OpenAI، والذي يتطلب مفتاح API. إذا لم يكن لديك واحد بالفعل، أنشئ مشروعاً جديداً على منصة OpenAI وولد مفتاح API. بمجرد الحصول عليه، قم بتعيين مفتاح API كمتغير بيئة للوصول السهل عبر المشاريع.

طلبك الأول

بمجرد أن يكون التثبيت والتكوين في مكانهما، حان الوقت لإجراء طلبك الأول. إليك كيفية بدء المحادثة مع GPT-4o mini:

from openai import OpenAI
import os
 
MODEL = "gpt-4o-mini"
client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY", ""))
 
response = client.chat.completions.create(
    model=MODEL,
    messages=[
        {"role": "system", "content": "أنت مساعد مفيد. ساعدني في واجبي في الرياضيات!"},
        {"role": "user", "content": "مرحباً! هل يمكنك حل 2+2؟"}
    ]
)
print("المساعد: " + response.choices[0].message.content)

سيكون المخرج هو حل مسألة الرياضيات المقدمة كرسالة user.

معالجة الصور مع GPT-4o mini

مع قدراته متعددة الوسائط، يمكن لـ GPT-4o mini أيضاً تفسير الاستعلامات المبنية على الصور. على سبيل المثال، إذا سألت عن مساحة مثلث وقدمت صورة لمثلث، يمكن لـ GPT-4o mini تحليلها والاستجابة وفقاً لذلك.

الصور المشفرة بـ Base64

لمعالجة الصور، يمكنك تمريرها كسلاسل مشفرة بـ Base64 أو كروابط URL مباشرة. إليك مثال على ترميز صورة وإرسال طلب:

import base64
 
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")
 
base64_image = encode_image("triangle.png") # استبدل بمسار صورتك الفعلي
response = client.chat.completions.create(
    model=MODEL,
    messages=[
        {"role": "system", "content": "أنت مساعد مفيد يستجيب بـ Markdown. ساعدني في واجبي في الرياضيات!"},
        {"role": "user", "content": [{"type": "text", "text": "ما هي مساحة المثلث؟"}, {"type": "image_url", "image_url": { "url": f"data:image/png;base64,{base64_image}"}}]}
    ],
    temperature=0.0,
)
print(response.choices[0].message.content)

التلخيص والأسئلة والأجوبة مع محتوى الفيديو

بينما لا يتم دعم معالجة الفيديو المباشرة بعد، فإن قدرة GPT-4o على فهم الفيديوهات من خلال أخذ عينات الإطارات تفتح الباب لتطبيقات مثل تلخيص الفيديو والإجابة على الأسئلة.

إعداد معالجة الفيديو

أولاً، تأكد من تثبيت التبعيات الضرورية:

%pip install opencv-python
%pip install moviepy

بعد ذلك، عالج الفيديو لاستخراج الإطارات والصوت:

import cv2
from moviepy.editor import VideoFileClip
 
def process_video(video_path, seconds_per_frame=2):
    # ... كود لمعالجة الفيديو
    # سيضيف هذا الإطارات إلى base64Frames ويحفظ الصوت كملف mp3
 
base64Frames, audio_path = process_video("keynote_recap.mp4") # استبدل بمسار الفيديو الفعلي

تلخيص محتوى الفيديو

بعد المعالجة، أرسل كل من الإطارات ونصوص الصوت إلى النموذج للتلخيص:

# ... كود لعرض الإطارات وتشغيل الصوت للسياق
 
# الآن ولد ملخصاً بالمدخلات المرئية والصوتية
response = client.chat.completions.create(
    model=MODEL,
    messages=[
        {"role": "system", "content": "أنت تولد ملخص فيديو. أنشئ ملخصاً للفيديو المقدم ونصه. استجب بـ Markdown"},
        {"role": "user", "content": [
            # ... رسائل تحتوي على URLs صور إطارات الفيديو والنص
        ]}
    ],
    temperature=0,
)
print(response.choices[0].message.content)

من خلال هذه الطريقة، يمكن لـ GPT-4o mini أن يعطيك ملخصاً غنياً وشاملاً من خلال الاستفادة من التفاصيل المرئية والمنطوقة في الفيديو.

قدم هذا البرنامج التعليمي الخطوات للبدء مع GPT-4o وGPT-4o mini، من التثبيت إلى إجراء طلبات متطورة تتضمن مدخلات نصية وصور. مع الممارسة، ستكون بارعاً في الاستفادة من هذه النماذج لمجموعة أوسع من المهام مع تقديم OpenAI لوسائط إضافية مثل الصوت.

وسّع فهمك واستمر في استكشاف قدرات أدوات الذكاء الاصطناعي القوية هذه.


المصدر: OpenAI Cookbook: Introduction to GPT-4o بواسطة Juston Forte. نُشر في 18 يوليو 2024.


هل تريد قراءة المزيد من الدروس التعليمية؟ تحقق من أحدث درس تعليمي لدينا على كيفية فتح حساب Flouci المهني المجاني للعاملين لحسابهم الخاص في تونس.

ناقش مشروعك معنا

نحن هنا للمساعدة في احتياجات تطوير الويب الخاصة بك. حدد موعدًا لمناقشة مشروعك وكيف يمكننا مساعدتك.

دعنا نجد أفضل الحلول لاحتياجاتك.

مقالات ذات صلة

البدء مع ALLaM-7B-Instruct-preview

تعلم كيفية استخدام نموذج ALLaM-7B-Instruct-preview مع Python، وكيفية التفاعل معه من JavaScript عبر واجهة برمجة مستضافة (مثل Hugging Face Spaces).

8 د قراءة·