مقدمة إلى GPT-4o وGPT-4o mini

مرحباً بك في برنامج تعليمي شامل يهدف إلى تعريفك بنماذج OpenAI الرائدة - GPT-4o وGPT-4o mini. بينما تبدأ رحلتك لفهم هذه التقنيات الرائدة، هدفنا هو تزويدك بالمعرفة والمهارات الأساسية للاستفادة منها بفعالية في تطبيقاتك الخاصة.
ما هي GPT-4o وGPT-4o mini؟
GPT-4o، حيث تعني "o" كلمة "omni" (شامل)، هي أحدث قفزة جيلية في ترسانة OpenAI من نماذج اللغة. على عكس سابقاتها التي كانت مقتصرة على مدخلات ومخرجات نصية فقط، فإن GPT-4o هو نموذج متعدد الوسائط، ماهر في فهم وتوليد المعلومات عبر النص والصوت ومدخلات الفيديو.
GPT-4o mini هو في الأساس "شقيقها الأصغر"، يقدم نسخة أصغر وأكثر اقتصادية تحتفظ بسرعة ودقة ملحوظة، مع قدرتها على دعم التفاعلات متعددة الوسائط.

البدء مع GPT-4o mini
قبل الغوص في الجوانب العملية، من الضروري فهم أن GPT-4o mini يعمل على شبكة عصبية موحدة، تعالج بسلاسة المدخلات النصية والمرئية والسمعية. هذا يعني أنه سواء قدمت استعلاماً نصياً أو صورة أو مقطعاً صوتياً، سيعيد النموذج مخرجات نصية بطريقة متسقة ومتماسكة.
التثبيت
للبدء، ستحتاج إلى تثبيت OpenAI SDK لـ Python. يمكن القيام بذلك باستخدام مدير الحزم pip بالأمر التالي:
%pip install --upgrade openaiالتكوين
بعد ذلك، ستحتاج إلى تكوين عميل OpenAI، والذي يتطلب مفتاح API. إذا لم يكن لديك واحد بالفعل، أنشئ مشروعاً جديداً على منصة OpenAI وولد مفتاح API. بمجرد الحصول عليه، قم بتعيين مفتاح API كمتغير بيئة للوصول السهل عبر المشاريع.
طلبك الأول
بمجرد أن يكون التثبيت والتكوين في مكانهما، حان الوقت لإجراء طلبك الأول. إليك كيفية بدء المحادثة مع GPT-4o mini:
from openai import OpenAI
import os
MODEL = "gpt-4o-mini"
client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY", ""))
response = client.chat.completions.create(
model=MODEL,
messages=[
{"role": "system", "content": "أنت مساعد مفيد. ساعدني في واجبي في الرياضيات!"},
{"role": "user", "content": "مرحباً! هل يمكنك حل 2+2؟"}
]
)
print("المساعد: " + response.choices[0].message.content)سيكون المخرج هو حل مسألة الرياضيات المقدمة كرسالة user.
معالجة الصور مع GPT-4o mini
مع قدراته متعددة الوسائط، يمكن لـ GPT-4o mini أيضاً تفسير الاستعلامات المبنية على الصور. على سبيل المثال، إذا سألت عن مساحة مثلث وقدمت صورة لمثلث، يمكن لـ GPT-4o mini تحليلها والاستجابة وفقاً لذلك.
الصور المشفرة بـ Base64
لمعالجة الصور، يمكنك تمريرها كسلاسل مشفرة بـ Base64 أو كروابط URL مباشرة. إليك مثال على ترميز صورة وإرسال طلب:
import base64
def encode_image(image_path):
with open(image_path, "rb") as image_file:
return base64.b64encode(image_file.read()).decode("utf-8")
base64_image = encode_image("triangle.png") # استبدل بمسار صورتك الفعلي
response = client.chat.completions.create(
model=MODEL,
messages=[
{"role": "system", "content": "أنت مساعد مفيد يستجيب بـ Markdown. ساعدني في واجبي في الرياضيات!"},
{"role": "user", "content": [{"type": "text", "text": "ما هي مساحة المثلث؟"}, {"type": "image_url", "image_url": { "url": f"data:image/png;base64,{base64_image}"}}]}
],
temperature=0.0,
)
print(response.choices[0].message.content)التلخيص والأسئلة والأجوبة مع محتوى الفيديو
بينما لا يتم دعم معالجة الفيديو المباشرة بعد، فإن قدرة GPT-4o على فهم الفيديوهات من خلال أخذ عينات الإطارات تفتح الباب لتطبيقات مثل تلخيص الفيديو والإجابة على الأسئلة.
إعداد معالجة الفيديو
أولاً، تأكد من تثبيت التبعيات الضرورية:
%pip install opencv-python
%pip install moviepyبعد ذلك، عالج الفيديو لاستخراج الإطارات والصوت:
import cv2
from moviepy.editor import VideoFileClip
def process_video(video_path, seconds_per_frame=2):
# ... كود لمعالجة الفيديو
# سيضيف هذا الإطارات إلى base64Frames ويحفظ الصوت كملف mp3
base64Frames, audio_path = process_video("keynote_recap.mp4") # استبدل بمسار الفيديو الفعليتلخيص محتوى الفيديو
بعد المعالجة، أرسل كل من الإطارات ونصوص الصوت إلى النموذج للتلخيص:
# ... كود لعرض الإطارات وتشغيل الصوت للسياق
# الآن ولد ملخصاً بالمدخلات المرئية والصوتية
response = client.chat.completions.create(
model=MODEL,
messages=[
{"role": "system", "content": "أنت تولد ملخص فيديو. أنشئ ملخصاً للفيديو المقدم ونصه. استجب بـ Markdown"},
{"role": "user", "content": [
# ... رسائل تحتوي على URLs صور إطارات الفيديو والنص
]}
],
temperature=0,
)
print(response.choices[0].message.content)من خلال هذه الطريقة، يمكن لـ GPT-4o mini أن يعطيك ملخصاً غنياً وشاملاً من خلال الاستفادة من التفاصيل المرئية والمنطوقة في الفيديو.
قدم هذا البرنامج التعليمي الخطوات للبدء مع GPT-4o وGPT-4o mini، من التثبيت إلى إجراء طلبات متطورة تتضمن مدخلات نصية وصور. مع الممارسة، ستكون بارعاً في الاستفادة من هذه النماذج لمجموعة أوسع من المهام مع تقديم OpenAI لوسائط إضافية مثل الصوت.
وسّع فهمك واستمر في استكشاف قدرات أدوات الذكاء الاصطناعي القوية هذه.
المصدر: OpenAI Cookbook: Introduction to GPT-4o بواسطة Juston Forte. نُشر في 18 يوليو 2024.
ناقش مشروعك معنا
نحن هنا للمساعدة في احتياجات تطوير الويب الخاصة بك. حدد موعدًا لمناقشة مشروعك وكيف يمكننا مساعدتك.
دعنا نجد أفضل الحلول لاحتياجاتك.
مقالات ذات صلة

دليل دمج روبوت الدردشة الذكي: بناء واجهات محادثة ذكية
دليل شامل لدمج روبوتات الدردشة الذكية في تطبيقاتك باستخدام OpenAI وAnthropic Claude وElevenLabs. تعلم بناء روبوتات دردشة نصية وصوتية مع Next.js.

مركز دروس AI SDK: دليلك الشامل لبناء تطبيقات الذكاء الاصطناعي
دليلك الشامل لأدوات وSDKs الذكاء الاصطناعي. اعثر على دروس منظمة حسب مستوى الصعوبة تغطي Vercel AI SDK وModelFusion وOpenAI وAnthropic والمزيد.

البدء مع ALLaM-7B-Instruct-preview
تعلم كيفية استخدام نموذج ALLaM-7B-Instruct-preview مع Python، وكيفية التفاعل معه من JavaScript عبر واجهة برمجة مستضافة (مثل Hugging Face Spaces).