ALLaM-7B-Instruct-preview est un puissant modele de langage de 7 milliards de parametres developpe par le Centre National d'Intelligence Artificielle (NCAI) de l'Autorite Saoudienne des Donnees et de l'IA (SDAIA). Il est specifiquement entraine pour l'arabe et l'anglais, ce qui en fait un outil precieux pour les applications bilingues. Ce tutoriel vous guide dans la configuration et l'utilisation du modele directement en Python et explique comment interagir avec lui depuis JavaScript via un endpoint API heberge.

Introduction a ALLaM

Le modele fait partie de la serie ALLaM, concue pour faire progresser la Technologie de la Langue Arabe (ALT). Cette version specifique (ALLaM-7B-Instruct-preview) est ajustee aux instructions, ce qui signifie qu'elle est optimisee pour suivre les instructions utilisateur fournies dans les prompts. Elle est construite sur une architecture transformer autoregressive et supporte une longueur de contexte de 4096 tokens.

Utilisation Python avec `transformers`

La methode principale pour interagir avec ALLaM est via la bibliotheque transformers de Hugging Face en Python.

Configuration

Installer les bibliotheques: Vous aurez besoin de transformers et torch. Il est fortement recommande d'avoir un GPU compatible CUDA pour des performances raisonnables.

pip install transformers torch
# Ou pour le support CUDA (assurez-vous que votre version PyTorch correspond a votre version CUDA):
# pip install transformers torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # Exemple pour CUDA 11.8

Compte Hugging Face (Optionnel): Selon les permissions d'acces au modele, vous pourriez avoir besoin d'etre connecte a votre compte Hugging Face. Vous pouvez vous connecter via le CLI:
```
huggingface-cli login
```

Exemple de Code

Le script suivant charge le modele et le tokenizer, prepare un prompt d'entree (en arabe), genere une reponse et l'affiche.

# -*- coding: utf-8 -*-
"""
Exemple d'utilisation du modele ALLaM-AI/ALLaM-7B-Instruct-preview depuis Hugging Face.
"""
 
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
 
# --- Configuration ---
MODEL_NAME = "ALLaM-AI/ALLaM-7B-Instruct-preview"
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Utilisation du peripherique: {DEVICE}")
 
# --- Charger le Modele et le Tokenizer ---
try:
    print(f"Chargement du modele: {MODEL_NAME}...")
    allam_model = AutoModelForCausalLM.from_pretrained(MODEL_NAME)
    print(f"Chargement du tokenizer: {MODEL_NAME}...")
    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
    print("Modele et tokenizer charges avec succes.")
 
    allam_model = allam_model.to(DEVICE)
 
except Exception as e:
    print(f"Erreur lors du chargement du modele ou du tokenizer: {e}")
    exit(1)
 
# --- Preparer l'Entree ---
messages = [
    {"role": "user", "content": "Comment preparer une tasse de the?"},
]
 
# Appliquer le template de chat
try:
    print("Application du template de chat...")
    formatted_input_string = tokenizer.apply_chat_template(messages, tokenize=False)
    print(f"Chaine d'entree formatee:\n{formatted_input_string}")
 
    print("Tokenisation de l'entree...")
    inputs = tokenizer(formatted_input_string, return_tensors='pt', return_token_type_ids=False)
    inputs = {k: v.to(DEVICE) for k, v in inputs.items()}
    print("Entree preparee pour le modele.")
 
except Exception as e:
    print(f"Erreur lors de la preparation de l'entree: {e}")
    exit(1)
 
# --- Generer la Reponse ---
print("Generation de la reponse...")
try:
    generation_params = {
        "max_new_tokens": 4096,
        "do_sample": True,
        "top_k": 50,
        "top_p": 0.95,
        "temperature": 0.6
    }
 
    with torch.no_grad():
        response_ids = allam_model.generate(**inputs, **generation_params)
 
    print("Decodage de la reponse...")
    decoded_response = tokenizer.batch_decode(response_ids, skip_special_tokens=True)[0]
 
    if decoded_response.startswith(formatted_input_string):
         final_output = decoded_response[len(formatted_input_string):].strip()
    else:
         final_output = decoded_response
 
    print("\n--- Reponse Generee ---")
    print(final_output)
    print("--------------------------\n")
 
except Exception as e:
    print(f"Erreur lors de la generation ou du decodage: {e}")
    exit(1)
 
print("Script termine avec succes.")

Executer l'Exemple Python

Sauvegardez le code ci-dessus sous allam_example.py et executez-le depuis votre terminal:

python allam_example.py

Le script chargera le modele (cela peut prendre du temps et telecharger des fichiers lors de la premiere execution), traitera l'entree, generera le texte et affichera le resultat.

Utilisation JavaScript (via API Hebergee)

Executer un modele de 7 milliards de parametres comme ALLaM directement dans un environnement JavaScript standard (comme un navigateur web ou Node.js) en utilisant des bibliotheques comme @xenova/transformers n'est generalement pas faisable en raison de la grande taille du modele et des exigences elevees en ressources.

La methode pratique pour interagir avec un tel modele depuis JavaScript est d'appeler un endpoint API ou le modele est heberge sur une infrastructure backend appropriee. Des plateformes comme Hugging Face Spaces ou des Inference Endpoints dedies permettent de deployer le modele et de l'exposer via une API.

Exemple de Code Client JavaScript

/**
 * Exemple d'utilisation JavaScript pour interagir avec le modele ALLaM heberge sur Hugging Face Spaces.
 */
 
// !!! REMPLACEZ CECI PAR L'URL REELLE DE VOTRE ENDPOINT API !!!
const HF_SPACE_API_URL = "https://YOUR_USERNAME-YOUR_SPACE_NAME.hf.space/generate";
 
const userPrompt = "Comment preparer une tasse de the?";
 
async function generateTextViaHFSpace(promptText) {
  console.log(`Envoi du prompt a HF Space: "${promptText}" a ${HF_SPACE_API_URL}`);
 
  if (HF_SPACE_API_URL.includes("YOUR_USERNAME-YOUR_SPACE_NAME")) {
    console.error("Erreur: Veuillez remplacer HF_SPACE_API_URL par l'URL reelle de votre endpoint.");
    return null;
  }
 
  try {
    const response = await fetch(HF_SPACE_API_URL, {
      method: "POST",
      headers: {
        "Content-Type": "application/json",
      },
      body: JSON.stringify({ prompt: promptText }),
    });
 
    if (!response.ok) {
      throw new Error(`Erreur HTTP! statut: ${response.status}`);
    }
 
    const data = await response.json();
    console.log("Reponse recue de HF Space.");
    return data.generated_text || data.response || data;
 
  } catch (error) {
    console.error("Erreur lors de l'appel a l'API Hugging Face Space:", error);
    throw error;
  }
}
 
// Execution
(async () => {
  try {
    const generatedText = await generateTextViaHFSpace(userPrompt);
    if (generatedText !== null) {
        console.log("\n--- Reponse Generee (depuis HF Space) ---");
        console.log(generatedText);
        console.log("------------------------------------------\n");
    }
  } catch (error) {
    console.error("Echec de l'obtention de la generation depuis Hugging Face Space.");
  }
})();

Prerequis: Cette approche JavaScript necessite d'abord d'heberger le modele ALLaM derriere une API.

Heberger ALLaM pour l'Acces API (Hugging Face Spaces)

Hugging Face Spaces fournit une plateforme pour heberger des applications ML, y compris servir des modeles via des APIs. Voici un apercu conceptuel du deploiement d'ALLaM sur un Space:

Creer un Nouveau Space: Allez sur Hugging Face et creez un nouveau Space
Definir les Dependances: Creez un fichier requirements.txt
Creer l'Application Backend: Utilisez FastAPI pour creer un endpoint API
Configurer le Space: Assurez-vous de la bonne configuration
Deployer: Commitez vos fichiers dans le depot du Space

Prompts Systeme

Le modele ALLaM est optimise pour fonctionner sans prompt systeme par defaut. Cependant, vous pouvez en fournir un si necessaire.

Exemples:

Anglais: {"role": "system", "content": "You are ALLaM, a bilingual English and Arabic AI assistant."}
Arabe: {"role": "system", "content": "..." }

Considerations Ethiques

N'oubliez pas que les LLMs comme ALLaM peuvent parfois produire des sorties incorrectes ou biaisees. Il est crucial d'implementer des mesures de securite et d'evaluer l'adequation du modele pour votre application specifique.

Reference: Carte du Modele ALLaM-AI/ALLaM-7B-Instruct-preview sur Hugging Face.

Demarrer avec ALLaM-7B-Instruct-preview

Introduction a ALLaM

Utilisation Python avec `transformers`

Configuration

Exemple de Code

Executer l'Exemple Python

Utilisation JavaScript (via API Hebergee)

Exemple de Code Client JavaScript

Heberger ALLaM pour l'Acces API (Hugging Face Spaces)

Prompts Systeme

Considerations Ethiques

Discutez de votre projet avec nous

Articles connexes

Integration d'ALLaM-7B-Instruct-preview avec Ollama

Créer un interpréteur de code personnalisé pour les agents LLM

Guide de l'API Template HeyGen

Introduction a ALLaM

Utilisation Python avec transformers

Configuration

Exemple de Code

Executer l'Exemple Python

Utilisation JavaScript (via API Hebergee)

Exemple de Code Client JavaScript

Heberger ALLaM pour l'Acces API (Hugging Face Spaces)

Prompts Systeme

Considerations Ethiques

Discutez de votre projet avec nous

Articles connexes

Integration d'ALLaM-7B-Instruct-preview avec Ollama

Créer un interpréteur de code personnalisé pour les agents LLM

Guide de l'API Template HeyGen

Utilisation Python avec `transformers`