Gemini 3.5 Pro : Guide développeur, fenêtre 2M tokens

Gemini 3.5 Pro est le modèle le plus performant de Google dans la génération 3.x — un cran au-dessus de Flash, conçu pour les tâches exigeant un contexte massif, un raisonnement étendu et des performances multimodales de pointe. Il est actuellement disponible en préversion entreprise sur Vertex AI, avec un lancement public complet via Google AI Studio attendu très prochainement.

Ce guide couvre ce que Gemini 3.5 Pro apporte, comment y accéder dès aujourd'hui, quand le choisir plutôt que Flash, et du code pratique pour démarrer.

Caractéristiques en un coup d'œil

Capacité	Gemini 3.5 Pro	Gemini 3.5 Flash
Fenêtre de contexte	2M tokens	1M tokens
Limite de sortie	64K tokens	32K tokens
Mode Deep Think	Oui	Oui
Multimodal	Texte, image, audio, vidéo	Texte, image, audio, vidéo
Idéal pour	Contexte long, raisonnement complexe	Boucles agentiques, haut débit
Disponibilité	Préversion Vertex AI	GA (AI Studio + API)

Une fenêtre de contexte de 2M tokens équivaut à environ 1 500 pages de texte ou 30 000 lignes de code dans un seul appel API — la plus grande fenêtre de contexte de production de tout modèle frontier à mi-2026, soit le double de Gemini 3.5 Flash.

Accès : Préversion entreprise Vertex AI

Gemini 3.5 Pro est disponible pour les clients entreprises sur Vertex AI. Pour demander l'accès :

Ouvrez Vertex AI Model Garden dans la Google Cloud Console
Recherchez gemini-3.5-pro
Demandez un accès à la liste d'autorisation via votre équipe de compte, ou contactez votre CSM si vous êtes client Gemini Enterprise

Une fois approuvé, l'identifiant du modèle à utiliser est gemini-3.5-pro-preview-06.

Pour les développeurs individuels, surveillez aistudio.google.com — Google ajoute généralement les modèles au sélecteur sans annonce formelle. Vous pouvez également interroger de façon programmatique :

import google.generativeai as genai
 
for m in genai.list_models():
    if "3.5" in m.name and "pro" in m.name.lower():
        print(m.name)

Ne codez pas en dur gemini-3.5-pro en production pour l'instant. Utilisez le suffixe de préversion (gemini-3.5-pro-preview-06) jusqu'à confirmation de la disponibilité générale.

La fenêtre de contexte 2M en pratique

Le passage de 1M à 2M tokens ouvre une catégorie différente de charges de travail :

Analyse de bases de code complètes — Transmettez un dépôt entier pour des audits de sécurité, des suggestions de refactorisation ou la génération de documentation
Synthèse de documents multiples — Traitez des centaines de PDF, contrats juridiques ou articles de recherche en une seule passe
Sessions agentiques étendues — Conversations s'étalant sur des heures sans troncature de contexte ni compression d'état
Fichiers réglementaires complets — Analysez des dépôts SEC ou des documents de conformité complets sans découpage

Les améliorations architecturales de 3.5 Pro résolvent la dégradation de qualité qui affectait les modèles 3.1 Pro antérieurs à forte utilisation du contexte. La qualité reste constante sur l'ensemble de la fenêtre de 2M tokens.

Mode Deep Think

Deep Think est un mode de raisonnement qui échange la latence contre la précision sur les problèmes complexes. Le modèle exécute plusieurs chemins d'analyse internes avant de produire sa réponse finale — la chaîne de pensée reste cachée dans la sortie.

Activez-le via le paramètre thinkingConfig.

Python (Google Gen AI SDK) :

from google import genai
from google.genai.types import GenerateContentConfig, ThinkingConfig
 
client = genai.Client()
 
response = client.models.generate_content(
    model="gemini-3.5-pro-preview-06",
    contents="Analysez les implications de sécurité des tokens JWT avec des clés symétriques dans une application SaaS multi-tenant.",
    config=GenerateContentConfig(
        thinking_config=ThinkingConfig(
            thinking_level="high"
        )
    )
)
 
print(response.text)

TypeScript (SDK @google/genai) :

import { GoogleGenAI } from "@google/genai";
 
const client = new GoogleGenAI({
  vertexai: true,
  project: process.env.GOOGLE_CLOUD_PROJECT!,
  location: "global",
});
 
const response = await client.models.generateContent({
  model: "gemini-3.5-pro-preview-06",
  contents: "Refactorisez cette base de code pour utiliser l'injection de dépendances.",
  config: {
    thinkingConfig: {
      thinkingLevel: "medium",
    },
  },
});
 
console.log(response.text);

Les niveaux de réflexion disponibles sont minimal, low, medium et high. Les tokens de raisonnement comptent dans votre budget de contexte et sont facturés aux tarifs des tokens de sortie. Évitez Deep Think pour les agents vocaux en temps réel ou les flux de codage interactifs — la latence supplémentaire rend l'expérience nettement plus lente.

Configuration de l'environnement Vertex AI

Définissez ces variables d'environnement avant d'appeler l'API :

export GOOGLE_CLOUD_PROJECT=votre-project-id
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_ENTERPRISE=True

Installez le SDK Python :

pip install google-genai

Installez le SDK TypeScript :

npm install @google/genai

Un point de terminaison compatible OpenAI est également disponible. Pour les équipes qui migrent depuis une infrastructure basée sur GPT, remplacez l'URL de base et le nom du modèle — la plupart du code existant fonctionne sans autres modifications.

Flash vs Pro : Le cadre de décision

Utilisez Gemini 3.5 Flash quand :

Vous exécutez des boucles agentiques avec de nombreux appels courts
Vous construisez des pipelines RAG ou des applications augmentées par la recherche
La latence de réponse est importante (exigences inférieures à une seconde)
Le coût est une contrainte principale — Flash coûte environ 8 à 10 fois moins que Pro
Le contexte tient confortablement en dessous de 500K tokens

Utilisez Gemini 3.5 Pro quand :

Les charges de travail dépassent régulièrement 1M tokens de contexte
Vous avez besoin d'un raisonnement complexe en plusieurs étapes avec Deep Think
Le coût des hallucinations est élevé (contrats, analyse médicale, domaines juridiques)
Les tâches impliquent une analyse de bases de code complètes ou de documents multiples
Des performances multimodales frontier sur toutes les modalités sont requises

Le diagnostic clé : si votre application atteint 80 à 90 % de la limite de 1M tokens de Flash, évaluez Pro. Si le goulot d'étranglement est le débit ou le coût, restez sur Flash.

Performances sur les benchmarks

Gemini 3.5 Pro obtient 44,4 % sur Humanity's Last Exam, contre 40,2 % pour Flash. Sur SWE-Bench, le modèle vise des performances dans la plage de GPT-5.5 (environ 58,6 %). Pour les tâches nécessitant une analyse approfondie sur de larges fenêtres de contexte, Pro surpasse systématiquement Flash sur les métriques de qualité.

Tarification (estimations de préversion)

La tarification officielle sera publiée lors de la disponibilité générale. D'après les données de préversion et le ratio historique Flash-vers-Pro dans la structure tarifaire de Google :

Niveau	Entrée	Sortie
Contexte standard (moins de 200K tokens)	~12–15 $ par million	~36–45 $ par million
Contexte long (plus de 200K tokens)	~15–18 $ par million	~45–54 $ par million
Entrée mise en cache	~1,20–1,80 $ par million	—

La mise en cache du contexte offre jusqu'à 90 % d'économies sur les prompts répétés — critique pour les déploiements en production qui réutilisent de grands prompts système ou des contextes de documents sur plusieurs requêtes.

Premiers pas dès aujourd'hui

Si vous utilisez déjà Gemini 3.5 Flash pour des charges de travail en production, commencez par auditer votre utilisation des tokens. Exécutez vos tâches à contexte le plus élevé et mesurez où elles se situent par rapport à la fenêtre de 1M. Si vous atteignez régulièrement 700K à 900K tokens, Pro est la prochaine étape naturelle.

Pour les équipes qui évaluent depuis zéro, le guide développeur Gemini 3.5 Flash est le bon point de départ — Flash couvre la majorité des cas d'usage à une fraction du coût. Passez à Pro quand le calcul de contexte le justifie.

Conclusion

Gemini 3.5 Pro comble le fossé entre la vitesse de Flash et les exigences de pointe de la recherche frontier et des charges de travail entreprise. La fenêtre de contexte 2M et le mode Deep Think ne sont pas des fonctionnalités pour chaque application — mais pour l'analyse de bases de code complètes, la synthèse de documents complexes ou les workflows à raisonnement intensif où la précision prime sur la latence, ils justifient le passage depuis Flash.

L'accès entreprise est disponible maintenant sur Vertex AI. Un lancement public de l'API Gemini est attendu dans les prochaines semaines. Configurez votre projet Vertex AI dès aujourd'hui et commencez à tester vos charges de travail à contexte élevé avant que la vague de disponibilité générale n'arrive.