Gemini 3.5 Pro est le modèle le plus performant de Google dans la génération 3.x — un cran au-dessus de Flash, conçu pour les tâches exigeant un contexte massif, un raisonnement étendu et des performances multimodales de pointe. Il est actuellement disponible en préversion entreprise sur Vertex AI, avec un lancement public complet via Google AI Studio attendu très prochainement.
Ce guide couvre ce que Gemini 3.5 Pro apporte, comment y accéder dès aujourd'hui, quand le choisir plutôt que Flash, et du code pratique pour démarrer.
Caractéristiques en un coup d'œil
| Capacité | Gemini 3.5 Pro | Gemini 3.5 Flash |
|---|---|---|
| Fenêtre de contexte | 2M tokens | 1M tokens |
| Limite de sortie | 64K tokens | 32K tokens |
| Mode Deep Think | Oui | Oui |
| Multimodal | Texte, image, audio, vidéo | Texte, image, audio, vidéo |
| Idéal pour | Contexte long, raisonnement complexe | Boucles agentiques, haut débit |
| Disponibilité | Préversion Vertex AI | GA (AI Studio + API) |
Une fenêtre de contexte de 2M tokens équivaut à environ 1 500 pages de texte ou 30 000 lignes de code dans un seul appel API — la plus grande fenêtre de contexte de production de tout modèle frontier à mi-2026, soit le double de Gemini 3.5 Flash.
Accès : Préversion entreprise Vertex AI
Gemini 3.5 Pro est disponible pour les clients entreprises sur Vertex AI. Pour demander l'accès :
- Ouvrez Vertex AI Model Garden dans la Google Cloud Console
- Recherchez
gemini-3.5-pro - Demandez un accès à la liste d'autorisation via votre équipe de compte, ou contactez votre CSM si vous êtes client Gemini Enterprise
Une fois approuvé, l'identifiant du modèle à utiliser est gemini-3.5-pro-preview-06.
Pour les développeurs individuels, surveillez aistudio.google.com — Google ajoute généralement les modèles au sélecteur sans annonce formelle. Vous pouvez également interroger de façon programmatique :
import google.generativeai as genai
for m in genai.list_models():
if "3.5" in m.name and "pro" in m.name.lower():
print(m.name)Ne codez pas en dur gemini-3.5-pro en production pour l'instant. Utilisez le suffixe de préversion (gemini-3.5-pro-preview-06) jusqu'à confirmation de la disponibilité générale.
La fenêtre de contexte 2M en pratique
Le passage de 1M à 2M tokens ouvre une catégorie différente de charges de travail :
- Analyse de bases de code complètes — Transmettez un dépôt entier pour des audits de sécurité, des suggestions de refactorisation ou la génération de documentation
- Synthèse de documents multiples — Traitez des centaines de PDF, contrats juridiques ou articles de recherche en une seule passe
- Sessions agentiques étendues — Conversations s'étalant sur des heures sans troncature de contexte ni compression d'état
- Fichiers réglementaires complets — Analysez des dépôts SEC ou des documents de conformité complets sans découpage
Les améliorations architecturales de 3.5 Pro résolvent la dégradation de qualité qui affectait les modèles 3.1 Pro antérieurs à forte utilisation du contexte. La qualité reste constante sur l'ensemble de la fenêtre de 2M tokens.
Mode Deep Think
Deep Think est un mode de raisonnement qui échange la latence contre la précision sur les problèmes complexes. Le modèle exécute plusieurs chemins d'analyse internes avant de produire sa réponse finale — la chaîne de pensée reste cachée dans la sortie.
Activez-le via le paramètre thinkingConfig.
Python (Google Gen AI SDK) :
from google import genai
from google.genai.types import GenerateContentConfig, ThinkingConfig
client = genai.Client()
response = client.models.generate_content(
model="gemini-3.5-pro-preview-06",
contents="Analysez les implications de sécurité des tokens JWT avec des clés symétriques dans une application SaaS multi-tenant.",
config=GenerateContentConfig(
thinking_config=ThinkingConfig(
thinking_level="high"
)
)
)
print(response.text)TypeScript (SDK @google/genai) :
import { GoogleGenAI } from "@google/genai";
const client = new GoogleGenAI({
vertexai: true,
project: process.env.GOOGLE_CLOUD_PROJECT!,
location: "global",
});
const response = await client.models.generateContent({
model: "gemini-3.5-pro-preview-06",
contents: "Refactorisez cette base de code pour utiliser l'injection de dépendances.",
config: {
thinkingConfig: {
thinkingLevel: "medium",
},
},
});
console.log(response.text);Les niveaux de réflexion disponibles sont minimal, low, medium et high. Les tokens de raisonnement comptent dans votre budget de contexte et sont facturés aux tarifs des tokens de sortie. Évitez Deep Think pour les agents vocaux en temps réel ou les flux de codage interactifs — la latence supplémentaire rend l'expérience nettement plus lente.
Configuration de l'environnement Vertex AI
Définissez ces variables d'environnement avant d'appeler l'API :
export GOOGLE_CLOUD_PROJECT=votre-project-id
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_ENTERPRISE=TrueInstallez le SDK Python :
pip install google-genaiInstallez le SDK TypeScript :
npm install @google/genaiUn point de terminaison compatible OpenAI est également disponible. Pour les équipes qui migrent depuis une infrastructure basée sur GPT, remplacez l'URL de base et le nom du modèle — la plupart du code existant fonctionne sans autres modifications.
Flash vs Pro : Le cadre de décision
Utilisez Gemini 3.5 Flash quand :
- Vous exécutez des boucles agentiques avec de nombreux appels courts
- Vous construisez des pipelines RAG ou des applications augmentées par la recherche
- La latence de réponse est importante (exigences inférieures à une seconde)
- Le coût est une contrainte principale — Flash coûte environ 8 à 10 fois moins que Pro
- Le contexte tient confortablement en dessous de 500K tokens
Utilisez Gemini 3.5 Pro quand :
- Les charges de travail dépassent régulièrement 1M tokens de contexte
- Vous avez besoin d'un raisonnement complexe en plusieurs étapes avec Deep Think
- Le coût des hallucinations est élevé (contrats, analyse médicale, domaines juridiques)
- Les tâches impliquent une analyse de bases de code complètes ou de documents multiples
- Des performances multimodales frontier sur toutes les modalités sont requises
Le diagnostic clé : si votre application atteint 80 à 90 % de la limite de 1M tokens de Flash, évaluez Pro. Si le goulot d'étranglement est le débit ou le coût, restez sur Flash.
Performances sur les benchmarks
Gemini 3.5 Pro obtient 44,4 % sur Humanity's Last Exam, contre 40,2 % pour Flash. Sur SWE-Bench, le modèle vise des performances dans la plage de GPT-5.5 (environ 58,6 %). Pour les tâches nécessitant une analyse approfondie sur de larges fenêtres de contexte, Pro surpasse systématiquement Flash sur les métriques de qualité.
Tarification (estimations de préversion)
La tarification officielle sera publiée lors de la disponibilité générale. D'après les données de préversion et le ratio historique Flash-vers-Pro dans la structure tarifaire de Google :
| Niveau | Entrée | Sortie |
|---|---|---|
| Contexte standard (moins de 200K tokens) | ~12–15 $ par million | ~36–45 $ par million |
| Contexte long (plus de 200K tokens) | ~15–18 $ par million | ~45–54 $ par million |
| Entrée mise en cache | ~1,20–1,80 $ par million | — |
La mise en cache du contexte offre jusqu'à 90 % d'économies sur les prompts répétés — critique pour les déploiements en production qui réutilisent de grands prompts système ou des contextes de documents sur plusieurs requêtes.
Premiers pas dès aujourd'hui
Si vous utilisez déjà Gemini 3.5 Flash pour des charges de travail en production, commencez par auditer votre utilisation des tokens. Exécutez vos tâches à contexte le plus élevé et mesurez où elles se situent par rapport à la fenêtre de 1M. Si vous atteignez régulièrement 700K à 900K tokens, Pro est la prochaine étape naturelle.
Pour les équipes qui évaluent depuis zéro, le guide développeur Gemini 3.5 Flash est le bon point de départ — Flash couvre la majorité des cas d'usage à une fraction du coût. Passez à Pro quand le calcul de contexte le justifie.
Conclusion
Gemini 3.5 Pro comble le fossé entre la vitesse de Flash et les exigences de pointe de la recherche frontier et des charges de travail entreprise. La fenêtre de contexte 2M et le mode Deep Think ne sont pas des fonctionnalités pour chaque application — mais pour l'analyse de bases de code complètes, la synthèse de documents complexes ou les workflows à raisonnement intensif où la précision prime sur la latence, ils justifient le passage depuis Flash.
L'accès entreprise est disponible maintenant sur Vertex AI. Un lancement public de l'API Gemini est attendu dans les prochaines semaines. Configurez votre projet Vertex AI dès aujourd'hui et commencez à tester vos charges de travail à contexte élevé avant que la vague de disponibilité générale n'arrive.