IA souveraine

Héberger un LLM privé en France

Faire tourner Mistral ou Llama sur une infrastructure hébergée en France, sans envoyer vos données à une API américaine. Inférence managée sur GPU, conforme RGPD, et ré-internalisable.

Mis à jour en juin 2026

OpenAIAnthropicAPI américainehéberger soi-mêmevos données partenthébergé en France

Appeler l'API d'OpenAI ou d'Anthropic, c'est envoyer chaque prompt et chaque réponse sur des serveurs soumis au droit américain. Pour beaucoup de cas d'usage (documents RH, contrats, données clients, code propriétaire), cela ne passe pas.

Héberger un modèle open source en France règle le problème à la racine : les données ne quittent jamais le pays, et vous gardez la main sur l'infrastructure. France Nuage fournit le GPU et l'inférence managée pour le faire sans monter une équipe MLOps.

Pourquoi héberger plutôt que consommer une API

  • Les données restent en France. Vos prompts ne transitent pas par un fournisseur tiers hors UE. C'est la différence qui débloque les dossiers RGPD et les données sensibles.
  • Pas de fuite vers l'entraînement d'un tiers. Un modèle que vous hébergez n'envoie rien à personne. Ce que vous lui donnez reste chez vous.
  • Coût prévisible à volume. Une API se facture au token. Quand l'usage devient sérieux, un GPU dédié coûte souvent moins qu'une facture qui grossit avec le trafic.
  • Ré-internalisable. L'infrastructure est open source. Vous pouvez la reprendre sur votre propre matériel quand vous voulez, en emportant vos données.

Quel modèle choisir

Les modèles à poids ouverts couvrent aujourd'hui la plupart des besoins. Le bon choix dépend surtout de la taille, parce que la taille décide du GPU.

  • 7 à 9 milliards de paramètres (Mistral 7B, Llama 3 8B) : rapides, suffisants pour la classification, le résumé, l'extraction, un chatbot interne. Tournent sur un seul GPU grand public.
  • 12 à 34 milliards : meilleur raisonnement, bon compromis qualité/coût pour du RAG ou de l'assistance métier.
  • 70 milliards et plus : qualité proche des gros modèles propriétaires, mais il faut plusieurs GPU ou de la quantification.

La quantification (4 bits, 8 bits) réduit fortement la mémoire nécessaire au prix d'une perte de précision en général acceptable. Un modèle 7B passe d'environ 16 Go en fp16 à 6-8 Go en 4 bits ; un 70B passe d'environ 140 Go à une quarantaine de Go.

Comment ça marche chez France Nuage

Vous choisissez un modèle et une taille de GPU, on déploie l'inférence en France, et vous obtenez une API privée compatible avec le format OpenAI : vos outils existants fonctionnent sans réécriture. Tout reste dans des datacenters français.

Votre applicationFranceAPI privéeformat OpenAIInférence GPUMistral / Llama

Aucune donnée ne sort de ce périmètre. Et comme la stack est open source, vous pouvez demander à la reprendre sur votre propre infrastructure sans repartir de zéro.

Ce qu'il faut dimensionner

Pour dimensionner votre IA privée, on part de vos besoins métier. Le réglage technique (quantification, batching, choix du GPU), c'est notre travail.

Taille du modèleTaille du contexteUtilisateurs simultanésVitesse attendueFrance Nuagedimensionne le GPU
  1. La taille du modèle. Un petit modèle (7 à 8 milliards de paramètres) répond vite et coûte peu : il suffit pour le résumé, la classification ou un assistant interne. Un grand modèle raisonne mieux sur les sujets complexes, au prix de plus de ressources. On ajuste la précision (quantification) pour tenir l'enveloppe GPU.
  2. La taille du contexte. C'est ce que le modèle lit d'un seul coup : une question courte, ou des dizaines de pages injectées pour interroger vos documents (RAG). C'est le facteur le plus sous-estimé : un contexte long consomme beaucoup de mémoire et ralentit la première réponse. Dès que vous traitez de longs documents, c'est souvent lui qui dimensionne.
  3. Le nombre d'utilisateurs réellement simultanés. Combien de personnes interrogent l'IA en même temps, au pic. Dix collaborateurs connectés ne lancent presque jamais dix requêtes à la même seconde : ce chiffre est souvent surestimé.
  4. La vitesse attendue. Deux choses qui se distinguent : le délai avant la première réponse, qui compte pour un échange interactif, et le débit de génération, qui compte pour un traitement de masse en tâche de fond. Un agent en direct et un traitement de nuit n'ont pas les mêmes besoins.

En cas de doute, on part d'un modèle petit et d'un GPU modeste, on mesure l'usage réel, et on monte si besoin. C'est moins cher que de surdimensionner d'emblée.

Questions fréquentes

Mes données servent-elles à entraîner le modèle ?

Non. Un modèle hébergé fait de l'inférence, et l'inférence n'entraîne rien. Vos prompts ne sont ni stockés ni renvoyés ailleurs, sauf si vous le décidez.

Est-ce conforme au RGPD ?

Les traitements ont lieu dans des datacenters français, hors de portée des lois extraterritoriales américaines. C'est ce qui permet d'instruire les données personnelles et sensibles.

Puis-je récupérer mon déploiement plus tard ?

Oui. Les composants sont open source. Vous pouvez ré-internaliser l'ensemble sur votre matériel, sans dépendance à France Nuage.

Faut-il un gros GPU pour démarrer ?

Non. Un modèle de 7 à 9 milliards de paramètres, éventuellement quantifié, tourne sur un seul GPU et couvre déjà beaucoup de cas. On monte en puissance quand l'usage le justifie.

Hébergez votre IA privée en France

On dimensionne le GPU, on déploie l'inférence, vos données restent chez vous.