IA locale avec Ollama : un LLM sur vos serveurs, sans aucune fuite de données
Ollama est un runtime open source qui permet de faire tourner des modèles de langage (Mistral, Llama, Qwen, DeepSeek) directement sur un serveur ou un ordinateur, sans connexion internet, sans abonnement, sans frais d'API. En 2026, avec plus de 90 000 étoiles sur GitHub et des millions de téléchargements, c'est devenu la solution de référence pour les entreprises qui veulent l'IA sans sacrifier la confidentialité. Voici ce que vous devez savoir pour évaluer si c'est fait pour vous.
Pourquoi l'IA locale change la donne pour les PME
Jusqu'en 2024, faire tourner un LLM de qualité professionnelle en local nécessitait du matériel haute performance et des compétences en machine learning. En 2026, la situation a complètement changé. Les modèles sont devenus beaucoup plus efficaces (les modèles 7B et 13B font aujourd'hui un travail comparable aux premiers GPT-4 sur de nombreuses tâches), et les outils de déploiement comme Ollama ont éliminé la complexité technique.
Une seule commande suffit désormais pour télécharger et lancer un modèle : ollama run mistral. Le modèle s'exécute localement, expose une API REST compatible avec les outils existants, et aucune donnée ne quitte la machine.
En 2026, la stack IA locale est mature pour les PME. Un serveur avec un bon GPU (RTX 4090 par exemple) ou une machine Apple Silicon fait tourner Mistral 7B à des vitesses utilisables en production. Le modèle le plus récent de Llama (70B quantifié) tourne sur 64 Go de RAM unifiée.
Ollama : qu'est-ce que c'est exactement ?
Ollama est un runtime d'inférence : un programme qui charge un modèle de langage en mémoire et répond aux requêtes. Il fait la même chose que l'API d'OpenAI ou d'Anthropic, mais en local sur vos machines. Il gère :
- Le téléchargement et le stockage des modèles dans un format optimisé (GGUF).
- L'accélération GPU automatique si une carte compatible est disponible (NVIDIA CUDA, AMD ROCm, Apple Metal).
- Une API REST compatible avec le format OpenAI : tout outil déjà intégré avec ChatGPT peut basculer sur Ollama en changeant une seule URL.
- La gestion de plusieurs modèles en parallèle, avec chargement et déchargement automatique.
Open WebUI est l'interface utilisateur la plus populaire pour Ollama. Elle offre une expérience similaire à ChatGPT (historique, multi-modèles, upload de documents, RAG intégré) mais tourne intégralement en local. Vos collaborateurs ont un assistant IA dans leur navigateur, connecté à vos propres modèles, sur vos propres serveurs.
Quels modèles pour une PME française en 2026 ?
| Modèle | Taille | RAM requise | Usage recommandé | Atout français |
|---|---|---|---|---|
| Mistral 7B | 4 Go | 8 Go RAM | Emails, synthèses, FAQ | Excellent en français |
| Llama 3.2 3B | 2 Go | 6 Go RAM | Assistant léger, tâches simples | Bon en français |
| Llama 3.3 70B Q4 | 40 Go | 64 Go RAM | Analyse complexe, raisonnement | Très bon en français |
| Qwen 2.5 32B | 20 Go | 32 Go RAM | Code, analyse structurée | Bon multilingue |
| DeepSeek R1 (local uniquement) | Variable | Variable | Raisonnement avancé | API uniquement en Chine |
Pour une première installation en PME, Mistral 7B est le meilleur point d'entrée. Il est excellent en français, tourne sur du matériel modeste (un Mac M2 avec 16 Go de RAM suffit), et couvre la majorité des tâches d'assistance et d'analyse documentaire.
Attention à DeepSeek : le modèle open source est excellent et déployable en local. En revanche, l'API DeepSeek envoie les données sur des serveurs situés en Chine. Si vous utilisez DeepSeek, c'est uniquement en déploiement local. Ne jamais utiliser l'API DeepSeek pour des données professionnelles sensibles.
Architecture type d'un déploiement Ollama en PME
Voici l'architecture que WorkFlow déploie pour les clients avec des exigences de souveraineté élevées :
- Serveur dédié ou VPS européen haute mémoire : 32 à 64 Go de RAM, 8 vCPU ou GPU NVIDIA RTX 4090.
- Ollama installé sur Ubuntu Server, avec le modèle Mistral 7B ou Llama 3.3 70B selon le niveau de performance requis.
- Open WebUI déployé via Docker, accessible depuis le réseau interne de l'entreprise uniquement. Les collaborateurs y accèdent depuis leur navigateur.
- Intégration n8n : le workflow pointe sur l'URL locale d'Ollama (http://localhost:11434) au lieu de l'API Claude ou OpenAI. Le changement est trivial.
- Système RAG (Retrieval Augmented Generation) via Qdrant ou pgvector : vos documents internes (manuels, CGV, procédures) sont indexés et accessibles au modèle pour des réponses précises sur vos données.
Un workflow conçu pour Claude API bascule sur Ollama en local en changeant une seule ligne de configuration.
Comparaison : LLM local et API cloud, le pour et le contre
| Critère | LLM local (Ollama) | API cloud (Claude, GPT) |
|---|---|---|
| Confidentialité | Totale, aucune donnée externe | Dépendante du DPA signé |
| Coût d'usage | Zéro après l'investissement initial | Variable, facturation à l'usage |
| Investissement initial | Matériel : 500 à 5 000 euros | Zéro (paiement à l'usage) |
| Qualité sur tâches complexes | Bonne (Llama 70B) à très bonne | Excellente (Claude Opus, GPT-4o) |
| Qualité en français | Bonne avec Mistral | Excellente avec Claude |
| Disponibilité | 100 % local, sans dépendance internet | Dépendante d'internet et du SLA |
| Mises à jour des modèles | Manuelles, vous contrôlez | Automatiques, sans contrôle |
| Scalabilité | Limitée par le matériel | Quasi illimitée via API |
Le choix n'est pas binaire. Une architecture hybride est souvent la plus pertinente : Ollama pour les traitements quotidiens avec des données sensibles, Claude API pour les tâches ponctuelles très complexes avec des données pseudonymisées. C'est l'approche que nous recommandons à nos clients avec des contraintes de confidentialité et des besoins de performance variables.
Le cas d'usage RAG : interrogez vos propres documents en privé
Le cas d'usage le plus valorisé de l'IA locale en PME est le RAG (Retrieval Augmented Generation) sur documents internes. L'idée : vos procédures, contrats, manuels, CGV, rapports sont indexés dans une base vectorielle locale. Quand un collaborateur pose une question, le système retrouve les passages pertinents et les injecte dans le contexte du modèle, qui génère une réponse précise et sourcée.
Concrètement : votre assistante administrative interroge en langage naturel 10 ans de contrats fournisseurs sans les envoyer sur internet. Votre technicien demande à l'IA quelle procédure s'applique pour une panne spécifique, et l'IA lui cite le bon chapitre du manuel technique. Votre commercial retrouve instantanément les conditions tarifaires d'un client spécifique dans votre base de devis.
Ce système fonctionne intégralement en local. Aucun document interne ne quitte l'entreprise. La confidentialité est totale.