Cómo Instalar tu Propia IA en Casa con Ollama: Guía Completa 2026

¿Y si pudieras tener tu propio ChatGPT en casa, sin pagar suscripción, sin enviar tus datos a la nube y sin depender de internet? Con Ollama, la herramienta de código abierto con más de 94.000 estrellas en GitHub, puedes ejecutar modelos de inteligencia artificial como Llama 3.3, DeepSeek-R1, Gemma 3 y Qwen 3 directamente en tu PC. En esta guía paso a paso te enseñamos a instalarlo, configurarlo y sacarle el máximo partido en 2026.

Ollama ejecutando inteligencia artificial local en un PC gaming con terminal y modelos LLM — Ollama permite ejecutar modelos de IA avanzados directamente en tu propio PC

¿Qué es Ollama y por qué usarlo?

Ollama es una herramienta de código abierto (licencia MIT) que te permite descargar y ejecutar modelos de lenguaje (LLMs) directamente en tu ordenador. Piensa en ello como un "Docker para modelos de IA": con un solo comando puedes tener funcionando modelos como Llama 3.3 de Meta, DeepSeek-R1 o Gemma 3 de Google sin necesidad de crear cuentas ni pagar suscripciones.

¿Por qué elegir IA local en lugar de ChatGPT, Claude o Gemini? Hay varias razones de peso:

Privacidad total: tus datos nunca salen de tu ordenador. Ni una sola consulta viaja a servidores externos
Sin coste mensual: una vez descargado el modelo, lo usas gratis para siempre
Funciona sin internet: ideal para trabajar offline, en aviones o zonas sin cobertura
Personalizable: puedes crear modelos ajustados a tus necesidades con Modelfiles
API compatible con OpenAI: cualquier aplicación que funcione con ChatGPT puede usar Ollama como backend

💡 En cifras: Ollama supera las 94.000 estrellas en GitHub (más que PyTorch), con más de 100 modelos disponibles y millones de descargas. Llama 3.1 8B por sí solo acumula más de 108 millones de descargas.

Requisitos de hardware

La gran pregunta: ¿puede mi PC ejecutar IA local? La respuesta corta es que casi cualquier ordenador moderno puede ejecutar modelos pequeños, pero para modelos más grandes necesitarás más recursos. La memoria RAM y la VRAM de la GPU son los factores clave.

Requisitos por tamaño de modelo

Modelo	Parámetros	RAM mínima	VRAM GPU recomendada	Ejemplo
Pequeño	1-3B	8 GB	4 GB	Gemma 2 2B, Qwen 2.5 3B
Mediano	7-8B	16 GB	8 GB	Llama 3.1 8B, Mistral 7B
Grande	13-14B	32 GB	16 GB	DeepSeek-R1 14B, Qwen 3 14B
Muy grande	70B+	64 GB	40-48 GB	Llama 3.3 70B, DeepSeek-R1 70B

¿GPU o CPU?

Ollama funciona tanto con GPU como solo con CPU, pero la diferencia de rendimiento es enorme:

Modo	Velocidad típica	Experiencia
GPU (NVIDIA/AMD)	40-80 tokens/s	Respuestas casi instantáneas, conversación fluida
Solo CPU	4-20 tokens/s	Usable pero notablemente más lento

GPUs compatibles

NVIDIA: cualquier GPU con Compute Capability 5.0+ (GTX 900 series en adelante). Las RTX 3060 12GB y RTX 4060 Ti 16GB son excelentes opciones calidad-precio
AMD: soporte completo en Linux y Windows (añadido en 2025)
Apple Silicon: M1, M2, M3 y M4 con memoria unificada — rendimiento excelente

Si estás pensando en actualizar tu GPU para IA local, consulta nuestra guía de las mejores tarjetas gráficas de 2026.

⚠️ Importante: La VRAM es el cuello de botella principal. Si tu GPU tiene 8 GB de VRAM, podrás ejecutar modelos de hasta ~7B parámetros cómodamente. Para modelos de 14B necesitarás 16 GB de VRAM.

Instalación paso a paso

Ollama está disponible para Windows, macOS y Linux. La instalación es sorprendentemente sencilla.

Linux (una línea)

curl -fsSL https://ollama.com/install.sh | sh

Este comando descarga e instala Ollama automáticamente. En distribuciones como Ubuntu, Fedora o Arch funciona sin problemas.

Windows

Descarga el instalador desde ollama.com/download
Ejecuta el archivo .exe descargado
Sigue el asistente de instalación (siguiente, siguiente, instalar)
Ollama se ejecutará en la bandeja del sistema

macOS

Descarga el archivo .dmg desde ollama.com/download
Arrastra Ollama a la carpeta Aplicaciones
Abre Ollama desde Aplicaciones

Docker (para servidores y avanzados)

docker run -d --gpus all -p 11434:11434 --name ollama ollama/ollama

Con Docker tienes la ventaja de aislar Ollama del sistema y poder desplegarlo en servidores remotos o clústeres Kubernetes.

Verificar la instalación

Abre una terminal y ejecuta:

ollama --version

Si ves algo como ollama version 0.16.1 (o superior), la instalación ha sido exitosa. Ahora vamos a descargar tu primer modelo.

Tu primera conversación con IA local

ollama run llama3.1:8b

Este comando descarga el modelo Llama 3.1 de 8B parámetros (~4.7 GB) y abre una conversación directa en la terminal. Ya tienes tu propia IA funcionando en local.

Terminal mostrando la instalación de Ollama y ejecución del primer modelo LLM en local — Instalar Ollama y ejecutar tu primer modelo es cuestión de minutos

Los mejores modelos para cada uso

Ollama cuenta con más de 100 modelos en su biblioteca. Aquí tienes los mejores según tu caso de uso:

Para uso general (chatear, preguntar, resumir)

Modelo	Tamaño	Comando	Ideal para
Llama 3.3 70B	40 GB	`ollama run llama3.3:70b`	Máxima calidad, iguala a GPT-4 en muchas tareas
Llama 3.1 8B	4.7 GB	`ollama run llama3.1:8b`	Mejor relación calidad/tamaño, funciona en cualquier GPU moderna
Gemma 3 9B	5.4 GB	`ollama run gemma3`	Multimodal (entiende imágenes), muy eficiente
Qwen 3 14B	8.9 GB	`ollama run qwen3:14b`	Excelente en 29 idiomas, incluido español

Para programación

Modelo	Tamaño	Comando	Ideal para
DeepSeek Coder	Varía	`ollama run deepseek-coder`	87 lenguajes, entrenado con 2T tokens de código
Qwen 2.5 Coder 7B	4.4 GB	`ollama run qwen2.5-coder:7b`	Autocompletado y generación de código
CodeLlama 34B	19 GB	`ollama run codellama:34b`	Proyectos grandes, comprensión multi-archivo

Para razonamiento avanzado

Modelo	Tamaño	Comando	Ideal para
DeepSeek-R1 14B	8.9 GB	`ollama run deepseek-r1:14b`	Razonamiento paso a paso, se acerca a O3 de OpenAI
DeepSeek-R1 70B	43 GB	`ollama run deepseek-r1:70b`	Razonamiento de nivel investigación

💡 Recomendación: Si tienes una GPU de 8 GB (RTX 3060, RTX 4060), empieza con Llama 3.1 8B para uso general y DeepSeek Coder para programación. Con 16 GB de VRAM (RTX 4080, RX 9070 XT), sube a los modelos de 14B.

Comandos esenciales

Ollama se controla desde la terminal con comandos sencillos. Aquí tienes los que usarás a diario:

Comando	Descripción
`ollama run modelo`	Ejecuta un modelo (lo descarga si no lo tienes)
`ollama pull modelo`	Descarga un modelo sin ejecutarlo
`ollama list`	Muestra todos los modelos descargados
`ollama rm modelo`	Elimina un modelo descargado
`ollama show modelo`	Muestra información detallada del modelo
`ollama serve`	Inicia el servidor API (se ejecuta automáticamente)
`ollama ps`	Muestra los modelos actualmente cargados en memoria
`ollama launch herramienta`	Conecta directamente con herramientas como Claude Code o Codex

Atajos dentro del chat

/bye — Salir de la conversación
/clear — Limpiar el historial de la sesión
/set parameter valor — Ajustar parámetros como temperatura o contexto
/show info — Ver información del modelo activo

Instalar una interfaz gráfica con Open WebUI

Si prefieres una experiencia visual similar a ChatGPT en lugar de la terminal, Open WebUI es la mejor opción. Es una interfaz web gratuita y de código abierto que se conecta a Ollama.

Instalación con Docker (recomendado)

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Después abre tu navegador en http://localhost:3000 y tendrás una interfaz idéntica a ChatGPT pero usando tus modelos locales.

¿Qué ofrece Open WebUI?

Chat con múltiples modelos — cambia entre Llama, DeepSeek, Gemma con un clic
Historial de conversaciones — todas tus charlas guardadas y organizadas
Subida de documentos — arrastra PDFs e imágenes para que el modelo los analice
RAG integrado — búsqueda en tus documentos para respuestas basadas en tus propios datos
Multi-usuario — varios usuarios pueden usar la misma instalación con cuentas separadas

Interfaz de Open WebUI conectada a Ollama, similar a ChatGPT pero ejecutando IA en local — Open WebUI transforma Ollama en una experiencia visual idéntica a ChatGPT, pero 100% local

Casos de uso prácticos

Más allá de chatear, Ollama tiene aplicaciones prácticas que pueden ahorrarte tiempo y dinero:

Asistente de programación

Usa DeepSeek Coder o Qwen 2.5 Coder como copiloto de código. Con la extensión Continue.dev para VS Code puedes tener autocompletado inteligente, refactorización y explicación de código directamente en tu editor, sin enviar tu código a la nube.

ollama launch claude-code

El nuevo comando ollama launch (añadido en octubre 2025) conecta directamente con herramientas de desarrollo como Claude Code, Codex u OpenCode sin configuración adicional.

Análisis de documentos privados

¿Tienes contratos, informes médicos o documentos confidenciales que quieres analizar con IA? Con Ollama + Open WebUI puedes arrastrar PDFs directamente a la interfaz y hacer preguntas sobre su contenido. Todo se procesa en local.

Generación de contenido

Escribe borradores de artículos, emails profesionales, posts para redes sociales o descripciones de productos. Modelos como Llama 3.3 70B producen textos de calidad comparable a GPT-4 para muchas tareas.

Traducción multilingüe

Qwen 3 soporta 29 idiomas con fluidez nativa. Puedes traducir documentos completos sin límites de caracteres ni costes por uso.

Generación de imágenes (experimental)

Desde enero de 2026, Ollama soporta generación de imágenes de forma experimental con modelos como FLUX.2 [klein] y Z-Image-Turbo. Actualmente solo en macOS, con soporte para Windows y Linux en desarrollo.

Si quieres explorar más herramientas de IA gratuitas, no te pierdas nuestra guía de las mejores herramientas de IA gratis en 2026.

Privacidad y seguridad

Esta es la mayor ventaja de Ollama frente a servicios en la nube. Cuando usas ChatGPT o Claude, tus conversaciones viajan a servidores de OpenAI o Anthropic. Con Ollama, todo se queda en tu máquina.

Ventajas de privacidad

Zero data leakage: ningún dato sale de tu red local
Sin telemetría: Ollama es open source, puedes auditar el código
Cumplimiento normativo: compatible con GDPR, PCI DSS y normativas de protección de datos
Modo offline: una vez descargados los modelos, no necesitas conexión a internet
Variable OLLAMA_NO_CLOUD: desactiva cualquier conexión a modelos en la nube si lo deseas

export OLLAMA_NO_CLOUD=1
ollama serve

Ideal para profesionales

Especialmente útil para abogados (documentos confidenciales), médicos (datos de pacientes), desarrolladores (código propietario) y empresas (datos financieros sensibles) que no pueden enviar información a servidores de terceros.

Secure Minions: lo mejor de ambos mundos

Si necesitas la potencia de un modelo en la nube pero no quieres exponer tus datos, Ollama incluye el protocolo Secure Minions (desarrollado con Stanford). Tu modelo local procesa la información sensible y solo envía consultas cifradas al modelo en la nube. Resultado: 98% de la precisión del modelo cloud con 5-30x menos coste y privacidad garantizada.

Ollama vs alternativas

Ollama no es la única opción para ejecutar IA en local. ¿Cómo se compara con las alternativas?

Característica	Ollama	LM Studio	GPT4All	vLLM
Interfaz	Terminal + App de escritorio	GUI completa	GUI + Chat	Solo API/CLI
Facilidad de uso	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐
Rendimiento	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐
API OpenAI	Sí	Sí	Limitada	Sí
Docker/K8s	Sí	No	No	Sí
Ideal para	Desarrolladores, DevOps	Usuarios no técnicos	Principiantes	Producción empresarial
Único	Modelfiles, Secure Minions, generación de imágenes	Vulkan GPU offload	LocalDocs Q&A	Paged Attention, máximo throughput

Veredicto: Ollama es la mejor opción para desarrolladores y usuarios que quieran un equilibrio entre simplicidad, potencia y flexibilidad. Si eres completamente nuevo en IA local y no quieres tocar la terminal, empieza con LM Studio o GPT4All y luego migra a Ollama cuando necesites más control.

Para entender mejor cómo la IA local encaja en el ecosistema actual, lee nuestro artículo sobre agentes de IA en 2026.

Consejos para optimizar el rendimiento

Sácale el máximo partido a Ollama con estos trucos:

1. Usa modelos quantizados

Los modelos vienen en diferentes niveles de cuantización (Q4, Q5, Q8). Los modelos Q4_K_M ofrecen el mejor equilibrio entre calidad y uso de memoria. Es lo que Ollama descarga por defecto.

2. Ajusta el contexto

Por defecto, el contexto es de 2048 tokens. Si necesitas que el modelo recuerde más información en la conversación:

ollama run llama3.1:8b --num-ctx 8192

Ten en cuenta que más contexto = más VRAM utilizada.

3. Mantén los drivers actualizados

Asegúrate de tener los últimos drivers de NVIDIA (con soporte CUDA) o AMD. Ollama soporta Flash Attention 2.0 en GPUs Ampere+ (RTX 30XX en adelante), lo que reduce el uso de memoria hasta un 30%.

4. Usa SSD para almacenamiento

Los modelos se cargan desde disco a memoria. Un SSD NVMe reduce significativamente los tiempos de carga iniciales frente a un HDD.

5. Multi-GPU

Si tienes dos GPUs, Ollama puede dividir el modelo entre ambas automáticamente. Ideal para modelos de 70B que no caben en una sola tarjeta.

💡 Pro tip: Desde septiembre de 2025, Ollama usa un nuevo sistema de planificación de memoria que calcula la asignación exacta en vez de estimaciones. Esto reduce los crasheos por falta de memoria (OOM) en un 70%.

Benchmarks de rendimiento de Ollama con diferentes GPUs NVIDIA y AMD ejecutando modelos LLM — Rendimiento de Ollama con diferentes configuraciones de hardware: GPU vs CPU

Novedades de Ollama en 2026

Ollama no para de evolucionar. Estas son las funcionalidades más importantes añadidas recientemente:

App de escritorio nativa (julio 2025): interfaz con chat, drag-and-drop de documentos y slider de contexto
Generación de imágenes (enero 2026): soporte experimental para FLUX.2 y Z-Image-Turbo
Modelos en la nube: conecta con modelos frontier además de los locales, con opción de desactivarlo completamente
Búsqueda web integrada (noviembre 2025): los modelos pueden buscar información actualizada en internet
Ollama Launch (octubre 2025): integración directa con herramientas de desarrollo
Structured Outputs: respuestas en JSON Schema validado, perfecto para integraciones programáticas
Thinking Mode: modo de razonamiento visible para modelos como DeepSeek-R1

Preguntas Frecuentes

¿Ollama es gratis?

Sí, Ollama es completamente gratuito y de código abierto (licencia MIT). Los modelos también son gratuitos para descargar y usar. Existe Ollama Turbo ($20/mes) como servicio cloud opcional, pero no es necesario.

¿Qué modelo debo elegir si solo tengo 8 GB de RAM?

Con 8 GB de RAM puedes ejecutar modelos de hasta 3B parámetros como Gemma 2 2B o Qwen 2.5 3B. Si tienes GPU, estos modelos funcionan sorprendentemente bien para tareas básicas como resúmenes, traducciones y preguntas generales.

¿Ollama funciona sin internet?

Sí. Una vez que hayas descargado los modelos, Ollama funciona completamente offline. Solo necesitas internet para descargar modelos nuevos o actualizaciones. Puedes incluso activar OLLAMA_NO_CLOUD=1 para bloquear cualquier conexión externa.

¿Los modelos locales son tan buenos como ChatGPT?

Depende del modelo y la tarea. Llama 3.3 70B iguala a GPT-4 en muchas tareas y DeepSeek-R1 se acerca a O3 en razonamiento. Para modelos de 7-8B, la calidad es inferior a GPT-4 pero más que suficiente para la mayoría de usos cotidianos.

¿Puedo usar Ollama como backend para aplicaciones?

Sí. Ollama expone una API REST compatible con OpenAI en http://localhost:11434. Cualquier aplicación que funcione con la API de OpenAI puede apuntar a Ollama sin cambios. También tiene bibliotecas oficiales para Python y JavaScript, e integración con LangChain y LlamaIndex.

¿Cuánto espacio en disco necesito?

Depende de los modelos que descargues. Un modelo de 7-8B ocupa unos 4-5 GB, uno de 14B unos 8-9 GB y uno de 70B alrededor de 40 GB. Recomendamos tener al menos 50 GB libres en un SSD para tener 2-3 modelos instalados cómodamente.

Etiquetas: Ollama IA local LLM Llama 3 DeepSeek Open WebUI privacidad código abierto tutorial GPU

Comentarios

Cargando comentarios...