Ollama ejecutando inteligencia artificial local en un PC gaming con terminal y modelos LLM
Volver al blog
TUTORIALES 19 Febrero 2026 15 min lectura 28 visitas

Cómo Instalar tu Propia IA en Casa con Ollama: Guía Completa 2026

Arkaia Corporation
Arkaia Corporation Editor

¿Y si pudieras tener tu propio ChatGPT en casa, sin pagar suscripción, sin enviar tus datos a la nube y sin depender de internet? Con Ollama, la herramienta de código abierto con más de 94.000 estrellas en GitHub, puedes ejecutar modelos de inteligencia artificial como Llama 3.3, DeepSeek-R1, Gemma 3 y Qwen 3 directamente en tu PC. En esta guía paso a paso te enseñamos a instalarlo, configurarlo y sacarle el máximo partido en 2026.

Ollama ejecutando inteligencia artificial local en un PC gaming con terminal y modelos LLM
Ollama permite ejecutar modelos de IA avanzados directamente en tu propio PC

¿Qué es Ollama y por qué usarlo?

Ollama es una herramienta de código abierto (licencia MIT) que te permite descargar y ejecutar modelos de lenguaje (LLMs) directamente en tu ordenador. Piensa en ello como un "Docker para modelos de IA": con un solo comando puedes tener funcionando modelos como Llama 3.3 de Meta, DeepSeek-R1 o Gemma 3 de Google sin necesidad de crear cuentas ni pagar suscripciones.

¿Por qué elegir IA local en lugar de ChatGPT, Claude o Gemini? Hay varias razones de peso:

  • Privacidad total: tus datos nunca salen de tu ordenador. Ni una sola consulta viaja a servidores externos
  • Sin coste mensual: una vez descargado el modelo, lo usas gratis para siempre
  • Funciona sin internet: ideal para trabajar offline, en aviones o zonas sin cobertura
  • Personalizable: puedes crear modelos ajustados a tus necesidades con Modelfiles
  • API compatible con OpenAI: cualquier aplicación que funcione con ChatGPT puede usar Ollama como backend
💡 En cifras: Ollama supera las 94.000 estrellas en GitHub (más que PyTorch), con más de 100 modelos disponibles y millones de descargas. Llama 3.1 8B por sí solo acumula más de 108 millones de descargas.

Requisitos de hardware

La gran pregunta: ¿puede mi PC ejecutar IA local? La respuesta corta es que casi cualquier ordenador moderno puede ejecutar modelos pequeños, pero para modelos más grandes necesitarás más recursos. La memoria RAM y la VRAM de la GPU son los factores clave.

Requisitos por tamaño de modelo

ModeloParámetrosRAM mínimaVRAM GPU recomendadaEjemplo
Pequeño1-3B8 GB4 GBGemma 2 2B, Qwen 2.5 3B
Mediano7-8B16 GB8 GBLlama 3.1 8B, Mistral 7B
Grande13-14B32 GB16 GBDeepSeek-R1 14B, Qwen 3 14B
Muy grande70B+64 GB40-48 GBLlama 3.3 70B, DeepSeek-R1 70B

¿GPU o CPU?

Ollama funciona tanto con GPU como solo con CPU, pero la diferencia de rendimiento es enorme:

ModoVelocidad típicaExperiencia
GPU (NVIDIA/AMD)40-80 tokens/sRespuestas casi instantáneas, conversación fluida
Solo CPU4-20 tokens/sUsable pero notablemente más lento

GPUs compatibles

  • NVIDIA: cualquier GPU con Compute Capability 5.0+ (GTX 900 series en adelante). Las RTX 3060 12GB y RTX 4060 Ti 16GB son excelentes opciones calidad-precio
  • AMD: soporte completo en Linux y Windows (añadido en 2025)
  • Apple Silicon: M1, M2, M3 y M4 con memoria unificada — rendimiento excelente

Si estás pensando en actualizar tu GPU para IA local, consulta nuestra guía de las mejores tarjetas gráficas de 2026.

⚠️ Importante: La VRAM es el cuello de botella principal. Si tu GPU tiene 8 GB de VRAM, podrás ejecutar modelos de hasta ~7B parámetros cómodamente. Para modelos de 14B necesitarás 16 GB de VRAM.

Instalación paso a paso

Ollama está disponible para Windows, macOS y Linux. La instalación es sorprendentemente sencilla.

Linux (una línea)

curl -fsSL https://ollama.com/install.sh | sh

Este comando descarga e instala Ollama automáticamente. En distribuciones como Ubuntu, Fedora o Arch funciona sin problemas.

Windows

  1. Descarga el instalador desde ollama.com/download
  2. Ejecuta el archivo .exe descargado
  3. Sigue el asistente de instalación (siguiente, siguiente, instalar)
  4. Ollama se ejecutará en la bandeja del sistema

macOS

  1. Descarga el archivo .dmg desde ollama.com/download
  2. Arrastra Ollama a la carpeta Aplicaciones
  3. Abre Ollama desde Aplicaciones

Docker (para servidores y avanzados)

docker run -d --gpus all -p 11434:11434 --name ollama ollama/ollama

Con Docker tienes la ventaja de aislar Ollama del sistema y poder desplegarlo en servidores remotos o clústeres Kubernetes.

Verificar la instalación

Abre una terminal y ejecuta:

ollama --version

Si ves algo como ollama version 0.16.1 (o superior), la instalación ha sido exitosa. Ahora vamos a descargar tu primer modelo.

Tu primera conversación con IA local

ollama run llama3.1:8b

Este comando descarga el modelo Llama 3.1 de 8B parámetros (~4.7 GB) y abre una conversación directa en la terminal. Ya tienes tu propia IA funcionando en local.

Terminal mostrando la instalación de Ollama y ejecución del primer modelo LLM en local
Instalar Ollama y ejecutar tu primer modelo es cuestión de minutos

Los mejores modelos para cada uso

Ollama cuenta con más de 100 modelos en su biblioteca. Aquí tienes los mejores según tu caso de uso:

Para uso general (chatear, preguntar, resumir)

ModeloTamañoComandoIdeal para
Llama 3.3 70B40 GBollama run llama3.3:70bMáxima calidad, iguala a GPT-4 en muchas tareas
Llama 3.1 8B4.7 GBollama run llama3.1:8bMejor relación calidad/tamaño, funciona en cualquier GPU moderna
Gemma 3 9B5.4 GBollama run gemma3Multimodal (entiende imágenes), muy eficiente
Qwen 3 14B8.9 GBollama run qwen3:14bExcelente en 29 idiomas, incluido español

Para programación

ModeloTamañoComandoIdeal para
DeepSeek CoderVaríaollama run deepseek-coder87 lenguajes, entrenado con 2T tokens de código
Qwen 2.5 Coder 7B4.4 GBollama run qwen2.5-coder:7bAutocompletado y generación de código
CodeLlama 34B19 GBollama run codellama:34bProyectos grandes, comprensión multi-archivo

Para razonamiento avanzado

ModeloTamañoComandoIdeal para
DeepSeek-R1 14B8.9 GBollama run deepseek-r1:14bRazonamiento paso a paso, se acerca a O3 de OpenAI
DeepSeek-R1 70B43 GBollama run deepseek-r1:70bRazonamiento de nivel investigación
💡 Recomendación: Si tienes una GPU de 8 GB (RTX 3060, RTX 4060), empieza con Llama 3.1 8B para uso general y DeepSeek Coder para programación. Con 16 GB de VRAM (RTX 4080, RX 9070 XT), sube a los modelos de 14B.

Comandos esenciales

Ollama se controla desde la terminal con comandos sencillos. Aquí tienes los que usarás a diario:

ComandoDescripción
ollama run modeloEjecuta un modelo (lo descarga si no lo tienes)
ollama pull modeloDescarga un modelo sin ejecutarlo
ollama listMuestra todos los modelos descargados
ollama rm modeloElimina un modelo descargado
ollama show modeloMuestra información detallada del modelo
ollama serveInicia el servidor API (se ejecuta automáticamente)
ollama psMuestra los modelos actualmente cargados en memoria
ollama launch herramientaConecta directamente con herramientas como Claude Code o Codex

Atajos dentro del chat

  • /bye — Salir de la conversación
  • /clear — Limpiar el historial de la sesión
  • /set parameter valor — Ajustar parámetros como temperatura o contexto
  • /show info — Ver información del modelo activo

Instalar una interfaz gráfica con Open WebUI

Si prefieres una experiencia visual similar a ChatGPT en lugar de la terminal, Open WebUI es la mejor opción. Es una interfaz web gratuita y de código abierto que se conecta a Ollama.

Instalación con Docker (recomendado)

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Después abre tu navegador en http://localhost:3000 y tendrás una interfaz idéntica a ChatGPT pero usando tus modelos locales.

¿Qué ofrece Open WebUI?

  • Chat con múltiples modelos — cambia entre Llama, DeepSeek, Gemma con un clic
  • Historial de conversaciones — todas tus charlas guardadas y organizadas
  • Subida de documentos — arrastra PDFs e imágenes para que el modelo los analice
  • RAG integrado — búsqueda en tus documentos para respuestas basadas en tus propios datos
  • Multi-usuario — varios usuarios pueden usar la misma instalación con cuentas separadas
Interfaz de Open WebUI conectada a Ollama, similar a ChatGPT pero ejecutando IA en local
Open WebUI transforma Ollama en una experiencia visual idéntica a ChatGPT, pero 100% local

Casos de uso prácticos

Más allá de chatear, Ollama tiene aplicaciones prácticas que pueden ahorrarte tiempo y dinero:

Asistente de programación

Usa DeepSeek Coder o Qwen 2.5 Coder como copiloto de código. Con la extensión Continue.dev para VS Code puedes tener autocompletado inteligente, refactorización y explicación de código directamente en tu editor, sin enviar tu código a la nube.

ollama launch claude-code

El nuevo comando ollama launch (añadido en octubre 2025) conecta directamente con herramientas de desarrollo como Claude Code, Codex u OpenCode sin configuración adicional.

Análisis de documentos privados

¿Tienes contratos, informes médicos o documentos confidenciales que quieres analizar con IA? Con Ollama + Open WebUI puedes arrastrar PDFs directamente a la interfaz y hacer preguntas sobre su contenido. Todo se procesa en local.

Generación de contenido

Escribe borradores de artículos, emails profesionales, posts para redes sociales o descripciones de productos. Modelos como Llama 3.3 70B producen textos de calidad comparable a GPT-4 para muchas tareas.

Traducción multilingüe

Qwen 3 soporta 29 idiomas con fluidez nativa. Puedes traducir documentos completos sin límites de caracteres ni costes por uso.

Generación de imágenes (experimental)

Desde enero de 2026, Ollama soporta generación de imágenes de forma experimental con modelos como FLUX.2 [klein] y Z-Image-Turbo. Actualmente solo en macOS, con soporte para Windows y Linux en desarrollo.

Si quieres explorar más herramientas de IA gratuitas, no te pierdas nuestra guía de las mejores herramientas de IA gratis en 2026.

Privacidad y seguridad

Esta es la mayor ventaja de Ollama frente a servicios en la nube. Cuando usas ChatGPT o Claude, tus conversaciones viajan a servidores de OpenAI o Anthropic. Con Ollama, todo se queda en tu máquina.

Ventajas de privacidad

  • Zero data leakage: ningún dato sale de tu red local
  • Sin telemetría: Ollama es open source, puedes auditar el código
  • Cumplimiento normativo: compatible con GDPR, PCI DSS y normativas de protección de datos
  • Modo offline: una vez descargados los modelos, no necesitas conexión a internet
  • Variable OLLAMA_NO_CLOUD: desactiva cualquier conexión a modelos en la nube si lo deseas
export OLLAMA_NO_CLOUD=1
ollama serve

Ideal para profesionales

Especialmente útil para abogados (documentos confidenciales), médicos (datos de pacientes), desarrolladores (código propietario) y empresas (datos financieros sensibles) que no pueden enviar información a servidores de terceros.

Secure Minions: lo mejor de ambos mundos

Si necesitas la potencia de un modelo en la nube pero no quieres exponer tus datos, Ollama incluye el protocolo Secure Minions (desarrollado con Stanford). Tu modelo local procesa la información sensible y solo envía consultas cifradas al modelo en la nube. Resultado: 98% de la precisión del modelo cloud con 5-30x menos coste y privacidad garantizada.

Ollama vs alternativas

Ollama no es la única opción para ejecutar IA en local. ¿Cómo se compara con las alternativas?

CaracterísticaOllamaLM StudioGPT4AllvLLM
InterfazTerminal + App de escritorioGUI completaGUI + ChatSolo API/CLI
Facilidad de uso⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Rendimiento⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
API OpenAILimitada
Docker/K8sNoNo
Ideal paraDesarrolladores, DevOpsUsuarios no técnicosPrincipiantesProducción empresarial
ÚnicoModelfiles, Secure Minions, generación de imágenesVulkan GPU offloadLocalDocs Q&APaged Attention, máximo throughput

Veredicto: Ollama es la mejor opción para desarrolladores y usuarios que quieran un equilibrio entre simplicidad, potencia y flexibilidad. Si eres completamente nuevo en IA local y no quieres tocar la terminal, empieza con LM Studio o GPT4All y luego migra a Ollama cuando necesites más control.

Para entender mejor cómo la IA local encaja en el ecosistema actual, lee nuestro artículo sobre agentes de IA en 2026.

Consejos para optimizar el rendimiento

Sácale el máximo partido a Ollama con estos trucos:

1. Usa modelos quantizados

Los modelos vienen en diferentes niveles de cuantización (Q4, Q5, Q8). Los modelos Q4_K_M ofrecen el mejor equilibrio entre calidad y uso de memoria. Es lo que Ollama descarga por defecto.

2. Ajusta el contexto

Por defecto, el contexto es de 2048 tokens. Si necesitas que el modelo recuerde más información en la conversación:

ollama run llama3.1:8b --num-ctx 8192

Ten en cuenta que más contexto = más VRAM utilizada.

3. Mantén los drivers actualizados

Asegúrate de tener los últimos drivers de NVIDIA (con soporte CUDA) o AMD. Ollama soporta Flash Attention 2.0 en GPUs Ampere+ (RTX 30XX en adelante), lo que reduce el uso de memoria hasta un 30%.

4. Usa SSD para almacenamiento

Los modelos se cargan desde disco a memoria. Un SSD NVMe reduce significativamente los tiempos de carga iniciales frente a un HDD.

5. Multi-GPU

Si tienes dos GPUs, Ollama puede dividir el modelo entre ambas automáticamente. Ideal para modelos de 70B que no caben en una sola tarjeta.

💡 Pro tip: Desde septiembre de 2025, Ollama usa un nuevo sistema de planificación de memoria que calcula la asignación exacta en vez de estimaciones. Esto reduce los crasheos por falta de memoria (OOM) en un 70%.
Benchmarks de rendimiento de Ollama con diferentes GPUs NVIDIA y AMD ejecutando modelos LLM
Rendimiento de Ollama con diferentes configuraciones de hardware: GPU vs CPU

Novedades de Ollama en 2026

Ollama no para de evolucionar. Estas son las funcionalidades más importantes añadidas recientemente:

  • App de escritorio nativa (julio 2025): interfaz con chat, drag-and-drop de documentos y slider de contexto
  • Generación de imágenes (enero 2026): soporte experimental para FLUX.2 y Z-Image-Turbo
  • Modelos en la nube: conecta con modelos frontier además de los locales, con opción de desactivarlo completamente
  • Búsqueda web integrada (noviembre 2025): los modelos pueden buscar información actualizada en internet
  • Ollama Launch (octubre 2025): integración directa con herramientas de desarrollo
  • Structured Outputs: respuestas en JSON Schema validado, perfecto para integraciones programáticas
  • Thinking Mode: modo de razonamiento visible para modelos como DeepSeek-R1

Preguntas Frecuentes

¿Ollama es gratis?

Sí, Ollama es completamente gratuito y de código abierto (licencia MIT). Los modelos también son gratuitos para descargar y usar. Existe Ollama Turbo ($20/mes) como servicio cloud opcional, pero no es necesario.

¿Qué modelo debo elegir si solo tengo 8 GB de RAM?

Con 8 GB de RAM puedes ejecutar modelos de hasta 3B parámetros como Gemma 2 2B o Qwen 2.5 3B. Si tienes GPU, estos modelos funcionan sorprendentemente bien para tareas básicas como resúmenes, traducciones y preguntas generales.

¿Ollama funciona sin internet?

Sí. Una vez que hayas descargado los modelos, Ollama funciona completamente offline. Solo necesitas internet para descargar modelos nuevos o actualizaciones. Puedes incluso activar OLLAMA_NO_CLOUD=1 para bloquear cualquier conexión externa.

¿Los modelos locales son tan buenos como ChatGPT?

Depende del modelo y la tarea. Llama 3.3 70B iguala a GPT-4 en muchas tareas y DeepSeek-R1 se acerca a O3 en razonamiento. Para modelos de 7-8B, la calidad es inferior a GPT-4 pero más que suficiente para la mayoría de usos cotidianos.

¿Puedo usar Ollama como backend para aplicaciones?

Sí. Ollama expone una API REST compatible con OpenAI en http://localhost:11434. Cualquier aplicación que funcione con la API de OpenAI puede apuntar a Ollama sin cambios. También tiene bibliotecas oficiales para Python y JavaScript, e integración con LangChain y LlamaIndex.

¿Cuánto espacio en disco necesito?

Depende de los modelos que descargues. Un modelo de 7-8B ocupa unos 4-5 GB, uno de 14B unos 8-9 GB y uno de 70B alrededor de 40 GB. Recomendamos tener al menos 50 GB libres en un SSD para tener 2-3 modelos instalados cómodamente.

Compartir:

Comentarios

Cargando comentarios...