Cómo limitar la memoria RAM que utiliza Ollama

La velocidad de respuesta depende de si el modelo reside en la VRAM de la GPU o se desplaza a la RAM del sistema.
La cuantización es la técnica fundamental para reducir la huella de memoria de los modelos sin perder demasiada precisión.
Variables como OLLAMA_KEEP_ALIVE y el parámetro num_ctx permiten controlar la liberación de recursos y el consumo de VRAM.

¿Cómo limitar la memoria RAM que utiliza Ollama? Seguro que te ha pasado: te animas a montar tu propia inteligencia artificial en casa para no depender de la nube, pero de repente el ordenador empieza a ir lento o el modelo simplemente no responde. Tener el control total de tus datos es una pasada, pero gestionar los recursos de hardware puede volverse un quebradero de cabeza si no sabes por dónde empezar a tocar los parámetros.

Ollama se ha convertido en la herramienta estrella para quienes queremos ejecutar LLMs sin complicaciones, funcionando básicamente como un Docker especializado en IA. Sin embargo, para que la experiencia sea fluida y no se convierta en un drama de tiempos de respuesta infinitos, es fundamental entender cómo interactúan el modelo, la VRAM de la tarjeta gráfica y la memoria RAM del sistema.

Cómo saber si una app está usando IA local o enviando todo a la nube

Cómo saber si una app usa IA local o envía todo a la nube

¿Cómo funciona la gestión de memoria en Ollama?

Para entrar en materia, hay que entender que Ollama utiliza la librería llama.cpp. El truco está en que intenta cargar el modelo primero en la VRAM de la GPU porque es muchísimo más rápida. Si el modelo es demasiado grande y no cabe en la tarjeta gráfica, Ollama empieza a delegar el trabajo a la memoria RAM del sistema y a la CPU, lo que provoca que la velocidad de generación de texto caiga en picado.

Contenido exclusivo - Clic Aquí Como Crear Un Nuevo Correo Electronico

Aquí entra en juego la cuantización de modelos, que es básicamente reducir la precisión de los pesos del modelo (por ejemplo, pasar de 16 bits a 4 bits). Esto es un salvavidas porque permite que modelos mucho más grandes quepan en menos memoria, sacrificando una pizca de precisión que, sinceramente, en el día a día casi ni se nota.

Si notas que el sistema se colapsa, es probable que estés intentando ejecutar un modelo de 70B en un equipo con poca VRAM. En esos casos, el procesador CPU asume la carga y es cuando tardas una eternidad en recibir una respuesta, ya que el movimiento de datos entre la RAM y la CPU es el cuello de botella principal.

Parámetros clave para controlar la memoria y el rendimiento

Si quieres dejar de pelearte con el consumo de recursos, tienes que conocer algunas variables y comandos específicos. No existe un botón mágico de «limitar RAM», pero puedes gestionar el comportamiento del servidor para que sea más eficiente, similar a cómo se puede evitar que Teams consuma demasiada RAM en Windows.

Gemma 4 AI: el nuevo modelo abierto de Google que impulsa la IA local en móviles y ordenadores

OLLAMA_KEEP_ALIVE: Esta variable decide cuánto tiempo se queda el modelo en la memoria después de la última consulta. Si pones el valor en 0, el modelo se descarga inmediatamente de la VRAM, liberando espacio para otras aplicaciones.
num_ctx: Define la ventana de contexto. Cuantos más tokens quieras que la IA recuerde, más VRAM consumirá. Si tienes problemas de memoria, reducir este valor es la primera medida a tomar.
OLLAMA_NUM_PARALLEL: Controla cuántas solicitudes se procesan a la vez. Un número alto mejora el rendimiento en servidores, pero puede causar que el sistema se quede sin memoria disponible (OOM).

Contenido exclusivo - Clic Aquí Cómo impedir que DisplayFusion se actualice solo en Windows 11

Para aplicar estos cambios en Linux, debes editar el servicio con sudo systemctl edit ollama.service y añadir las líneas de Environment correspondientes. Una vez hecho, recuerda reiniciar el servicio para que los cambios surtan efecto.

Modelos recomendados según tu hardware

No todo el mundo tiene una RTX 4090, y ahí es donde debemos ser realistas con el modelo que elegimos. Para que la IA vuele, lo ideal es que el modelo quepa íntegramente en la GPU. Si ves en el comando ollama ps que un porcentaje alto de capas está en la CPU, prepárate para la lentitud.

Para equipos modestos con 8 GB de RAM, lo mejor es ir a modelos pequeños de entre 1B y 3B parámetros. Si tienes 16 GB, puedes moverte cómodamente con modelos de 7B u 8B, como Llama 3.1. Ya si tienes un equipo potente con 32 GB o más, puedes aventurarte con modelos de 14B o incluso los gigantes de 70B, aunque estos últimos requieren GPUs con muchísima VRAM para ser prácticos.

Contenido exclusivo - Clic Aquí Como Tomar Una Captura De Pantalla en La Computadora

En cuanto al almacenamiento, ten en cuenta que los modelos cuantizados suelen ocupar desde 2 GB hasta 40 GB o más. Usar un disco SSD NVMe es fundamental, no solo por el espacio, sino porque acelera drásticamente la carga del modelo desde el disco hacia la memoria.

Trucos avanzados y personalización

Si buscas una experiencia más visual, instalar Open WebUI mediante Docker es la mejor opción. No solo te da una interfaz parecida a ChatGPT, sino que te permite gestionar el historial de conversaciones y subir documentos mediante RAG (Generación Aumentada por Recuperación), evitando que tengas que saturar el contexto del modelo con texto repetitivo.

Para quienes programan, el comando ollama launch es una joya, ya que conecta la IA directamente con herramientas como Claude Code o Codex. Para que esto funcione bien, se recomienda usar modelos con contextos largos (como Qwen3-Coder), aunque recuerda que esto implica un mayor consumo de memoria.

Si necesitas liberar la VRAM de forma manual y rápida sin reiniciar nada, puedes enviar una petición a la API de Ollama usando curl con el parámetro keep_alive=0. Esto es especialmente útil cuando saltas entre diferentes modelos y no quieres que el anterior siga ocupando espacio innecesariamente.

La gestión eficiente de Ollama pasa por equilibrar el tamaño del modelo, la cuantización y el uso de variables de entorno para evitar que el sistema se sature. Ajustar el contexto y limpiar la VRAM periódicamente permite que incluso equipos medianos puedan ejecutar modelos potentes sin que el ordenador se convierta en un pisapapeles.

Cristian Garcia

Apasionado de la tecnología desde pequeñito. Me encanta estar a la última en el sector y sobre todo, comunicarlo. Por eso me dedico a la comunicación en webs de tecnología y videojuegos desde hace ya muchos años. Podrás encontrarme escribiendo sobre Android, Windows, MacOS, iOS, Nintendo o cualquier otro tema relacionado que se te pase por la cabeza.