Cómo montamos nuestro propio servidor de IA local

⬆ El build en proceso: 2× ASUS ROG ASTRAL RTX 5090 + Cooler Master aire sobre el Core Ultra 7 265K — Tecnosmart, Guayaquil

En Tecnosmart llevamos tiempo pensando cómo atender mejor a nuestros clientes, los 7 días de la semana, las 24 horas, sin depender de una suscripción mensual a una IA externa. La respuesta fue construirlo nosotros mismos. Esto es lo que aprendimos en el intento.

¿Por qué un servidor de IA propio?

Recibimos cientos de consultas al día por WhatsApp, Instagram y Facebook. La gran mayoría son preguntas repetibles: disponibilidad de equipos, precios, garantías, soporte técnico básico. Un modelo de lenguaje bien ajustado puede responder el 80% de esas consultas de forma inmediata, sin costo por consulta y sin compartir datos de clientes con terceros.

La alternativa obvia, usar APIs de OpenAI o Anthropic directamente, implica costos recurrentes, latencia de red, dependencia del dólar y, sobre todo, privacidad de la base de clientes. Con un servidor local eliminamos todos esos problemas de raíz.

El hardware que usamos

CPU Intel Core Ultra 7 265K
Arrow Lake · 20 núcleos

Placa madre Gigabyte Z890 UD
PCIe 5.0 · DDR5

GPUs 2× ASUS ROG ASTRAL RTX 5090
32 GB GDDR7 VRAM cada una

RAM Kingston Fury 128 GB
4× 32 GB DDR5-5600 CL38

Almacenamiento 2× Kingston Renegade 2 TB
NVMe en RAID 1

PSU Corsair HX1500i 1500 W
80+ Platinum · modular

Refrigeración CPU Cooler Master aire
dual-tower

Sistema operativo Ubuntu Server 24.04 LTS
Docker + Ollama

Lo que pueden hacer 2× RTX 5090 con IA

Antes de hablar de lo que nos costó implementar, conviene entender el potencial real de este hardware. La arquitectura Blackwell de la RTX 5090 fue diseñada con inferencia en mente: Tensor Cores de 5ª generación, soporte nativo NVFP4 y un ancho de banda de memoria de 1.792 GB/s por tarjeta.

64 GB

VRAM total

32 GB × 2 GPUs

~27

Tokens/seg

LLaMA 3.3 70B vía Ollama

72B

Parámetros

Modelo máximo confortable

2.6×

vs NVIDIA A100

En throughput de tokens

Benchmarks independientes confirman que dos RTX 5090 en configuración dual superan en velocidad de inferencia a una NVIDIA H100 y a una configuración de 2× A100 40 GB, para modelos de hasta 72 mil millones de parámetros corriendo con Ollama. El costo del hardware es una fracción del precio de esas GPUs de datacenter.

🔬

Una sola RTX 5090 alcanza hasta 5.841 tokens/segundo en modelos pequeños (Qwen 2.5 7B) con batch size 8 — más rápido que una A100 80 GB. Con dos tarjetas, el sistema puede atender múltiples conversaciones en paralelo sin degradar la velocidad.

¿Qué modelos caben en 64 GB de VRAM?

Modelos 7B–13B (Gemma 3, Qwen 2.5 7B) ✓ Excelente

Modelos 30B–32B (DeepSeek R1 32B, QwQ 32B) ✓ Muy bueno

Modelos 70B–72B (LLaMA 3.3 70B, DeepSeek 70B) ✓ Bueno, ~27 tok/s

Modelos 110B+ (Qwen 2.5 110B) ⚠ Limitado — 7 tok/s

El techo real está en los modelos de más de 100 mil millones de parámetros: con 64 GB de VRAM disponibles, los modelos 110B+ quedan limitados a una tasa de solo ~7 tokens por segundo, lo que hace que las respuestas sean demasiado lentas para un uso en producción. Para ese rango se necesitarían GPUs con memoria unificada HBM o tarjetas de datacenter con NVLink.

Lo que encontramos al encenderlo

La primera prueba fue con una sola RTX 5090 cargando modelos de 32B y 70B. El resultado: respuestas coherentes en los modelos pequeños, pero alucinaciones constantes y degradación de calidad en cuanto subíamos el tamaño del modelo. El problema no era el modelo, sino la VRAM: cuando el modelo no cabe del todo en los 32 GB, parte se spilts a RAM del sistema o se cuantiza de más, y la coherencia cae.

⚠ Aprendizaje doloroso

Con una sola GPU de 32 GB, un modelo de 70B cuantizado a Q4 ocupa aproximadamente 35–40 GB. El overflow a RAM del sistema baja el rendimiento de ~27 tok/s a menos de 4 tok/s. La segunda RTX 5090 no fue un lujo — fue una necesidad técnica.

El siguiente problema: los límites del PCIe en hardware de consumo

Aquí está el reto que todavía estamos resolviendo. La placa Gigabyte Z890 UD con el Core Ultra 7 265K es hardware de consumo, no workstation. Esto implica un límite físico en la cantidad de líneas PCIe disponibles:

El procesador ofrece 20 líneas PCIe 5.0. Una GPU RTX 5090 conectada al slot primario toma PCIe x16. La segunda GPU, al no haber suficientes líneas del CPU, corre en PCIe x8 desde el chipset, lo que introduce latencia en la comunicación entre tarjetas durante inferencia paralela.

🧠

La solución real para multi-GPU de alto rendimiento en IA es hardware con más lanes PCIe: plataformas AMD Threadripper PRO (128 líneas PCIe 5.0) o Intel Xeon Scalable con hasta 80–112 líneas, que permiten correr cada GPU a PCIe x16 completo y aprovechar el ancho de banda total de 1.792 GB/s por tarjeta. Lo contaremos cuando lo probemos.

Estado del proyecto: ¿dónde estamos?

Hardware ensamblado y encendido ✓ Listo

Z890 UD + Core Ultra 7 265K + 2× RTX 5090 + 128 GB DDR5 operativos.

Ubuntu Server 24.04 LTS instalado ✓ Listo

Docker + Ollama corriendo, drivers NVIDIA 575+ configurados.

Pruebas de modelos (QWEN, Gemma, DeepSeek) ✓ En curso

Evaluando calidad de respuesta, velocidad y coherencia en contexto de ventas de tecnología.

Optimización del sistema dual-GPU ◉ Activo

Resolviendo el bottleneck PCIe, evaluando configuraciones con vLLM vs Ollama para multi-GPU.

Integración con canales de atención Próximo

Conectar el modelo local vía API con WhatsApp Business, Instagram DMs y el CRM Odoo.

Fine-tuning con datos de Tecnosmart Próximo

Entrenar el modelo con nuestro catálogo, FAQs y estilo de comunicación de la empresa.

¿Qué esperamos lograr cuando esté listo?

El objetivo no es reemplazar al equipo comercial. Es liberar al equipo de las consultas repetitivas para que puedan enfocarse en cerrar ventas B2B, atender cotizaciones grandes y dar seguimiento personalizado. Un modelo 70B corriendo localmente, entrenado con nuestro catálogo y precios actualizados, puede responder en menos de 2 segundos a preguntas como:

"¿Tienen la RTX 5070 Ti en stock?", "¿Cuánto cuesta armar un PC para diseño gráfico con presupuesto de $800?", "¿Qué garantía tiene este equipo?"

Lo mejor: funciona a las 2 de la mañana, el sábado, en feriado, sin cobrar horas extra.

Seguiremos publicando el avance de este proyecto. Si tienes preguntas sobre el build, los modelos que estamos probando o cómo planificamos la integración con WhatsApp, escríbenos directamente por Instagram @tecnosmartec o por WhatsApp. Somos los primeros en probarlo — y los primeros en contarlo.