En Tecnosmart llevamos tiempo pensando cómo atender mejor a nuestros clientes, los 7 días de la semana, las 24 horas, sin depender de una suscripción mensual a una IA externa. La respuesta fue construirlo nosotros mismos. Esto es lo que aprendimos en el intento.
¿Por qué un servidor de IA propio?
Recibimos cientos de consultas al día por WhatsApp, Instagram y Facebook. La gran mayoría son preguntas repetibles: disponibilidad de equipos, precios, garantías, soporte técnico básico. Un modelo de lenguaje bien ajustado puede responder el 80% de esas consultas de forma inmediata, sin costo por consulta y sin compartir datos de clientes con terceros.
La alternativa obvia, usar APIs de OpenAI o Anthropic directamente, implica costos recurrentes, latencia de red, dependencia del dólar y, sobre todo, privacidad de la base de clientes. Con un servidor local eliminamos todos esos problemas de raíz.
El hardware que usamos
Arrow Lake · 20 núcleos
PCIe 5.0 · DDR5
32 GB GDDR7 VRAM cada una
4× 32 GB DDR5-5600 CL38
NVMe en RAID 1
80+ Platinum · modular
dual-tower
Docker + Ollama
Lo que pueden hacer 2× RTX 5090 con IA
Antes de hablar de lo que nos costó implementar, conviene entender el potencial real de este hardware. La arquitectura Blackwell de la RTX 5090 fue diseñada con inferencia en mente: Tensor Cores de 5ª generación, soporte nativo NVFP4 y un ancho de banda de memoria de 1.792 GB/s por tarjeta.
Benchmarks independientes confirman que dos RTX 5090 en configuración dual superan en velocidad de inferencia a una NVIDIA H100 y a una configuración de 2× A100 40 GB, para modelos de hasta 72 mil millones de parámetros corriendo con Ollama. El costo del hardware es una fracción del precio de esas GPUs de datacenter.
Una sola RTX 5090 alcanza hasta 5.841 tokens/segundo en modelos pequeños (Qwen 2.5 7B) con batch size 8 — más rápido que una A100 80 GB. Con dos tarjetas, el sistema puede atender múltiples conversaciones en paralelo sin degradar la velocidad.
¿Qué modelos caben en 64 GB de VRAM?
El techo real está en los modelos de más de 100 mil millones de parámetros: con 64 GB de VRAM disponibles, los modelos 110B+ quedan limitados a una tasa de solo ~7 tokens por segundo, lo que hace que las respuestas sean demasiado lentas para un uso en producción. Para ese rango se necesitarían GPUs con memoria unificada HBM o tarjetas de datacenter con NVLink.
Lo que encontramos al encenderlo
La primera prueba fue con una sola RTX 5090 cargando modelos de 32B y 70B. El resultado: respuestas coherentes en los modelos pequeños, pero alucinaciones constantes y degradación de calidad en cuanto subíamos el tamaño del modelo. El problema no era el modelo, sino la VRAM: cuando el modelo no cabe del todo en los 32 GB, parte se spilts a RAM del sistema o se cuantiza de más, y la coherencia cae.
Con una sola GPU de 32 GB, un modelo de 70B cuantizado a Q4 ocupa aproximadamente 35–40 GB. El overflow a RAM del sistema baja el rendimiento de ~27 tok/s a menos de 4 tok/s. La segunda RTX 5090 no fue un lujo — fue una necesidad técnica.
El siguiente problema: los límites del PCIe en hardware de consumo
Aquí está el reto que todavía estamos resolviendo. La placa Gigabyte Z890 UD con el Core Ultra 7 265K es hardware de consumo, no workstation. Esto implica un límite físico en la cantidad de líneas PCIe disponibles:
El procesador ofrece 20 líneas PCIe 5.0. Una GPU RTX 5090 conectada al slot primario toma PCIe x16. La segunda GPU, al no haber suficientes líneas del CPU, corre en PCIe x8 desde el chipset, lo que introduce latencia en la comunicación entre tarjetas durante inferencia paralela.
La solución real para multi-GPU de alto rendimiento en IA es hardware con más lanes PCIe: plataformas AMD Threadripper PRO (128 líneas PCIe 5.0) o Intel Xeon Scalable con hasta 80–112 líneas, que permiten correr cada GPU a PCIe x16 completo y aprovechar el ancho de banda total de 1.792 GB/s por tarjeta. Lo contaremos cuando lo probemos.
Estado del proyecto: ¿dónde estamos?
Hardware ensamblado y encendido ✓ Listo
Z890 UD + Core Ultra 7 265K + 2× RTX 5090 + 128 GB DDR5 operativos.
Ubuntu Server 24.04 LTS instalado ✓ Listo
Docker + Ollama corriendo, drivers NVIDIA 575+ configurados.
Pruebas de modelos (QWEN, Gemma, DeepSeek) ✓ En curso
Evaluando calidad de respuesta, velocidad y coherencia en contexto de ventas de tecnología.
Optimización del sistema dual-GPU ◉ Activo
Resolviendo el bottleneck PCIe, evaluando configuraciones con vLLM vs Ollama para multi-GPU.
Integración con canales de atención Próximo
Conectar el modelo local vía API con WhatsApp Business, Instagram DMs y el CRM Odoo.
Fine-tuning con datos de Tecnosmart Próximo
Entrenar el modelo con nuestro catálogo, FAQs y estilo de comunicación de la empresa.
¿Qué esperamos lograr cuando esté listo?
El objetivo no es reemplazar al equipo comercial. Es liberar al equipo de las consultas repetitivas para que puedan enfocarse en cerrar ventas B2B, atender cotizaciones grandes y dar seguimiento personalizado. Un modelo 70B corriendo localmente, entrenado con nuestro catálogo y precios actualizados, puede responder en menos de 2 segundos a preguntas como:
"¿Tienen la RTX 5070 Ti en stock?", "¿Cuánto cuesta armar un PC para diseño gráfico con presupuesto de $800?", "¿Qué garantía tiene este equipo?"
Lo mejor: funciona a las 2 de la mañana, el sábado, en feriado, sin cobrar horas extra.
Seguiremos publicando el avance de este proyecto. Si tienes preguntas sobre el build, los modelos que estamos probando o cómo planificamos la integración con WhatsApp, escríbenos directamente por Instagram @tecnosmartec o por WhatsApp. Somos los primeros en probarlo — y los primeros en contarlo.