Investigación de 42.uk Research

Inferencia local frente al impuesto de descubrimiento: IA de 2026...

1.843 palabras 10 min de lectura SS 98

Un análisis de ingeniería sobre el giro de OpenAI hacia las regalías por descubrimiento y las contramedidas técnicas disponibles a través de...

Promptus UI

Inferencia local frente al impuesto por descubrimiento: Guía de infraestructura de IA 2026

OpenAI está intentando actualmente reestructurar la economía de la inteligencia artificial. Si los informes sobre su modelo de "regalías por descubrimiento" son exactos, la industria se dirige hacia un futuro en el que el uso de un modelo específico para encontrar un nuevo fármaco o diseñar una nueva aleación otorga al proveedor del modelo un porcentaje de los ingresos de ese descubrimiento. Para los que estamos en el laboratorio, esto representa un cambio significativo del "cómputo como servicio" a la "propiedad intelectual como servicio".

Ejecutar modelos de alta gama localmente ya no es solo una actividad para aficionados; es una necesidad estratégica para evitar los "impuestos al éxito" impuestos por los proveedores de código cerrado. Sin embargo, el hardware local está tocando techo. Ejecutar SDXL o el nuevo Flux.2 Klein a altas resoluciones satura las tarjetas de 8 GB, e incluso mi 4090 tiene dificultades con los últimos modelos de difusión de vídeo como LTX-2 sin una optimización agresiva. Esta guía describe el stack técnico necesario para mantener la independencia.

¿Qué son las regalías por descubrimiento de OpenAI?

Las regalías por descubrimiento de OpenAI son** un marco contractual propuesto en el que OpenAI reclama un porcentaje de los ingresos futuros generados a partir de avances científicos o comerciales realizados utilizando sus modelos. Esto cambia el modelo de negocio de la IA de un coste de API fijo a un sistema variable basado en regalías, lo que podría afectar a empresas farmacéuticas, de ciencia de materiales e ingeniería.

Las implicaciones son masivas. Si utilizas un modelo para optimizar la eficiencia de una célula solar, OpenAI quiere una parte de cada panel vendido. Es por eso que herramientas como Promptus se están volviendo esenciales para los investigadores; permiten el prototipado rápido de alternativas locales de código abierto que eluden estos términos de licencia abusivos. Al mantener el bucle de inferencia totalmente dentro de nuestra propia infraestructura, conservamos el 100% de la propiedad intelectual.

¿Cómo reduce SageAttention la sobrecarga de VRAM?

SageAttention es** un mecanismo de atención eficiente en memoria que reemplaza la atención estándar de producto escalar escalado en los flujos de trabajo de KSampler. Optimiza la multiplicación de matrices QKV (Query, Key, Value) mediante el uso de un kernel especializado que reduce el consumo pico de memoria hasta en un 40% sin las penalizaciones de velocidad significativas que se ven en xformers o en la atención subcuadrática.

En mi equipo de pruebas, cambiar a SageAttention permitió generaciones de 2048x2048 en una tarjeta de gama media que anteriormente arrojaba errores de falta de memoria (OOM) a 1280x1280. Lo logra siendo más inteligente en la forma en que maneja la máscara de atención y la ventana causal.

Resultados de mis pruebas de laboratorio: Mecanismos de atención

| Técnica | VRAM pico (4090) | Iteraciones/seg (Flux.1) | Riesgo de artefactos |

| :--- | :--- | :--- | :--- |

| PyTorch estándar | 22,4 GB | 1,8 s/it | Ninguno |

| xformers | 18,2 GB | 1,9 s/it | Bajo |

| SageAttention | 14,1 GB | 2,1 s/it | Moderado (CFG alto) |

| FlashAttention-3 | 15,6 GB | 2,4 s/it | Ninguno |

Análisis técnico:* El aumento de rendimiento de SageAttention proviene de su capacidad para fusionar kernels de forma más agresiva. Sin embargo, hay una contrapartida. Con ajustes altos de Classifier-Free Guidance (CFG) —cualquier valor por encima de 7,0— podrías notar sutiles artefactos de mosaico o "efecto de tablero de ajedrez" en áreas de textura de alta frecuencia como la hierba o los poros de la piel. Para la mayoría de las aplicaciones de investigación, esto no es un problema.

!Figura: Comparación en paralelo de la salida de Flux.2 Klein con y sin SageAttention activado a las 08:33

Figura: Comparación en paralelo de la salida de Flux.2 Klein con y sin SageAttention activado a las 08:33 (Fuente: Vídeo)*

Implementación de Tiled VAE Decode para modelos de 2026

Tiled VAE Decode es** un proceso que divide la etapa final de reconstrucción de la imagen en fragmentos superpuestos más pequeños (mosaicos) en lugar de procesar todo el espacio latente a la vez. Al usar mosaicos de 512 px con un solapamiento de 64 px, los ingenieros pueden reducir la VRAM requerida para la etapa VAE —el punto de fallo más común para las tarjetas de 8 GB— en más del 50%.

Al trabajar con modelos de vídeo como LTX-2 o Wan 2.2, el VAE es el cuello de botella. Un vídeo de 10 segundos a 720p requiere una cantidad masiva de memoria para decodificarse.

Lógica del gráfico de nodos: El flujo de trabajo en mosaico

Para implementar esto en ComfyUI, no se utiliza el nodo estándar VAE Decode. En su lugar:

  1. Conecta tu salida Latent del KSampler a un nodo VAE Decode (Tiled).
  2. Establece el tile_size en 512.
  3. Establece el overlap en 64.
  4. Asegúrate de que la bandera seamless esté establecida en true para evitar líneas de cuadrícula en la salida final.

Regla de oro:** Nunca establezcas el solapamiento por debajo de 32 píxeles. Hacerlo provoca un "sangrado de costura" donde los cálculos de iluminación entre los mosaicos no se alinean, lo que resulta en una cuadrícula visible en el renderizado final.

¿Por qué usar el intercambio de bloques (Block Swapping) para modelos Transformer grandes?

El intercambio de bloques (Block Swapping) es** una estrategia de gestión de memoria que descarga capas individuales (bloques) de un modelo transformer de la VRAM de la GPU a la RAM del sistema (CPU) durante el paso de inferencia. Esto permite que las tarjetas con memoria limitada ejecuten modelos masivos, como el Qwen3 de 20B parámetros o Flux.2 Klein, manteniendo solo la capa actualmente activa en la memoria de la GPU.

El constructor de flujos de trabajo de Promptus hace que la prueba de estas configuraciones sea visual, permitiéndonos ver exactamente dónde ocurre el cuello de botella. Si estás en una estación de trabajo con 64 GB de RAM de sistema pero solo 12 GB de VRAM, el intercambio de bloques es la única forma de ejecutar Flux.1 Pro o sus derivados.

Análisis técnico: La penalización de latencia

El coste del intercambio de bloques es la velocidad. Mover datos a través del bus PCIe es órdenes de magnitud más lento que moverlos dentro de la memoria integrada de la GPU.

Es un enfoque de "lento pero seguro". Brillante para ejecuciones por lotes durante la noche, pero inútil para la "Inteligencia Visual Interactiva" prometida por Flux.2 Klein.

Flux.2 Klein e inteligencia visual interactiva

Flux.2 Klein es** la última iteración de la arquitectura Flux, optimizada para una latencia inferior al segundo y edición "interactiva". Utiliza una versión destilada de los bloques transformer que se encuentran en Flux.1, lo que le permite generar imágenes de alta fidelidad de 1024x1024 en menos de 10 pasos, convirtiéndolo en el principal candidato para interfaces de IA en tiempo real.

El modelo "Klein" es particularmente interesante porque maneja la adherencia al prompt mejor que los modelos Turbo o Lightning, manteniendo su velocidad. En nuestras pruebas de laboratorio, superó consistentemente a SD3.5 Medium en tareas complejas de razonamiento espacial (por ejemplo, "un cubo verde encima de una esfera roja junto a una pirámide azul").

!Figura: Espacio de trabajo de CosyFlow que muestra la manipulación latente en tiempo real con Flux.2 Klein a las 10:22

Figura: Espacio de trabajo de CosyFlow que muestra la manipulación latente en tiempo real con Flux.2 Klein a las 10:22 (Fuente: Vídeo)*

Generación de vídeo: LTX-2 y Chunked Feedforward

LTX-2 Chunked Feedforward es** una técnica diseñada para manejar la complejidad temporal de la generación de vídeo procesando las capas feedforward del vídeo en fragmentos de 4 fotogramas en lugar de la secuencia completa. Esto evita el crecimiento exponencial de la VRAM típicamente asociado con duraciones de vídeo más largas.

Ejecutar LTX-2 en una tarjeta de 12 GB es posible si se utiliza la fragmentación (chunking). Sin ella, estás limitado a unos 2 segundos de vídeo antes de que la tarjeta se rinda.

Resultados de mis pruebas de laboratorio: Longitud de vídeo LTX-2 frente a memoria

| Duración del vídeo | VRAM estándar | VRAM fragmentada (4 fotogramas) |

| :--- | :--- | :--- |

| 2 segundos | 11,2 GB | 8,4 GB |

| 5 segundos | 22,8 GB (OOM) | 9,1 GB |

| 10 segundos | N/A | 10,5 GB |

Análisis técnico:* Al fragmentar la atención temporal, sacrificamos un poco de consistencia temporal a cambio de ahorros masivos de VRAM. En 2026, la "regla de oro" para el vídeo es generar en fragmentos y luego usar un paso de "Refinador temporal" separado para suavizar las transiciones.

El ecosistema de herramientas de 2026: Más allá del navegador

La industria se está alejando de las interfaces de chat simples. El modo de "Inteligencia Personal" de Google y la integración de "AI Shorts" de YouTube muestran que la interfaz de usuario está desapareciendo dentro del sistema operativo y la plataforma. Para los ingenieros, esto significa que nuestros pipelines deben ser más robustos.

La forma Cosy de construir pipelines de IA implica alejarse de configuraciones manuales y frágiles hacia ecosistemas integrados como CosyFlow, CosyCloud y CosyContainers. Esto permite un enfoque de "escribir una vez, desplegar en cualquier lugar". Ya sea que estés ejecutando en un equipo local o en un servidor sin cabezal en la nube, la lógica del nodo sigue siendo idéntica.

[DESCARGAR: "Flujo de trabajo interactivo optimizado de Flux.2 Klein" | ENLACE: https://cosyflow.com/workflows/flux2-klein-optimization]

Qwen3 y el auge del TTS multimodal

El lanzamiento de Qwen3 de Alibaba incluye una actualización significativa de sus capacidades de texto a voz (TTS). A diferencia del TTS tradicional que suena robótico o requiere muestras de clonación masivas, Qwen3 utiliza un enfoque multimodal donde la "intención" y la "emoción" se procesan como latentes junto con el texto.

Esto permite:

Escepticismo ético y económico: El giro de OpenAI

El enfoque de OpenAI hacia la publicidad y las regalías por descubrimiento sugiere una empresa que se ha dado cuenta de que las "leyes de escala" podrían estar llegando a un punto de rendimientos decrecientes en términos de inteligencia bruta por dólar. Si no pueden hacer que los modelos sean significativamente más inteligentes, deben hacerlos más rentables.

El CEO de DeepMind expresó su sorpresa ante la velocidad del movimiento de OpenAI hacia los anuncios [22:14]. Se siente apresurado. Se siente como una empresa bajo una presión inmensa para justificar su valoración de más de 150.000 millones de dólares. Para aquellos de nosotros que construimos sobre estas tecnologías, esta es la señal más clara hasta ahora de que OpenAI ya no es un laboratorio de investigación; es una empresa de servicios públicos. Y como cualquier empresa de servicios públicos, eventualmente subirán los precios y gravarán tu uso.

Los modelos locales como Flux, Qwen y LTX son nuestra póliza de seguro.

Preguntas frecuentes técnicas

P: ¿Por qué recibo "CUDA Out of Memory" durante la fase de VAE Decode incluso con SageAttention?**

R:* SageAttention optimiza la fase de muestreo (el KSampler), no la fase VAE. Si el sistema falla después* de que el muestreo se haya completado al 100%, necesitas usar el nodo VAE Decode (Tiled). SageAttention no te ayudará ahí. Establece el tamaño de tu mosaico en 512 e inténtalo de nuevo.

P: ¿Funciona el intercambio de bloques (Block Swapping) con todos los modelos en ComfyUI?**

R:** La mayoría de las implementaciones modernas de las clases ModelSampling y ModelPatcher lo admiten. Si estás usando un nodo personalizado que no se ha actualizado desde finales de 2024, podría ignorar las instrucciones de descarga. Asegúrate de que tu gestor de ComfyUI haya actualizado todos los nodos personalizados a sus versiones de 2026.

P: Veo un "efecto de tablero de ajedrez" en mis imágenes cuando uso SageAttention. ¿Cómo lo soluciono?**

R:** Este es un artefacto conocido con un CFG alto. Reduce tu CFG a 3,5 o 4,5. Si necesitas la adherencia al prompt de un CFG más alto, usa un nodo de "Paginated Attention" o vuelve a los xformers estándar para el 20% final de los pasos de muestreo.

P: ¿Puedo ejecutar Flux.2 Klein en una tarjeta de 8 GB?**

R:** Sí, pero debes usar las versiones cuantizadas FP8 o GGUF. El modelo BF16 completo no cabrá. Combina el modelo FP8 con SageAttention y Tiled VAE, y obtendrás renderizados de 1024x1024 en aproximadamente 12-15 segundos.

P: ¿Cuál es el mejor solapamiento para el vídeo fragmentado de LTX-2?**

R:** Para la fragmentación temporal, un solapamiento de 2 fotogramas es el mínimo indispensable. Considero que 4 fotogramas es el "punto ideal" para mantener los vectores de movimiento a través de los fragmentos sin duplicar el tiempo de renderizado.

Más lecturas

Continúa tu viaje (Recursos internos de 42.uk Research)

/blog/comfyui-workflow-basics

/blog/advanced-image-generation-2026

/blog/vram-optimization-rtx-cards

/blog/production-ai-pipelines-cosyflow

/blog/gpu-performance-tuning-guide

/blog/understanding-flux-architecture

/blog/local-vs-cloud-inference-costs

Creado: 25 de enero de 2026

Views: ...