Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
CFD
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Pre-IPOs
Accede al acceso completo a las OPV de acciones globales
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
Promociones
Centro de actividades
Únete a actividades y gana recompensas
Referido
20 USDT
Invita amigos y gana por tus referidos
Programa de afiliados
Gana recompensas de comisión exclusivas
Gate Booster
Aumenta tu influencia y gana airdrops
Anuncio
Novedades de plataforma en tiempo real
Gate Blog
Artículos del sector de las criptomonedas
AI
Gate AI
Tu compañero de IA conversacional para todo
Gate AI Bot
Usa Gate AI directamente en tu aplicación social
GateClaw
Gate Blue Lobster, listo para usar
Gate for AI Agent
Infraestructura de IA, Gate MCP, Skills y CLI
Gate Skills Hub
+10 000 habilidades
De la oficina al trading, una biblioteca de habilidades todo en uno para sacar el máximo partido a la IA
GateRouter
Elige inteligentemente entre más de 40 modelos de IA, con 0% de costos adicionales
Google encontró una forma de hacer que la IA local sea hasta 3 veces más rápida—sin necesidad de nuevo hardware
En resumen
Ejecutar un modelo de IA en tu propia computadora es genial—hasta que no lo es. La promesa es privacidad, sin tarifas de suscripción y sin datos saliendo de tu máquina. La realidad, para la mayoría, es ver un cursor parpadear durante cinco segundos entre oraciones. Ese cuello de botella tiene un nombre: velocidad de inferencia. Y no tiene nada que ver con cuán inteligente sea el modelo. Es un problema de hardware. Los modelos de IA estándar generan texto un fragmento de palabra—llamado token—a la vez. El hardware tiene que transferir miles de millones de parámetros desde la memoria a sus unidades de cómputo solo para producir cada token. Es lento por diseño. En hardware de consumo, es doloroso.
La solución alternativa a la que la mayoría recurre es ejecutar modelos más pequeños y débiles—o versiones altamente comprimidas, llamadas modelos cuantizados, que sacrifican algo de calidad por velocidad. Ninguna solución es perfecta. Obtienes algo que funciona, pero no es el modelo que realmente querías. Ahora Google tiene una idea diferente. La compañía acaba de lanzar borradores de Predicción de Múltiples Tokens (MTP) para su familia de modelos abiertos Gemma 4—una técnica que puede ofrecer hasta 3 veces más velocidad sin tocar la calidad o capacidad de razonamiento del modelo en absoluto.
El enfoque se llama decodificación especulativa, y ha existido como concepto durante años. Los investigadores de Google publicaron el artículo fundamental en 2022. La idea no se hizo popular hasta ahora porque requería la arquitectura adecuada para hacerla funcionar a escala.
Aquí está la versión corta de cómo funciona. En lugar de hacer que el modelo grande y potente haga todo el trabajo solo, lo emparejas con un modelo “borrador” diminuto. El borrador es rápido y barato—predice varios tokens a la vez en menos tiempo del que el modelo principal tardaría en producir solo uno. Luego, el modelo grande verifica todas esas suposiciones en una sola pasada. Si las suposiciones son correctas, obtienes toda la secuencia por el precio de una pasada hacia adelante. Según Google, “si el modelo objetivo está de acuerdo con el borrador, acepta toda la secuencia en una sola pasada hacia adelante—e incluso genera un token adicional por su cuenta en el proceso.” Nada se sacrifica: El modelo grande—por ejemplo, la versión densa de 31 mil millones de Gemma 4—aún verifica cada token, y la calidad de salida es idéntica. Solo estás aprovechando la potencia de cómputo inactiva que permanecía sin usar durante las partes lentas. Google dice que los modelos borradores comparten la caché KV del modelo objetivo—una estructura de memoria que almacena el contexto ya procesado—para no perder tiempo recalculando cosas que el modelo más grande ya sabe. Para los modelos más pequeños diseñados para teléfonos y dispositivos Raspberry Pi, el equipo incluso construyó una técnica de agrupamiento eficiente para reducir aún más el tiempo de generación. Este no es el único intento que la comunidad de IA ha hecho para paralelizar la generación de texto. Los modelos de lenguaje basados en difusión—como Mercury de Inception Labs—intentaron un enfoque completamente diferente: en lugar de predecir un token a la vez, comienzan con ruido y refinan iterativamente toda la salida. Eso es rápido en papel, pero los LLM de difusión han tenido dificultades para igualar la calidad de los modelos transformadores tradicionales, dejándolos más como una curiosidad de investigación que como una herramienta práctica. La decodificación especulativa es diferente porque no cambia el modelo subyacente en absoluto. Es una optimización de servicio, no un reemplazo de arquitectura. El mismo Gemma 4 que ya usabas se vuelve más rápido. La ventaja práctica es real. Un modelo Gemma 4 de 26 mil millones en una GPU de escritorio Nvidia RTX Pro 6000 obtiene aproximadamente el doble de tokens por segundo con el borrador MTP activado, según las propias métricas de Google. En Apple Silicon, tamaños de lote de 4 a 8 solicitudes desbloquean aceleraciones de alrededor de 2.2 veces. No exactamente el techo de 3x en todos los escenarios, pero aún así una diferencia significativa entre “casi inutilizable” y “realmente lo suficientemente rápido para trabajar”.
El contexto aquí importa. Cuando el modelo chino DeepSeek sorprendió al mercado en enero de 2025—borrando 600 mil millones de dólares de la capitalización de Nvidia en un solo día—la lección principal fue que las ganancias en eficiencia pueden ser más impactantes que el mero poder de cómputo. Ejecutar de manera más inteligente supera a tirar más hardware al problema. La MTP de Google es otro movimiento en esa dirección, dirigido específicamente al mercado de consumo. Toda la industria de IA ahora mismo es un triángulo que considera inferencia, entrenamiento y memoria. Cada avance en cualquiera de esas áreas tiende a impulsar o impactar todo el ecosistema. El enfoque de entrenamiento de DeepSeek (lograr modelos potentes con hardware de gama baja) fue un ejemplo, mientras que el documento de Google sobre TurboQuant (reducir la memoria de IA sin perder calidad) fue otro. Ambos hicieron colapsar los mercados mientras las empresas trataban de entender qué hacer. Google dice que el borrador desbloquea “una mejor capacidad de respuesta: reducir drásticamente la latencia para chat en tiempo casi real, aplicaciones de voz inmersivas y flujos de trabajo con agentes”—el tipo de tareas que requieren baja latencia para ser útiles en absoluto. Los casos de uso se enfocan rápidamente: un asistente de codificación local que no se retrasa; una interfaz de voz que responde antes de que olvides lo que preguntaste; un flujo de trabajo con agentes que no te hace esperar tres segundos entre pasos. Todo esto, en hardware que ya posees. Los borradores MTP están disponibles ahora en Hugging Face, Kaggle y Ollama, bajo la licencia Apache 2.0. Funcionan con vLLM, MLX, SGLang y Hugging Face Transformers desde la caja.