PrismML lanza el modelo de 1.58 bits Ternary Bonsai, reducción de parámetros en 9 veces, superando en inteligencia a modelos similares

robot
Generación de resúmenes en curso
ME News Noticias, 17 de abril (UTC+8), según la monitorización de Dongcha Beating, PrismML lanzó la serie de modelos de lenguaje Bonsai Ternary, que mediante la tecnología de pesos ternarios de 1.58 bits, reduce el uso de memoria del modelo a una novena del modelo de 16 bits, manteniendo un alto rendimiento. La serie incluye tres tamaños de parámetros: 8B, 4B y 1.7B, y ya está disponible en código abierto en Hugging Face, soportando ejecución nativa en dispositivos Apple.
El llamado modelo de 1.58 bits se refiere a limitar los pesos de la red neuronal a tres valores {-1, 0, +1}. En comparación con el modelo de 1 bit, que busca una compresión extrema (con pesos solo {-1, +1}), la introducción del valor "0" puede eliminar conexiones redundantes, permitiendo que el modelo conserve capacidades de razonamiento complejas en un tamaño muy reducido.
El archivo de peso de Bonsai Ternary 8B publicado esta vez tiene solo 1.75 GB, y su puntuación en pruebas de referencia alcanza 75.5, superando en 5 puntos a su versión de 1 bit, e incluso liderando significativamente en "densidad inteligente" (rendimiento por GB de memoria de video) en comparación con modelos densos similares como Qwen3.
La eficiencia energética y la velocidad de ejecución son otra ventaja clave de esta serie. En el iPhone 17 Pro Max, la versión de 8B puede alcanzar una velocidad de 27 tok/s, con una mejora de aproximadamente 3 a 4 veces en relación con la eficiencia energética.
Para los desarrolladores que necesitan desplegar IA de alto rendimiento en dispositivos móviles, portátiles y otros dispositivos en el borde, esto significa que pueden obtener un rendimiento cercano al de modelos de precisión completa con un costo de memoria muy reducido.
Actualmente, los modelos Bonsai Ternary ya cuentan con soporte nativo en dispositivos Apple a través del marco MLX. Los pesos del modelo se distribuyen bajo la licencia Apache 2.0.
(Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 8
  • 5
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
SushiSlippage
· hace8h
{-1,0,+1} me recuerda al BinaryNet de aquel entonces, pero esta vez parece que realmente funcionó
Ver originalResponder0
HexiHoodie
· hace8h
La relación de eficiencia energética mejora de 3 a 4 veces, lo que significa que la autonomía finalmente ya no perderá el 50% de la batería en media hora.
Ver originalResponder0
MevInRetrospect
· hace8h
La apertura del código bajo Apache 2.0 recibe buenas críticas, esto es verdadera apertura, no como algunos que hacen trucos.
Ver originalResponder0
TheClarityAfterLiquidating
· hace8h
27 tok/s en el teléfono, más rápido que mi portátil de aquel entonces que corría 7B, los tiempos han cambiado
Ver originalResponder0
0XNightRun
· hace8h
El soporte nativo de MLX es clave, los usuarios del ecosistema de Apple están encantados, ya no necesitan lidiar con conversiones.
Ver originalResponder0
PaperSculptureOctopusPosition
· hace8h
Ternary Bonsai, este nombre es bastante interesante, el peso de tres valores realmente es un diseño delicado a nivel de un bonsái
Ver originalResponder0
AutumnSlopeCabin
· hace8h
¿Una novena parte de la memoria de video? Antes ni siquiera me lo habría imaginado, ahora el iPhone puede ejecutar modelos grandes localmente.
Ver originalResponder0
RedTelephoneBoothRuins
· hace8h
1.75GB para ejecutar un modelo de 8B, esta tasa de compresión es increíble, la IA en dispositivos móviles finalmente puede usarse
Ver originalResponder0
  • Fijado