Gate News 消息,4 月 20 日——据 Databricks 的 David Meyer 称,顶级 AI 模型擅长解决诸如奥林匹克竞赛数学这类复杂问题,但在日常企业工作中却表现吃力。某些模型可能会把错误的发票号码改正掉,而不是将其标记为错误;此外,像 Claude 这样的编程工具在数据工程任务上也可能表现不佳。
这种差距源于企业数据与用于训练大型模型的公开网络文本之间的根本差异。企业数据往往包含含糊的列标签、大量空白字段,以及以纯文本形式存储的代码。在一项学术研究中,用于平衡精确率与召回率的 AI 模型 F1 分数在数据工程任务上,从公开数据的 0.94 降至企业数据的 0.07。除此之外,大型模型往往会默认采用训练中熟悉的模式;例如,即使在收到公司专有查询语言的指令和文档之后,仍有模型默认使用结构化查询语言 (SQL)。
经过强化学习调优的小型开源模型能够以更高效率、更远低于大型通用模型的训练成本处理特定工作。Databricks 正在为特定工作流构建更小的 AI 代理,例如 KARL,它使用强化学习来结合公司文档进行多步骤推理。该行业正在从依赖巨型模型转向混合架构:由小而高效的模型处理常规的海量任务,然后只在遇到不清楚或复杂的案例时,才将其升级到更大、更昂贵的系统。
Databricks 最近收购 Quotient AI,帮助大型企业更可靠地运行 AI 代理。如今 AI 业务中的竞争,围绕的是运行完整的 AI 生命周期,包括用于追踪错误的反馈系统,并随时间持续改进模型,这使得评估与调优工具在部署之后变得愈发有价值。
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el
Aviso legal.
Artículos relacionados
Virtuals Protocol lanza el airdrop OpenGradient Titan, distribuye 500K OPG hoy
Según el anuncio oficial de Virtuals Protocol, el lanzamiento del airdrop OpenGradient Titan ya está en marcha a partir del 7 de mayo. Los usuarios elegibles pueden reclamar tokens OPG directamente desde sus cuentas de Virtuals. Hoy se distribuyen un total de 500.000 tokens OPG para recompensar a los contribuidores de Virtuals
GateNewshace2h
NVIDIA lanza Nemotron 3 Nano Omni, código abierto multimodal
NVIDIA publica el modelo multimodal de código abierto Nemotron 3 Nano Omni, que integra visión, voz y lenguaje en un único modelo, como capa de percepción para agentes de IA. Su núcleo es 30B-A3B MoE, con contexto de 256K y un rendimiento de 9x; admite entradas de texto, imágenes, audio y video, y genera salidas en forma de texto. En colaboración con Nemotron 3 Super/Ultra, es aplicable a escenarios como operación de computadoras, inteligencia de documentos y comprensión audio-visual, y publica los pesos y los datos de entrenamiento, con despliegue que abarca local, NIM y plataformas de terceros.
ChainNewsAbmediahace2h
NeoSoul y AllScale anuncian una asociación estratégica sobre créditos para agentes y liquidación de stablecoin hoy
Según ChainCatcher, el proyecto de economía de agentes de IA NeoSoul anunció hoy (7 de mayo) una asociación estratégica con AllScale para explorar mecanismos de formación de crédito y liquidación con stablecoins para la colaboración autónoma de agentes. La asociación se centrará en automatizar los flujos de pagos entre agentes—tal
GateNewshace3h
FIS y Anthropic desarrollan agentes de IA para combatir el blanqueo de capitales, con despliegue en BMO y Amalgamated Bank durante el segundo semestre de 2026
FIS y Anthropic están desarrollando agentes de IA diseñados para automatizar investigaciones de delitos financieros, comenzando con operaciones contra el lavado de dinero. El Agente de IA de Delitos Financieros extraerá datos de los sistemas bancarios, evaluará las transacciones frente a tipologías conocidas y ayudará a los investigadores a revisar al
GateNewshace4h
Prime Intellect Lab lanza disponibilidad general el 7 de mayo y completa más de 10.000 ejecuciones de entrenamiento en la versión beta
Según Prime Intellect, la plataforma Lab de la empresa salió de la fase beta el 7 de mayo de 2026, pasando a disponibilidad general como un entorno de entrenamiento de extremo a extremo para agentes de IA que se auto-mejoran. El pipeline unificado consolida los flujos de trabajo de mejora de modelos, lo que permite a los usuarios definir tareas, configurar
GateNewshace5h
Cloudflare activa 1.000 millones de respuestas HTTP 402 al día en Consensus 2026, lanza el marco de confianza para agentes con Visa y Experian
De acuerdo con Foresight News, la directora de CSO de Cloudflare, Stephanie Cohen, anunció en Consensus 2026 que la plataforma activa aproximadamente 1 mil millones de respuestas HTTP 402 al día, lo que refleja la demanda de los agentes de IA de acceso de pago al contenido web. La empresa, junto con Visa y Experian, presentó el Agent Trust
GateNewshace7h