OpenAI выпустила LifeSciBench с 750 экспертными задачами для оценки ИИ в реальных научных рабочих процессах
Odaily сообщает, что OpenAI выпустила LifeSciBench — новый оценочный бенчмарк, включающий 750 задач, написанных экспертами, по 7 научным исследовательским рабочим процессам и 7 областям биологии. Бенчмарк разработали 173 исследователя с PhD и опытом в биотехнологической или фармацевтической отраслях. Более 79% задач требуют многоэтапного рассуждения — в среднем по 4 шага рассуждения на задачу — при этом в бенчмарк входят 1 062 реальных научных набора данных в виде вложений, включая статьи, диагр
GateNews·1ч назад