AI-агент уже здатний самостійно відтворювати складні академічні статті: Mollick стверджує, що помилки здебільшого трапляються в людських оригіналах, а не в AI

Професор Вартонської школи бізнесу Пенсильванського університету Ethan Mollick у дописі на платформі X від 25.04 зробив спостереження, яке сильно впливає на наукову спільноту: сучасні AI-agent уже можуть незалежно відтворювати складні результати академічних досліджень лише на основі публічно описаних методів і даних — без оригінальних статей і без вихідного коду. Далі Mollick зазначив, що коли AI-відтворені версії відрізняються від оригінальних статей, «помилки часто трапляються в самих людських текстах, а не в AI». Це є суттєвим поворотом у кризі відтворюваності досліджень у епоху генеративного AI: те, що раніше вимагало дорогих людських зусиль для перевірки колегами, тепер виконується AI у великих масштабах і з низькою вартістю.

Claude відтворює кілька статей, а потім GPT-5 Pro робить двічі перевірку

У своєму блозі OneUsefulThing та в цьому твіті Mollick описує конкретний експеримент із Claude: він дає Claude академічну статтю, щоб той відкрив архів, упорядкував файли, автоматично перетворив STATA-код для статистики на Python, а потім послідовно виконав усі висновки, наведені в статті. Після завершення роботи Claude він проводить другий раунд перевірки за допомогою GPT-5 Pro для того самого результату відтворення. Кілька статей тестувалися так само, і результати загалом були успішними — перешкоди виникали лише тоді, коли файли даних були надто великими або коли самі replication data мали проблеми.

Для наукової спільноти цей процес раніше зазвичай потребував того, щоб дослідницькі асистенти витрачали тижні або навіть місяці. Mollick описує часовий масштаб від одного дня до одного дня, а вартість виконання — лише токенові витрати комерційного LLM API.

Багато помилок — у людських першоджерелах, а не в AI

Більш суперечливим є те, як Mollick визначає, «хто винен». У своєму твіті він прямо заявив, що коли результати AI-відтворення не відповідають оригінальній статті, у більшості випадків це не помилка AI, а помилки в обробці даних у статті, неправильне використання моделі або вихід висновків за межі того, що підкріплюється даними. У психології, поведінковій економіці, менеджменті та інших соціальних науках за останнє десятиліття вже було кілька серйозних подій із кризами відтворюваності; найбільш відомий — велике відтворювальне дослідження Open Science Collaboration у 2015 році, в якому лише близько 36% результатів психологічних статей вдалося незалежно відтворити. AI-agent переносить межу перевірки з «потрібного підбору людських ресурсів» на «здатність виконуватися повсюдно».

Вчитися все ще забороняють AI в рецензування, а інституції відстають від техніки

У іншому твіті від 25.04 Mollick конкретно вказує на те, що найбільше в його галузі найбільше товариство — Академія менеджменту (Academy of Management) — досі чітко забороняє AI входити в процес рецензування рукописів. Він посилається на вже наявні дослідження, які показують, що AI-рецензування вже краще, ніж частина традиційних людських рецензентів, за точністю, узгодженістю та контролем упередженості, тому позиція «заборонити» може навпаки посилити збої в існуючих системах рецензування. Розрив між такими інституційними правилами та технологією — це політичне питання, з яким у найближчі 1–2 роки мають зіткнутися наукові видавництва, наукові товариства та фінансувальні організації.

Для читачів ця дискусія не обмежується академічною сферою. Коли AI-agent здатен у реальному часі перевіряти результати досліджень, у бізнес-середовищі посилання на дослідження, політичні звіти та академічні підстави в ухваленні фінансових рішень перейдуть у новий критерій перевірки — «чи витримують висновки незалежне AI-відтворення». Відповідаючи на доповнення в іншому твіті Mollick, він вважає, що уряд є єдиною одиницею, яка може поставити «якорь» для розробки правил перевірки, коли інтенсивність інструментів постійно зростає, — а складність політичного дизайну синхронно стане відносно непомітним головним напрямом у обговореннях AI-врядування.

Ця стаття: AI Agent уже може незалежно відтворювати складні академічні статті: Mollick називає, що більшість помилок — у людських першоджерелах, а не в AI. Вперше з’явилося в 鏈新聞 ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

AWS, Coinbase, Stripe запускають платежі USDC для AI-агентів

Amazon Web Services оголосила в четвер про запуск «Amazon Bedrock AgentCore Payments» — нового набору функцій, які дозволяють AI-агентам виконувати транзакції за допомогою стейблкоїнів у партнерстві з Coinbase та Stripe. Платформа дає змогу AI-агентам миттєво отримувати доступ і оплачувати послуги, зокрема веб c

CryptoFrontier17хв. тому

CZ заявив, що YZi Labs виділяє 70% на блокчейн і 20% на ШІ на Consensus Miami 2026

За даними ChainCatcher, на Consensus Miami 2026 Чжао Чанпэн (CZ) заявив, що YZi Labs спрямовує 70% фінансування на блокчейн, 20% на AI і 10% на біотехнології. CZ додав, що BNB має бути позиціонована як нативна валюта для AI-агентів, а всі блокчейни мають бути «AI-ready», щоб підтримувати

GateNews1год тому

Zypher Network інтегрує AIDEN, щоб покращити доступність знань про блокчейн

Згідно з офіційним оголошенням IQ AI від 6 травня, Zypher Network інтегрувала AIDEN — агент штучного інтелекту, розроблений IQ AI — щоб покращити доступність знань про блокчейн і посилити аудитоздатність у екосистемах, керованих ШІ. Співпраця додає виділену вікі-сторінку

GateNews1год тому

Virtuals Protocol запускає airdrop OpenGradient Titan, сьогодні розподілить 500 тис. OPG

Згідно з офіційним оголошенням Virtuals Protocol, OpenGradient Titan Launch airdrop уже запущено — станом на 7 травня. Користувачі, які мають право на участь, можуть отримати токени OPG безпосередньо зі своїх акаунтів у Virtuals. Сьогодні розподіляють 500 тисяч токенів OPG, щоб винагородити учасників у Virtuals

GateNews5год тому

NVIDIA представила Nemotron 3 Nano Omni — відкриту мультимодальну модель

NVIDIA опублікувала відкритий вихідний код багатомодального моделі Nemotron 3 Nano Omni: вона об’єднує візуальне сприйняття, мовлення та мову в межах єдиної моделі як сенсорний шар для AI-агентів. Її ядро — 30B-A3B MoE, 256K context, 9x пропускної здатності. Модель підтримує вхідні дані у вигляді тексту, зображень, аудіо та відео тощо, а виходом є текст. У поєднанні з Nemotron 3 Super/Ultra вона застосовна для сценаріїв на кшталт керування комп’ютером, інтелекту з документами та розуміння аудіовізуального контенту; також оприлюднено ваги та навчальні дані, а розгортання охоплює локальні середовища, NIM і сторонні платформи.

ChainNewsAbmedia5год тому

NeoSoul і AllScale оголошують стратегічне партнерство щодо агентського кредитування та розрахунків у стейблкоїнах сьогодні

За даними ChainCatcher, проєкт NeoSoul в екосистемі AI Agent Economy сьогодні (7 травня) оголосив про стратегічне партнерство з AllScale, щоб вивчити механізми формування кредиту та розрахунків зі стейблкоїнами для автономної співпраці агентів. Партнерство буде зосереджене на автоматизації платіжних потоків між агентами—таке

GateNews6год тому
Прокоментувати
0/400
Немає коментарів