✍️ Gate 廣場「創作者認證激勵計劃」進行中!
我們歡迎優質創作者積極創作,申請認證
贏取豪華代幣獎池、Gate 精美周邊、流量曝光等超過 $10,000+ 豐厚獎勵!
立即報名 👉 https://www.gate.com/questionnaire/7159
📕 認證申請步驟:
1️⃣ App 首頁底部進入【廣場】 → 點擊右上角頭像進入個人主頁
2️⃣ 點擊頭像右下角【申請認證】進入認證頁面,等待審核
讓優質內容被更多人看到,一起共建創作者社區!
活動詳情:https://www.gate.com/announcements/article/47889
一周兩次事故後,回顧Anthropic七位聯合創始人一年前如何談論「安全」
要點總結
過去一週,Anthropic 連續出了兩次事故:
先是內部近 3000 份文件因 CMS 設定錯誤被公開存取,緊接著 Claude Code v2.1.88 在 npm 發布時夾帶了 59.8MB 的 source map,51 萬行原始碼直接裸奔。
一家把「安全」寫進基因的公司,在自家營運上連續翻車,諷刺感拉滿。
但在急著嘲諷之前,不妨回頭聽聽 Anthropic 七位聯創一年多前的一次內部對談。這期播客錄於 2024 年 12 月,七個人聊了這家公司是怎麼建立起來的、RSP(Responsible Scaling Policy,直譯「負責任的擴展政策」)是怎麼磨出來的、「安全」這個詞為什麼不能隨便用、以及 CEO Dario 那句被反覆引用的話:
「如果一棟樓每週都響起火警,那它其實是一棟非常不安全的建築。」
現在再聽這句話,滋味確實不太一樣。
七位聯創,快速認臉
Dario Amodei|CEO,前 OpenAI 研究副總裁,神經科學出身,Anthropic 戰略和安全路線的最終拍板人。這場對話裡發言最多。
Daniela Amodei|總裁,Dario 的姊姊。此前在 Stripe 做了五年半,帶過信任與安全團隊,更早在非營利和國際發展領域工作。Anthropic 的組織搭建和對外溝通基本由她主導。
Jared Kaplan|物理學教授轉 AI 研究者,scaling laws 核心作者之一。經常從局外人視角提供判斷,自稱當初做 AI 是因為「做物理做膩了」。
Chris Olah|可解釋性(interpretability)研究的代表人物,19 歲進灣區 AI 圈,先後在 Google Brain 和 OpenAI 工作。Anthropic 裡技術理想主義色彩最濃的人。
Tom Brown|GPT-3 論文一作,現在管 Anthropic 的算力資源。視角偏工程和基礎設施,播客裡聊了不少他從「不太信 AI 會這麼快」到改變看法的過程。
Jack Clark|前彭博科技記者,Anthropic 政策與公共事務負責人。這場對話裡充當主持人,負責串場和追問。
Sam McCandlish|研究聯創,全場發言最少但經常一句話點到要害,屬於「補刀位」。
精彩觀點摘要
為什麼做 AI:從物理無聊到「看夠了就信了」
Jared Kaplan:「我之前做了很久物理,有點無聊了,也想和更多朋友一起工作,所以就做 AI 了。」
Dario Amodei:「我不覺得我有明確說服過你,我只是一直給你看 AI 模型結果。到某個時候,我給你看得夠多了,你就說『嗯,這看起來是對的』。」
逆共識下注:大多數共識是羊群效應偽裝成了成熟
Jared Kaplan:「很多 AI 研究者被 AI 寒冬心理上傷得很重,好像有野心是不被允許的。」
Dario Amodei:「我過去十年最深教訓是:很多『大家都知道』的共識,其實是羊群效應偽裝成了成熟。你見過幾次共識被一夜翻轉後,就會說:不,我們就押這個。哪怕你只有 50% 正確,也會貢獻很多別人沒貢獻的東西。」
安全與規模化是纏繞在一起的
Dario Amodei:「我們當時把模型擴大的動機之一,就是模型得先足夠聰明,RLHF 才能做起來。這就是我們現在仍然相信的:安全和規模化是纏繞在一起的。」
RSP,負責任的擴展政策是 Anthropic 的「憲法」
Tom Brown:「RSP 對於 Anthropic 來說,就像是我們的憲法。它是一份具有指導意義的核心文件,因此我們願意投入大量時間和精力來反覆打磨。」
Dario Amodei:「RSP 會阻止不符合安全標準的計畫繼續推進。我們不是在空談口號,而是實實在在地將安全融入到每一個環節。」
火警響太多次,真著火就沒人跑了
Daniela Amodei:「我們不能隨便用『安全』這個詞來左右工作進展。我們真正的目標是讓大家清楚地知道我們所指的安全是什麼。」
Dario Amodei:「真正損害安全的往往是那些頻繁的『安全演練』。如果有一棟大樓,每週都會響起火警警報,那這其實是一棟非常不安全的建築。」
「崇高的失敗」是個陷阱
Chris Olah:「有一種說法認為,最道德的行為是為了安全而犧牲其他目標,以此來展示自己對事業的純粹性。但這種方式實際上是自我挫敗的。因為這會導致決策權落入那些不重視安全的人手中。」
聯創們承諾捐出 80% 收入
Tom Brown:「我們共同承諾將收入的 80% 捐贈給能推動社會發展的事業,這是大家都毫不猶豫支持的事。」
沒人想創業,但覺得必須這麼做
Sam McCandlish:「其實我們中沒有誰一開始就有創辦公司的意願。我們只是覺得這是我們的責任,因為這是確保 AI 發展朝著正確方向前進的唯一途徑。」
Daniela Amodei:「我們的使命既清晰又純粹,在科技產業中這樣的情況並不常見。」
可解釋性:神經網路裡藏著一整套「人工生物學」
Chris Olah:「神經網路非常美妙,其中有許多我們還沒有看到的美。我有時會想像,十年後走進一家書店,買一本關於神經網路生物學的教科書,書中會有各種令人驚嘆的內容。」
AI 用於強化民主,而不是成為獨裁工具
Dario Amodei:「我們擔心如果 AI 被錯誤地開發,它可能會成為獨裁主義的工具。如何讓 AI 成為促進自由和自決的工具?這個領域的重要性絲毫不亞於生物學和可解釋性。」
從白宮會議到諾貝爾獎:AI 的影響力早就超出了技術圈
Jared Kaplan:「2018 年你不會想到總統會叫你去白宮說他們在關注語言模型。」
Dario Amodei:「我們已經看到化學領域的諾貝爾獎授予了 AlphaFold,我們應該努力開發能夠幫助我們創造出數百個 AlphaFold 的工具。」
為什麼要研究 AI?
Jack Clark:我們為什麼一開始要做 AI?Jared 你為什麼做 AI?
Jared Kaplan:「我之前做了很久物理,有點無聊了,也想和更多朋友一起工作,所以就做 AI 了。」
Tom Brown:「我還以為是 Dario 說服你的。」
Dario Amodei:「我不覺得我有明確『說服』過你,我只是一直給你看 AI 模型結果,想表達它們很通用,不只適用於單一問題。到某個時候,我給你看得夠多了,你就說『嗯,這看起來是對的』。」
Jack Clark:Chris,你做可解釋性研究那會兒,是在 Google 認識大家的嗎?
Chris Olah:「不是。其實我 19 歲第一次來灣區時就認識了你們中的不少人。我那時見到 Dario 和 Jared,他們是博士後,在當時我覺得特別酷。後來我在 Google Brain,Dario 加入後我們還並排坐過一陣子,我也和 Tom 一起工作過,之後去 OpenAI 就和你們所有人一起做事了。」
Jack Clark:「我記得我 2015 年在一個會議上見到 Dario 想採訪你,Google PR 還說我要先把你論文都讀完。」
Dario Amodei:「我當時在 Google 寫《Concrete Problems in AI Safety》。」
Sam McCandlish:「我開始和你共事之前,你還邀我去辦公室聊,像是把 AI 整體講了一遍。我記得聊完後我想:『原來這事比我意識到的嚴肅得多。』你當時講了『大算力團塊』、參數數目、人腦神經元規模這些。」
突破性的擴展
**Jack Clark:**我記得在 OpenAI 做 scaling laws 時,把模型做大開始真的有效,而且在好多計畫上都持續、詭異地有效,從 GPT-2 到 scaling laws 到 GPT-3,我們就這樣越走越近。
Dario Amodei:「我們就是那團『把事做成的人』。」
Jared Kaplan:「我們也都很興奮於安全,那會兒有個想法:AI 會很強,但可能不理解人類價值,甚至不能和我們溝通。語言模型某種程度上能保證它得理解很多隱性知識。」
Dario Amodei:「還有語言模型之上的 RLHF,我們當時把模型擴大的動機之一,就是模型得先足夠聰明,RLHF 才能做起來。這就是我們現在仍然相信的:安全和規模化是纏繞在一起的。」
Chris Olah:「對,當時 scaling 工作其實也是安全團隊的一部分。因為我們覺得,想讓人認真對待安全,首先要能預測 AI 趨勢。」
**Jack Clark:**我記得我在英國某個機場,從 GPT-2 取樣寫假新聞,然後在 Slack 上發給 Dario 說「這真能用,可能有巨大的政策影響」,我記得 Dario 回覆是「是的」。
之後我們也做了很多跟發布相關的工作,那很瘋狂。
Daniela Amodei:「我記得發布那段,那是我們第一次真正開始合作,GPT-2 當時發布。」
Jack Clark:「我覺得那對我們很有幫助。我們先一起做了一個『有點奇怪但安全導向』的事,後來又一起做了 Anthropic,一個更大規模、同樣有點奇怪但安全導向的事。」
AI 的起步階段
Tom Brown:「回到《Concrete Problems》這篇文章上來。我 2016 年進 OpenAI 當時你我都是最早那批人,我當時覺得那篇像是第一篇主流 AI 安全論文。它怎麼來的?」
Dario Amodei:「Chris 知道,他參與了。我們那時在 Google,我都忘了我當時主題項目是什麼了,這篇像是我拖延出來的。」
我們想寫下 AI 安全有哪些開放問題。當時 AI 安全總被講得很抽象,我們想把它落到當時真實的 ML 上。現在已經有六七年這條線工作了,但那會兒這就是個怪想法。
Chris Olah:「我覺得它某種意義上幾乎是個政治計畫。那時很多人不把安全當回事。我們想整理一份大家認可合理的問題清單,很多本來就存在於文獻裡,然後找跨機構有公信力的人共同署名。」
我記得我花了很長時間,和 Brain 裡二十多個研究者溝通,為了發表爭取支持。如果只看問題本身,今天回頭看未必都成立,可能不是最對的問題。但如果把它當成共識建設:證明「這裡有真正的問題,值得認真對待」,那它就是個重要時刻。
Jack Clark:「最終你會進入一個非常奇特的科幻世界。我記得 Anthropic 早期談 Constitutional AI,Jared 說「我們給語言模型寫一部憲法,它行為就會變」。當時聽起來很瘋狂。為什麼你們覺得可行?」
Jared Kaplan:「我跟 Dario 討論了很久,我覺得 AI 裡簡單方法常常效果極好。最早版本挺複雜,後來不斷削減,最後變成:利用模型擅長做選擇題這點,給它明確提示告訴它要找什麼就夠了,然後我們可以把原則直接寫下來。」
Dario Amodei:「這回到「大算力團塊」(The Big Blob of Compute)「慘痛教訓」(The Bitter Lesson)「規模化假設」(Scaling Hypothesis):**只要你能給 AI 一個清晰目標與資料,它就能學會。一組指令、一組原則,語言模型能讀它們,也能把它們和自身行為對照,訓練目標就在那兒。**所以我和 Jared 的看法是:有辦法做成,只要細節反覆調。」
Jared Kaplan:「對我來說早期很奇怪。我從物理轉來,現在大家都興奮於 AI,容易忘了當時氛圍。我當時和 Dario 聊這些,感覺很多 AI 研究者被 AI 寒冬心理上傷得很重,好像「有野心」是不被允許的。討論安全要先相信 AI 可能非常強、非常有用,但當時有種反野心禁令。物理學家一個優勢是「傲慢」,他們常做很有野心的事,習慣談宏大圖景。」
Dario Amodei:「我覺得這是真的。2014 年很多話就是不能說。這也像學術界普遍的問題,除了某些領域外,機構越來越厭惡風險,工業 AI 也繼承了這心態,我覺得直到 2022 年左右才走出來。」
Chris Olah:「還有「保守」的兩種形式:一種是認真看待風險,另一種是把認真對待並相信想法可能成功視為傲慢。我們當時處於後者主導。歷史上 1939 年核物理討論裡也類似:Fermi 抵觸,Szilard 或 Teller 更認真看待風險。」
Dario Amodei:「我過去十年最深教訓是:很多「大家都知道」的共識,其實是羊群效應偽裝成了成熟。你見過共識幾次一夜翻轉後,就會說:不,我們就押這個。也許不一定對,但忽略噪音去下注。哪怕你只有 50% 正確,也會貢獻很多別人沒貢獻的東西。」
公眾對人工智慧的態度轉變
Jared Kaplan:「今天在一些安全議題上也這樣:外界共識覺得很多安全問題不自然會從技術裡長出來,但我們在 Anthropic 做研究看到它確實會自然長出來。」
Daniela Amodei:「但過去 18 個月這在變,而且世界對 AI 的情緒也在明顯變化。我們做用戶研究時,更常聽到一般用戶擔心 AI 對世界整體的影響。」
有時是工作、偏見、毒性;有時是「它會不會把世界搞亂、改變人類協作方式」。其實這些我都沒完全預料到。
Sam McCandlish:「不知為何,ML 研究圈常比公眾更悲觀於「AI 變很強」。」
Jared Kaplan:「2023 年我和 Dario 去白宮,會議裡 Harris、Raimondo 基本意思是:我們盯著你們,AI 是大事,我們在認真關注,但 2018 年你不會想到「總統會叫你去白宮說他們在關注語言模型」。」
Tom Brown:「有意思的是,我們很多人是這件事看起來還不確定時就入場的,像 Fermi 對原子彈持懷疑態度一樣。有一些證據表明原子彈可能會被製造出來,但也有很多證據表明它不會,但他最終決定一試。因為如果是真的,影響會很大,所以值得做。」
2015-2017 有一些且不斷增加的證據證明 AI 可能是一件大事。我 2016 年和導師聊:我做過創業,想做 AI 安全,但數學不夠強,不知道怎麼辦。當時有人說你得精通決策理論;有人說不會出現瘋狂 AI 事件,真正支持的人很少。
Jack Clark:「我 2014 年做 ImageNet 趨勢報導被當瘋子。2015 年的時候我想寫 NVIDIA 因論文都提 GPU,也被說瘋了;2016 我離開新聞去 AI,還有郵件說「你犯了人生最大錯誤」。當時從很多角度看,認真押注「規模化會成」確實像瘋子。」
Jared Kaplan:「你怎麼決定的?糾結嗎?」
Jack Clark:「我做了個反向下注:提要求做全職 AI 記者並把工資翻倍,我知道他們不會答應。然後睡一覺醒來就辭職。因為我每天都在讀檔案文件,我總覺得有件瘋狂大事在發生,某個時點你就該用高信念下注。」
Tom Brown:「我沒那麼果斷,我搖擺了六個月。」
Daniela Amodei:「而且那時「工程師也能顯著推動 AI」這件事並不主流。當時是「只有研究員才能做 AI」,所以你的猶豫不奇怪。」
Tom Brown:「後來 OpenAI 說「你可以透過工程幫助 AI 安全」,那才讓我加入。Daniela 你在 OpenAI 還是我經理,你當時為什麼加入?」
Daniela Amodei:「我在 Stripe 五年半,Greg 曾是我老闆。我還介紹過 Greg 和 Dario 認識。當時他正在創立 OpenAI,我對他說:「我認識的最聰明的人是 Dario。如果你能讓他加入團隊,那真是你的幸運。」後來,Dario 就加入了 OpenAI。」
或許和你一樣,我也在思考從 Stripe 离開後,自己想做些什麼。我之所以加入 Stripe,是因為之前在非營利組織和國際發展領域工作時,我覺得自己需要更多技能,其實當時我還以為自己最終會回到那個領域。
在加入 Stripe 之前,我覺得自己沒有足夠能力去幫助那些比我條件差的人。所以我在關注其他科技公司,希望找到一種新的方式去產生更大的影響,而當時的 OpenAI 讓我覺得它是個很好的選擇。它是一家非營利組織,致力於實現一個非常重要且具有遠大意義的目標。
我一直很相信 AI 的潛力,因為我對 Dario 也有一些了解,而且他們確實需要有人來幫忙管理,所以我覺得這份工作和我的背景非常契合。我當時心想:「這是一家非營利機構,這裡聚集了一群非常優秀、懷抱美好願景的人,但他們的運作似乎還有些混亂。」而正是這種挑戰讓我感到興奮,因為我可以加入進去。
當時我覺得自己像是一個全能型選手,不僅負責管理團隊成員,還要帶領一些技術團隊,以及擴展組織的管理;我負責組織擴展工作,也曾在語言團隊工作過,後來還接手了一些其他任務。我還參與了一些政策方面的事務,也和 Chris 一起合作過。我覺得公司裡有很多優秀的人才,這讓我特別想加入進來,幫助公司變得更加有效率、更有條理。
Jack Clark:「我記得做完 GPT-3 之後你說「你們聽說過 trust and safety 嗎?」」
Daniela Amodei:「我以前在 Stripe 帶過 trust and safety 團隊。對於像這樣的技術,你們可能需要考慮一下信任與安全這個問題。這其實是人工智慧安全研究(AI Safety Research)和更務實的日常工作之間的一座橋樑,也就是說,如何讓模型變得真正安全。」
提出「這項技術未來會產生重大影響」是非常重要的。同時,我們也需要在日常中開展一些更實際的工作,為將來面對更高風險的情境打下基礎。
負責任的擴展政策:確保 AI 的安全發展
Jack Clark:「這正好聊一聊負責任的擴展策略(RSP,Responsible Scaling Policy)是如何提出的,為什麼我們會想到它,以及我們現在是如何應用它的,特別是考量到我們目前在模型的信任與安全方面所做的工作。那麼,這個 RSP(負責任的擴展策略)是誰最先提出來的?」
Dario Amodei:「最初是我和 Paul Christiano 提出來的,時間大概是在 2022 年底。最開始的想法是,我們是否應該在模型擴展到某個特定規模之前暫時限制它,直到我們找到解決某些安全問題的方法?」
但後來我們覺得,僅僅在某個點上限制擴展,然後再放開限制,這樣的做法有些奇怪。所以我們決定設定一系列門檻,每當模型達到一個門檻時,就需要進行一系列測試,以評估模型是否具備相應的安全能力。
在每達到一個門檻時,我們都需要採取更嚴格的安全和保障措施。不過,最初我們就有一個想法:**如果這件事由第三方來執行,可能會更好。**也就是說,這種策略不應該由某一家公司單獨負責,否則其他公司可能就不願意採納這一策略。因此,Paul 親自設計了這個策略。當然,隨著時間的推移,其中的許多細節也發生了變化。而我們團隊這邊則一直在研究,如何讓這個策略更好地運作。
當 Paul 把這個概念整理成型後,他幾乎是在宣布這個概念的同時,我們也在一兩個月內發布了自己的版本。其實,我們團隊中的很多成員都深度參與了這個過程。我記得自己至少寫過其中的一個初稿,但整份文件經歷了多次修訂。
Tom Brown:「RSP 對於 Anthropic 來說,就像是我們的「憲法」。它是一份具有指導意義的核心文件,因此我們願意投入大量時間和精力來反覆打磨,確保它的準確性和完善性。」
Daniela Amodei:「我覺得,RSP 在 Anthropic 的發展過程真的非常有趣。它經歷了多個階段,同時也需要多種不同的技能來推動它的實施。比如,有一些宏大的理念,這部分主要由 Dario、Paul、Sam 和 Jared 等人負責,他們在思考:「我們的核心原則是什麼?我們想要傳遞什麼樣的資訊?我們如何確定自己的方向是正確的?」」
但除此之外,還有非常實際的操作層面的工作,比如在不斷迭代的過程中,我們會評估並調整一些細節。比如,我們原本預計在某個安全等級下會達到某些目標,但如果沒有實現,我們就會重新評估,並確保我們能夠對自己的工作結果負責。
此外,還有很多與組織架構相關的調整。比如,我們決定重新設計 RSP 的組織結構,以便更清晰地劃分責任。我很喜歡用憲法來類比這份文件的重要性。就像美國為了確保憲法的落實,建立了法院、最高法院、總統、參眾兩院等一整套制度和機構。雖然這些機構還承擔著其他職責,但它們的存在在很大程度上是為了維護憲法,而我們在 Anthropic 的 RSP 也在經歷類似的過程。
**Sam McCandlish:「我認為,這其實反映了我們對安全問題的一種核心觀點:安全問題是可以解決的。**這是一項非常複雜且艱鉅的任務,需要投入大量時間和精力。」
就像汽車安全領域一樣,相關的制度和機構是經過多年的發展才建立起來的。但我們現在面臨的問題是:**我們是否有足夠的時間來完成這些工作?**因此,我們必須盡可能快速地找出 AI 安全所需的關鍵制度,並先在我們這裡建立起來,同時確保這些制度可以被其他地方借鑑和推廣。
Dario Amodei:「這也有助於組織內部的協作統一,因為如果組織中有任何部分的行為不符合我們的安全價值觀,RSP 就會以某種方式將問題暴露出來,對吧?RSP 會阻止他們繼續推進那些不符合安全標準的計畫。因此,它也成為一個不斷提醒每個人的工具,確保安全性成為產品開發和規劃過程中的基本要求。我們並不是在空談一些口號,而是實實在在地把安全融入到每一個環節。如果有人加入團隊後無法認同這些原則,他們就會發現自己無法融入。要麼適應這個方向,要麼就會發現難以繼續下去。」
Jack Clark:「隨著時間的推移,RSP 變得越來越重要。我們為它投入了數千小時的工作,而當我向參議員們解釋 RSP 時,我說:「我們制定了一些措施,確保我們的技術既不容易被濫用,同時也能夠保證安全。」他們的反應通常是:「這聽起來很正常。難道不是每家公司都這樣做嗎?」這讓我有些哭笑不得,其實並不是每家公司都這樣做。」
Daniela Amodei:「**此外我認為除了推動團隊的價值觀一致性之外,RSP 也增強了公司的透明度。**因為它清楚地記錄了我們的目標是什麼,公司內部的每個人都能理解,同時外部的人也能清楚地知道我們在安全方面的目標和方向。雖然它還不完美,但我們一直在不斷優化和改進它。」
我覺得明確指出「我們關注的核心問題是什麼」,我們不能隨便用「安全」這個詞來左右工作進展,比如說「因為安全問題,我們不能做某件事」或者「因為安全問題,我們必須做某件事。」我們真正的目標是讓大家清楚地知道我們所指的安全是什麼。
Dario Amodei:「從長遠來看,真正損害安全的往往是那些頻繁的「安全演練」。我曾說過:「如果有一棟大樓,每週都會響起火警警報,那這其實是一棟非常不安全的建築。」因為當真正發生火災時,可能沒人會在意。我們必須非常注重警報的準確性和校準。」
Chris Olah:「換個角度來看,我覺得 RSP 在很多層面上都創造了健康的激勵機制。比如在公司內部,RSP 將每個團隊的激勵機制與安全目標對齊,這意味著,如果我們在安全方面沒有取得足夠進展,相關工作就會被暫停。」
而在外部,RSP 也比其他方法更能創造健康的激勵機制。比如說,如果有一天我們必須採取一些重大行動,比如承認「我們的模型已經發展到某個階段,但我們還無法確保它的安全性」,那麼 RSP 提供了一個清晰的框架和證據來支持這個決定。這種框架事先就已存在,且清晰易懂。回想起我們討論 RSP 早期版本時,我並沒有完全意識到它的潛力,但現在我認為它確實比我能想到的其他方法更有效。」
Jared Kaplan:「我同意這些觀點,但我覺得這可能低估了我們在制定正確政策、評估標準以及劃定界限時所面臨的挑戰。我們已經在這些方面進行了大量迭代,並且仍在繼續優化。一個困難的問題是,對於一些新興技術,有時很難明確地判斷它是危險的還是安全的。很多時候,我們會遇到一個巨大的灰色地帶。這些挑戰讓我在 RSP 開發初期感到非常興奮,現在仍然如此。但與此同時,我也意識到,要清晰地落實這一策略並讓它真正發揮作用,比我最初想像的要更複雜、更具挑戰性。」
Sam McCandlish:「灰色地帶是無法完全預測的,因為它們無處不在。只有當你真正開始實施時,才能發現問題所在。因此,我們的目標是盡早落實所有內容,這樣我們就能盡快發現潛在問題。」
Dario Amodei:「你必須進行三到四次迭代才能真正做到完美,迭代是一個非常強大的工具,你幾乎不可能第一次就完全正確,所以如果面臨的風險在不斷增加,你需要盡早完成這些迭代,而不是等到最後。」
Jack Clark:「同時,你還需要建立內部的制度和流程。雖然具體細節可能會隨著時間而變化,但培養團隊的執行能力才是最為重要的。」
Tom Brown:「我負責 Anthropic 的運算資源管理,對我來說我們需要與外部的利害關係者進行溝通;不同的外部人士對技術發展的速度有著不同的看法。我一開始也認為技術不會發展得那麼快,但後來我的看法改變了,所以我非常理解這一點。我覺得 RSP 對我來說特別有用,尤其是在與那些認為技術發展會比較緩慢的人交流時。我們可以告訴他們:「在技術發展到非常緊急的程度之前,我們不需要採取極端的安全措施。」如果他們說:「我認為事情在很長一段時間內都不會變得緊急。」我就可以回應說:「好,那我們暫時不需要採取極端的安全措施。」這讓與外界的溝通變得更加順暢。」
Jack Clark:「那麼,RSP 還在哪些方面對大家產生了影響呢?」
Sam McCandlish:「一切都圍繞評估,每個團隊都在進行評估。比如你的訓練團隊一直在做評估工作,我們試圖確定這個模型是否已經變得足夠強大,以至於可能帶來危險。」
Daniela Amodei:「這其實意味著我們需要根據 RSP 的標準來衡量模型的表現,包括檢查是否存在可能引發我們擔憂的跡象。」
Sam McCandlish:「評估模型的最低能力相對容易,但評估模型的最高能力則非常困難。因此,我們投入了大量的研究精力,嘗試回答這樣的問題:「這個模型是否能夠執行某些危險的任務?是否存在我們尚未考慮到的某些方法,比如思維導圖、最佳事件(best event)或某些工具的使用;這些會不會讓模型能夠執行一些非常危險的行為?」」
Jack Clark:「在政策制定過程中,這些評估工具非常有幫助。因為「安全」是一個非常抽象的概念,而當我說:「我們有一個評估工具,它決定了我們是否可以部署這個模型。」然後,我們就可以與政策制定者、國家安全專家以及 CBRN(化學、生物、輻射與核領域)的領域專家合作,共同制定精確的評估標準。如果沒有這些具體工具,這些合作可能根本無法實現。但一旦有了明確的標準,人們就會更願意參與進來,幫助我們確保其準確性。所以在這方面,RSP 的作用非常顯著。」
Daniela Amodei:「RSP 對我來說也非常重要,而且經常影響我的工作。我覺得有趣的是,我思考 RSP 的方式有點特別,更多是從它的「語氣」出發,就是它的表達方式。最近我們對 RSP 的語氣進行了大幅調整,因為之前的語氣太過技術化,甚至有些對立的感覺。我花了很多時間思考,如何構建一個讓人們願意參與其中的體系。」
如果 RSP 是一份公司裡每個人都能輕鬆理解的文件,那就會好得多。就像我們現在的 OKR(目標與關鍵結果)一樣。比如,RSP 的主要目標是什麼?我們怎麼知道是否達到了目標?目前的 AI 安全等級(ASL)是多少?是 ASL-2 還是 ASL-3?如果每個人都知道需要關注的重點,那麼發現潛在問題就會變得更容易。相反,如果 RSP 過於技術化,只有少數人能夠理解,那它的實際效用就會大打折扣。
很高興能夠看到 RSP 正在朝一個更易理解的方向發展。現在,我認為公司裡的大多數人,甚至可能是所有人,無論他們的職位是什麼,都能讀懂這份文件,並且覺得:「這很合理。我希望我們在以下這些原則的指導下開發 AI,而且我也明白為什麼要關注這些問題。如果我在工作中遇到問題,我大致知道該注意什麼。」我們希望讓 RSP 足夠簡單,像是在製造工廠工作的人能夠輕鬆判斷:「安全帶應該連在這裡,但現在沒有連到位。」從而及時發現問題。
關鍵在於建立一個健康的回饋機制,使領導層、董事會、公司其他部門以及實際從事研發工作的團隊之間能夠順暢交流。我認為,大多數問題的產生往往是因為溝通不暢或資訊傳遞出現偏差。如果問題只是因為這些原因而出現,那將是非常遺憾的,對吧?最終,我們需要做的就是把這些理念切實付諸實踐,並確保它們簡單明瞭,便於每個人理解。
Anthropic 的創立故事
Sam McCandlish:「其實我們中沒有誰一開始就有創辦公司的意願。我們只是覺得這是我們的責任,我們必須採取行動,因為這是確保 AI 發展朝著正確方向前進的唯一途徑,這也是我們為什麼會做出那個承諾的原因。」
Dario Amodei:「我最初的想法很簡單,我只是希望透過某種有益的方式去發明和探索新事物。這種想法引導我進入了 AI 領域,而 AI 的研究需要大量的工程技術支持,最終也需要大量的資金支持。」
然而,我發現如果沒有一個明確的目標和規劃來設立公司和管理環境,很多事情雖然會被完成,但卻會重複科技產業中那些讓我感到疏離的錯誤。這些錯誤往往源於相同的人、相同的態度和相同的思維模式。所以在某個時刻,我意識到我們必須用一種全新的方式來做這件事,這幾乎是不可避免的。
Jared Kaplan:「還記得我們在研究生院的時候,你曾經有一個完整的計畫,試圖探索如何透過科學研究促進公共利益。我覺得這和我們現在的思路非常相似。我記得你當時有一個叫「Project Vannevar」的專案,目標就是實現這一點。我當時是個教授,我觀察了當時的情況,並深信 AI 的影響力正在以一種極快的速度增長。」
然而,由於 AI 研究對資金的高需求,再加上身為一名物理學教授,我意識到自己無法單靠學術研究推動這些進展。我希望能夠和值得信賴的人一起,建立一個機構,確保 AI 的發展能夠朝著正確的方向前進。但老實說,我從來不會建議別人去創辦一家公司,也從未有過這樣的願望。對我來說,這只是一種實現目標的手段而已。我認為通常情況下,成功的關鍵在於你真正關心實現一個對世界有意義的目標,然後找到實現這個目標的最佳手段。
如何打造信任文化
Daniela Amodei:「我經常思考我們作為團隊的策略優勢,其中一個可能聽起來有些意外,但卻非常重要的因素就是我們之間的高度信任。要讓一大群人擁有共同的使命是非常困難的,但是在 Anthropic,我們能夠成功地將這種使命感傳遞給越來越多的人。在這個團隊裡,包括領導層和所有成員,大家都因共同的使命而聚集在一起。我們的使命既清晰又純粹,在科技產業中這樣的情況並不常見。」
我覺得我們正在努力實現的目標充滿了一種純粹的意義,我們沒有人是因為想要創辦公司而開始的。我們只是覺得必須這麼做。我們無法在原來的地方繼續推進我們的工作,必須靠自己來完成這件事。
Jack Clark:「當時,隨著 GPT-3 的出現,以及我們所有人都接觸過或參與過的計畫,例如擴展法則(scaling laws)等等,我們在 2020 年已經清楚地看到了 AI 的發展趨勢。我們意識到,如果不盡快採取行動,可能很快就會到達一個不可逆轉的臨界點。我們必須採取行動,才能對這個環境產生影響。」
Tom Brown:「我想延續 Daniela 的觀點,我確實認為團隊內部存在著高度的信任。我們每個人都清楚,我們加入這個團隊是因為我們想為世界做出貢獻。我們還共同承諾將收入的 80% 捐贈給能夠推動社會發展的事業,這是一件大家都毫不猶豫支持的事情:「是的,我們當然會這麼做。」這種信任是非常特別且稀有的。」
Daniela Amodei:「我覺得 Anthropic 是一間政治色彩非常淡薄的公司。当然,我們的視角可能與一般人有所不同,我也時刻提醒自己這一點。我認為,我們的招聘流程和團隊成員的特質,使得這裡的文化幾乎天然排斥「辦公室政治」。」
Dario Amodei:「還有團隊的團結性,團隊的團結性至關重要。無論是產品團隊、研究團隊、信任與安全團隊、行銷團隊還是政策團隊,大家都在為實現公司同一個目標而努力。當公司內部的不同部門各自追求完全不同的目標時,往往會導致混亂。如果他們認為其他部門在破壞自己的工作,那更是不正常的現象。」
我認為,我們最重要的成就之一是成功地維持了公司的整體一致性。像 RSP 這樣的機制在其中發揮了重要作用。這種機制確保公司內部不是某些部門在製造問題,而其他部門在試圖修復問題;而是所有部門都在履行各自的職能,並在統一的變革理論(theory of change)框架下協同工作。
Chris Olah:「我最初加入 OpenAI 是因為它是非營利組織,我可以在那裡專注於 AI 安全研究。但隨著時間的推移,我逐漸發現這種模式並不完全適合我,也迫使我做出一些艱難的決定。在這個過程中,我非常信任 Dario 和 Daniela 的判斷,但我並不想離開。因為我認為增加更多 AI 實驗室未必對世界有利,這讓我對離開感到非常猶豫。」
當我們最後決定離開時,我對創辦一家公司仍然持保留態度。我曾主張,我們應該成立一個非營利機構,專注於安全研究。但最終,務實的態度和對現實限制的坦承讓我們意識到,創辦 Anthropic 是實現我們目標的最佳方式。
Dario Amodei:「我們早期學到的一個重要教訓是:少做承諾,多兌現承諾。保持現實,直面權衡取捨,因為信任和信譽比任何具體政策都更加重要。」
Daniela Amodei:「**Anthropic 的一個獨特之處在於團隊的高度信任和一致性。**例如,當我看到 Mike Krieger 因安全原因堅持不發布某些產品時,同時看到 Vinay 在討論如何平衡業務需求以推動計畫完成時,我感到非常特別。此外,技術安全團隊、推理團隊的工程師也在討論如何確保產品既安全又實用。這種一致的目標和務實的態度,是 Anthropic 工作環境中最吸引人的地方之一。」
Dario Amodei:「**一個健康的組織文化在於,每個人都能理解並接受共同面臨的權衡取捨。**我們生活的世界並不完美,每個決策都需要在不同的利益之間找到平衡,而這種平衡往往不可能完全令人滿意。然而只要整個團隊都能在統一的目標下,共同面對這些權衡,並從各自的崗位出發為整體目標貢獻力量,這才是一個健康的生態系統。」
**Sam McCandlish:「**某種意義上,這是一場「向上的競賽」。是的,這確實是一場「向上的競賽」。雖然這並不是一個完全沒有風險的選擇,事情可能會出錯,但我們都一致認為:「這就是我們所做的選擇。」」
競逐 AI 的巅峰
Jack Clark:「但市場本質上是務實的,因此,Anthropic 作為一家公司越成功,其他人就越有動力去效仿那些讓我們取得成功的做法。而且,當我們的成功與我們在安全領域的實際工作緊密相關時,這種成功會在業界形成一種「引力」,促使其他公司也加入到這場競爭中。就像我們開發了安全帶,其他公司也可以效仿,這是一個健康的生態。」
Dario Amodei:「但是,如果你說:「我們不會開發這項技術,而你也無法比其他人做得更好。」這種方式行不通,因為你沒有證明從現狀到未來的路徑是可行的。世界需要的是,無論是產業還是一家公司的層面,都需要找到一種方法,讓社會能夠從「技術不存在」過渡到「技術以強大的形式存在,並且被社會有效地管理」。我認為,唯一能實現這個目標的方式,是在單一公司層面,甚至最後在整個產業層面,直面這些權衡。」
**你需要找到一種方法,既能保持競爭力,甚至在某些領域引領產業,同時又能確保技術的安全性。**如果你能做到這一點,那麼你對產業的吸引力將會非常強大。從監管環境,到希望加入不同公司的優秀人才,甚至到客戶的看法,所有這些因素都會推動產業朝著同樣的方向發展。如果你能證明,在不犧牲競爭力的情況下也能實現安全性,也就是找到那些雙贏的解決方案,那麼其他公司也會受到激勵,效仿這種做法。
Jared Kaplan:「我認為,這就是為什麼像 RSP 這樣的機制如此重要的原因。我們能清晰地看到技術的發展方向,並意識到需要對某些問題保持高度警惕,但同時我們也必須避免發出「狼來了」的錯誤警報,不能簡單地說:「創新應該在這裡停止。」我們需要找到一種方法,使 AI 技術能夠為客戶帶來有用、創新且令人愉悅的體驗,同時明確我們必須堅持的限制條件;這些條件既能確保系統的安全性,也能讓其他公司相信,他們也可以在安全的前提下實現成功,並與我們競爭。」
Dario Amodei:「幾個月後,隨著我們推出 RSP,三家最知名的 AI 公司也紛紛推出了類似的機制。可解釋性研究是我們另一個取得突破的領域。此外,我們還與 AI 安全研究機構展開合作,這種整體對安全的關注正在產生深遠的影響。」
Jack Clark:「是的,Frontier Red Team 幾乎立刻被其他公司模仿了。這是好事,我們希望所有實驗室都能測試那些潛在的高風險安全隱患。」
Daniela Amodei:「Jack 之前也提到過,客戶也非常關心安全問題。客戶不希望模型產生虛假資訊,也不希望模型容易被繞過安全限制。他們希望模型是有用且無害的。我們在跟客戶溝通時經常聽到他們說:「我們選 Claude,因為我們知道它更安全。」我認為,這對市場的影響是巨大的。我們能夠提供值得信賴和可靠的模型,也給競爭對手帶來了不小的市場壓力。」
Chris Olah:「或許可以進一步展開 Dario 剛才的觀點。有一種說法認為,最道德的行為是「崇高的失敗」。也就是說,你應該為了安全而犧牲其他目標,甚至以一種不切實際的方式去行動,以此來展示自己對事業的純粹性。但我認為,這種方式實際上是自我挫敗的。」
首先,這種方式會導致決策權落入那些不重視安全、不優先考慮安全的人手中。另一方面,如果你努力尋找一種方法,把激勵機制對齊,把艱難的決策放在最有力量支持正確決策的地方,並以最有力的證據作為基礎,那麼你就可以觸發 Dario 描述的「向上的競賽」。在這場競賽中,不是關心安全的人被邊緣化,而是其他人被迫跟隨你的步伐,加入到這場競賽中。
展望人工智慧的未來
Jack Clark:「那麼,對於我們接下來要做的事情,你們都感到興奮的是什么呢?」
Chris Olah:「我覺得有很多理由讓人對可解釋性感到興奮。一個顯然是出於安全的考量,但還有另一個原因,我覺得在情感層面上,這同樣讓我感到興奮或意義非凡,那就是我認為神經網路非常美妙,而且其中有許多我們還沒有看到的美。我們總是把神經網路當作一個黑盒子,對它的內部結構並不特別感興趣,但當你開始深入研究它們時,就會發現它們內部充滿了令人驚嘆的結構。」
這有點像人們看待生物學時的態度,有些人可能會覺得:「進化很無聊,它只是一个簡單的過程,運行了很長時間,然後創造了動物。」但實際上,進化所創造的每一個動物都充滿了令人難以置信的複雜性和結構。而我認為,進化是一種優化過程,就像訓練一個神經網路一樣。神經網路內部也有一整套類似於「人工生物學」的複雜結構。如果你願意深入研究它們,你會發現其中有許多令人驚嘆的東西。
我覺得,我們才剛開始慢慢揭開它的面紗。它是如此令人難以置信,裡面有太多東西等待我們去發現。我們才剛開始打開它的大門,我覺得接下來的發現會非常精彩和美妙。有時我會想像,十年後走進一家書店,買一本關於神經網路可解釋性的教科書,或者一本真正講述神經網路「生物學」的書,書中會有各種令人驚嘆的內容。我相信,在未來十年,甚至未來幾年,我們會開始真正地發現這些東西,這將是一段瘋狂而令人驚嘆的旅程。
Jack Clark:「幾年前,如果有人說:「政府將會設立新的機構來測試和評估 AI 系統,而且這些機構會非常專業並發揮作用。」你可能不會相信這是真的。但這已經發生了。可以說,政府已經建立了應對這種新型技術類別的「新大使館」。我很期待看到這會走向何方。我認為,這實際上意味著國家有能力應對這樣的社會轉型,而不只是依靠企業;我很高興能夠參與其中。」
Daniela Amodei:「我現在已經對這一點感到興奮了,但我覺得,只要想像一下未來 AI 能夠為人類做些什麼,就很難不感到激動。即使是現在 Claude 能夠協助開發疫苗、進行癌症研究和生物學研究的跡象,也已經令人感到不可思議。看到它現在能做的事情已經很驚人,而當我展望未來三到五年時,想像 Claude 能夠真正解決許多我們人類面臨的根本性問題,尤其是在健康領域,也讓我感到非常興奮。回想起我曾經從事國際發展工作的日子,如果當時 Claude 能夠幫助完成我當時效率低下的工作,那將是多麼令人驚嘆的事情。」
Tom Brown:「我想,從個人角度來說,我非常喜歡在工作中使用 Claude。所以,最近我在家裡也經常用 Claude 和它聊一些事情。最近最大的變化是程式碼。六個月前,我還沒有用 Claude 來處理任何編程相關的工作,我們的團隊當時也很少用 Claude 來寫程式,但現在這種情況已經出現了顯著變化。比如,上週我在 Y Combinator 舉辦的一次活動上做了一個演講。剛開始時,我問大家:「現在有多少人用 Claude 來編程?」結果幾乎 95% 的人都舉起了手。幾乎全場的人都舉手了,這和四個月前的情況完全不同。」
Dario Amodei:「當我思考讓我感到興奮的事情時,我會想到例如我之前提到的似乎已經達成共識,但其實這個共識即將被打破的地方,其中之一就是可解釋性。我認為,可解釋性不僅是引導和確保 AI 系統安全的關鍵,它還包含了關於智能優化問題和人類大腦運作原理的深刻洞見。我曾說過 Chris Olah 將來會獲得諾貝爾醫學獎。」
因為我曾經是一名神經科學家,而許多我們尚未解決的心理疾病,比如精神分裂症或情緒障礙,我懷疑它們與某種更高層次的系統問題有關。然而,由於人腦的複雜性和難以直接研究的特性,這些問題很難被完全理解。而神經網路雖然不是一個完美的類比,但它們不像人腦那麼難以解析和互動。隨著時間的推移,神經網路將成為一個更好的類比工具。
另一個相關的領域是 AI 在生物學中的應用。生物學是一個極其複雜的問題,出於多種原因人們對它仍然抱持懷疑態度,但我認為這種懷疑的共識開始瓦解了。我們已經看到化學領域的諾貝爾獎授予了 AlphaFold,這是一個了不起的成就,我們應該努力開發能夠幫助我們創造出數百個「AlphaFold」的工具。
最後一點是,利用 AI 來增強民主。我們擔心如果 AI 被錯誤地開發,它可能會成為獨裁主義的工具。**那麼,如何讓 AI 成為促進自由和自決的工具?**我認為,這個領域的發展可能比前兩個領域要早一些,但它的重要性絲毫不亞於前兩者。
Jared Kaplan:「我想至少有兩點可以呼應你之前的觀點。**一點是,我覺得很多人之所以加入 Anthropic,是因為他們對 AI 科學抱有極大的好奇心。**隨著 AI 技術的進步,他們逐漸認同了我們不僅需要推動技術發展,還需要更深入地理解它,並確保它的安全性。我覺得能夠和越來越多對 AI 發展和責任感有共同願景的人一起工作,是一件令人興奮的事情,而且我覺得過去一年中發生的許多技術進步,確實推動了這種共識的形成。」
**另一個方面是,回到實際問題上,我覺得我們在 AI 安全方面已經做了很多工作。**但隨著最近的一些發展,我們開始對那些非常高級的系統可能帶來的風險有了一些初步認識。這使得我們可以透過可解釋性研究和其他類型的安全機制,直接研究並調查這些風險。
透過這種方式,我們能夠更清晰地了解高級 AI 系統可能帶來的風險,這將使我們能夠以更加科學和實證的方式推進我們的使命。因此,我對接下來六個月感到非常興奮,我們將利用對高級系統潛在問題的理解,進一步研究並找到避免這些陷阱的方法。
原影片連結
點擊了解律動 BlockBeats 在招崗位
歡迎加入律動 BlockBeats 官方社群:
Telegram 訂閱群:https://t.me/theblockbeats
Telegram 交流群:https://t.me/BlockBeats_App
Twitter 官方帳號:https://twitter.com/BlockBeatsAsia