一周兩次事故後，回顧Anthropic七位聯合創始人一年前如何談論「安全」

区块律动

2026-04-02 04:50:53

原影片標題：Building Anthropic | A conversation with our co-founders
原影片來源：Anthropic
原文編譯：深潮 TechFlow

要點總結

過去一週，Anthropic 連續出了兩次事故：

先是內部近 3000 份文件因 CMS 設定錯誤被公開存取，緊接著 Claude Code v2.1.88 在 npm 發布時夾帶了 59.8MB 的 source map，51 萬行原始碼直接裸奔。

一家把「安全」寫進基因的公司，在自家營運上連續翻車，諷刺感拉滿。

但在急著嘲諷之前，不妨回頭聽聽 Anthropic 七位聯創一年多前的一次內部對談。這期播客錄於 2024 年 12 月，七個人聊了這家公司是怎麼建立起來的、RSP（Responsible Scaling Policy，直譯「負責任的擴展政策」）是怎麼磨出來的、「安全」這個詞為什麼不能隨便用、以及 CEO Dario 那句被反覆引用的話：

「如果一棟樓每週都響起火警，那它其實是一棟非常不安全的建築。」

現在再聽這句話，滋味確實不太一樣。

七位聯創，快速認臉

Dario Amodei｜CEO，前 OpenAI 研究副總裁，神經科學出身，Anthropic 戰略和安全路線的最終拍板人。這場對話裡發言最多。

Daniela Amodei｜總裁，Dario 的姊姊。此前在 Stripe 做了五年半，帶過信任與安全團隊，更早在非營利和國際發展領域工作。Anthropic 的組織搭建和對外溝通基本由她主導。

Jared Kaplan｜物理學教授轉 AI 研究者，scaling laws 核心作者之一。經常從局外人視角提供判斷，自稱當初做 AI 是因為「做物理做膩了」。

Chris Olah｜可解釋性（interpretability）研究的代表人物，19 歲進灣區 AI 圈，先後在 Google Brain 和 OpenAI 工作。Anthropic 裡技術理想主義色彩最濃的人。

Tom Brown｜GPT-3 論文一作，現在管 Anthropic 的算力資源。視角偏工程和基礎設施，播客裡聊了不少他從「不太信 AI 會這麼快」到改變看法的過程。

Jack Clark｜前彭博科技記者，Anthropic 政策與公共事務負責人。這場對話裡充當主持人，負責串場和追問。

Sam McCandlish｜研究聯創，全場發言最少但經常一句話點到要害，屬於「補刀位」。

精彩觀點摘要

為什麼做 AI：從物理無聊到「看夠了就信了」

Jared Kaplan：「我之前做了很久物理，有點無聊了，也想和更多朋友一起工作，所以就做 AI 了。」

Dario Amodei：「我不覺得我有明確說服過你，我只是一直給你看 AI 模型結果。到某個時候，我給你看得夠多了，你就說『嗯，這看起來是對的』。」

逆共識下注：大多數共識是羊群效應偽裝成了成熟

Jared Kaplan：「很多 AI 研究者被 AI 寒冬心理上傷得很重，好像有野心是不被允許的。」

Dario Amodei：「我過去十年最深教訓是：很多『大家都知道』的共識，其實是羊群效應偽裝成了成熟。你見過幾次共識被一夜翻轉後，就會說：不，我們就押這個。哪怕你只有 50% 正確，也會貢獻很多別人沒貢獻的東西。」

安全與規模化是纏繞在一起的

Dario Amodei：「我們當時把模型擴大的動機之一，就是模型得先足夠聰明，RLHF 才能做起來。這就是我們現在仍然相信的：安全和規模化是纏繞在一起的。」

RSP，負責任的擴展政策是 Anthropic 的「憲法」

Tom Brown：「RSP 對於 Anthropic 來說，就像是我們的憲法。它是一份具有指導意義的核心文件，因此我們願意投入大量時間和精力來反覆打磨。」

Dario Amodei：「RSP 會阻止不符合安全標準的計畫繼續推進。我們不是在空談口號，而是實實在在地將安全融入到每一個環節。」

火警響太多次，真著火就沒人跑了

Daniela Amodei：「我們不能隨便用『安全』這個詞來左右工作進展。我們真正的目標是讓大家清楚地知道我們所指的安全是什麼。」

Dario Amodei：「真正損害安全的往往是那些頻繁的『安全演練』。如果有一棟大樓，每週都會響起火警警報，那這其實是一棟非常不安全的建築。」

「崇高的失敗」是個陷阱

Chris Olah：「有一種說法認為，最道德的行為是為了安全而犧牲其他目標，以此來展示自己對事業的純粹性。但這種方式實際上是自我挫敗的。因為這會導致決策權落入那些不重視安全的人手中。」

聯創們承諾捐出 80% 收入

Tom Brown：「我們共同承諾將收入的 80% 捐贈給能推動社會發展的事業，這是大家都毫不猶豫支持的事。」

沒人想創業，但覺得必須這麼做

Sam McCandlish：「其實我們中沒有誰一開始就有創辦公司的意願。我們只是覺得這是我們的責任，因為這是確保 AI 發展朝著正確方向前進的唯一途徑。」

Daniela Amodei：「我們的使命既清晰又純粹，在科技產業中這樣的情況並不常見。」

可解釋性：神經網路裡藏著一整套「人工生物學」

Chris Olah：「神經網路非常美妙，其中有許多我們還沒有看到的美。我有時會想像，十年後走進一家書店，買一本關於神經網路生物學的教科書，書中會有各種令人驚嘆的內容。」

AI 用於強化民主，而不是成為獨裁工具

Dario Amodei：「我們擔心如果 AI 被錯誤地開發，它可能會成為獨裁主義的工具。如何讓 AI 成為促進自由和自決的工具？這個領域的重要性絲毫不亞於生物學和可解釋性。」

從白宮會議到諾貝爾獎：AI 的影響力早就超出了技術圈

Jared Kaplan：「2018 年你不會想到總統會叫你去白宮說他們在關注語言模型。」

Dario Amodei：「我們已經看到化學領域的諾貝爾獎授予了 AlphaFold，我們應該努力開發能夠幫助我們創造出數百個 AlphaFold 的工具。」

為什麼要研究 AI？

Jack Clark：我們為什麼一開始要做 AI？Jared 你為什麼做 AI？

Jared Kaplan：「我之前做了很久物理，有點無聊了，也想和更多朋友一起工作，所以就做 AI 了。」

Tom Brown：「我還以為是 Dario 說服你的。」

Dario Amodei：「我不覺得我有明確『說服』過你，我只是一直給你看 AI 模型結果，想表達它們很通用，不只適用於單一問題。到某個時候，我給你看得夠多了，你就說『嗯，這看起來是對的』。」

Jack Clark：Chris，你做可解釋性研究那會兒，是在 Google 認識大家的嗎？

Chris Olah：「不是。其實我 19 歲第一次來灣區時就認識了你們中的不少人。我那時見到 Dario 和 Jared，他們是博士後，在當時我覺得特別酷。後來我在 Google Brain，Dario 加入後我們還並排坐過一陣子，我也和 Tom 一起工作過，之後去 OpenAI 就和你們所有人一起做事了。」

Jack Clark：「我記得我 2015 年在一個會議上見到 Dario 想採訪你，Google PR 還說我要先把你論文都讀完。」

Dario Amodei：「我當時在 Google 寫《Concrete Problems in AI Safety》。」

Sam McCandlish：「我開始和你共事之前，你還邀我去辦公室聊，像是把 AI 整體講了一遍。我記得聊完後我想：『原來這事比我意識到的嚴肅得多。』你當時講了『大算力團塊』、參數數目、人腦神經元規模這些。」

突破性的擴展

**Jack Clark：**我記得在 OpenAI 做 scaling laws 時，把模型做大開始真的有效，而且在好多計畫上都持續、詭異地有效，從 GPT-2 到 scaling laws 到 GPT-3，我們就這樣越走越近。

Dario Amodei：「我們就是那團『把事做成的人』。」

Jared Kaplan：「我們也都很興奮於安全，那會兒有個想法：AI 會很強，但可能不理解人類價值，甚至不能和我們溝通。語言模型某種程度上能保證它得理解很多隱性知識。」

Dario Amodei：「還有語言模型之上的 RLHF，我們當時把模型擴大的動機之一，就是模型得先足夠聰明，RLHF 才能做起來。這就是我們現在仍然相信的：安全和規模化是纏繞在一起的。」

Chris Olah：「對，當時 scaling 工作其實也是安全團隊的一部分。因為我們覺得，想讓人認真對待安全，首先要能預測 AI 趨勢。」

**Jack Clark：**我記得我在英國某個機場，從 GPT-2 取樣寫假新聞，然後在 Slack 上發給 Dario 說「這真能用，可能有巨大的政策影響」，我記得 Dario 回覆是「是的」。

之後我們也做了很多跟發布相關的工作，那很瘋狂。

Daniela Amodei：「我記得發布那段，那是我們第一次真正開始合作，GPT-2 當時發布。」

Jack Clark：「我覺得那對我們很有幫助。我們先一起做了一個『有點奇怪但安全導向』的事，後來又一起做了 Anthropic，一個更大規模、同樣有點奇怪但安全導向的事。」

AI 的起步階段

Tom Brown：「回到《Concrete Problems》這篇文章上來。我 2016 年進 OpenAI 當時你我都是最早那批人，我當時覺得那篇像是第一篇主流 AI 安全論文。它怎麼來的？」

Dario Amodei：「Chris 知道，他參與了。我們那時在 Google，我都忘了我當時主題項目是什麼了，這篇像是我拖延出來的。」

我們想寫下 AI 安全有哪些開放問題。當時 AI 安全總被講得很抽象，我們想把它落到當時真實的 ML 上。現在已經有六七年這條線工作了，但那會兒這就是個怪想法。

Chris Olah：「我覺得它某種意義上幾乎是個政治計畫。那時很多人不把安全當回事。我們想整理一份大家認可合理的問題清單，很多本來就存在於文獻裡，然後找跨機構有公信力的人共同署名。」

我記得我花了很長時間，和 Brain 裡二十多個研究者溝通，為了發表爭取支持。如果只看問題本身，今天回頭看未必都成立，可能不是最對的問題。但如果把它當成共識建設：證明「這裡有真正的問題，值得認真對待」，那它就是個重要時刻。

Jack Clark：「最終你會進入一個非常奇特的科幻世界。我記得 Anthropic 早期談 Constitutional AI，Jared 說「我們給語言模型寫一部憲法，它行為就會變」。當時聽起來很瘋狂。為什麼你們覺得可行？」

Jared Kaplan：「我跟 Dario 討論了很久，我覺得 AI 裡簡單方法常常效果極好。最早版本挺複雜，後來不斷削減，最後變成：利用模型擅長做選擇題這點，給它明確提示告訴它要找什麼就夠了，然後我們可以把原則直接寫下來。」

Dario Amodei：「這回到「大算力團塊」（The Big Blob of Compute）「慘痛教訓」（The Bitter Lesson）「規模化假設」（Scaling Hypothesis）：**只要你能給 AI 一個清晰目標與資料，它就能學會。一組指令、一組原則，語言模型能讀它們，也能把它們和自身行為對照，訓練目標就在那兒。**所以我和 Jared 的看法是：有辦法做成，只要細節反覆調。」

Jared Kaplan：「對我來說早期很奇怪。我從物理轉來，現在大家都興奮於 AI，容易忘了當時氛圍。我當時和 Dario 聊這些，感覺很多 AI 研究者被 AI 寒冬心理上傷得很重，好像「有野心」是不被允許的。討論安全要先相信 AI 可能非常強、非常有用，但當時有種反野心禁令。物理學家一個優勢是「傲慢」，他們常做很有野心的事，習慣談宏大圖景。」

Dario Amodei：「我覺得這是真的。2014 年很多話就是不能說。這也像學術界普遍的問題，除了某些領域外，機構越來越厭惡風險，工業 AI 也繼承了這心態，我覺得直到 2022 年左右才走出來。」

Chris Olah：「還有「保守」的兩種形式：一種是認真看待風險，另一種是把認真對待並相信想法可能成功視為傲慢。我們當時處於後者主導。歷史上 1939 年核物理討論裡也類似：Fermi 抵觸，Szilard 或 Teller 更認真看待風險。」

Dario Amodei：「我過去十年最深教訓是：很多「大家都知道」的共識，其實是羊群效應偽裝成了成熟。你見過共識幾次一夜翻轉後，就會說：不，我們就押這個。也許不一定對，但忽略噪音去下注。哪怕你只有 50% 正確，也會貢獻很多別人沒貢獻的東西。」

公眾對人工智慧的態度轉變

Jared Kaplan：「今天在一些安全議題上也這樣：外界共識覺得很多安全問題不自然會從技術裡長出來，但我們在 Anthropic 做研究看到它確實會自然長出來。」

Daniela Amodei：「但過去 18 個月這在變，而且世界對 AI 的情緒也在明顯變化。我們做用戶研究時，更常聽到一般用戶擔心 AI 對世界整體的影響。」

有時是工作、偏見、毒性；有時是「它會不會把世界搞亂、改變人類協作方式」。其實這些我都沒完全預料到。

Sam McCandlish：「不知為何，ML 研究圈常比公眾更悲觀於「AI 變很強」。」

Jared Kaplan：「2023 年我和 Dario 去白宮，會議裡 Harris、Raimondo 基本意思是：我們盯著你們，AI 是大事，我們在認真關注，但 2018 年你不會想到「總統會叫你去白宮說他們在關注語言模型」。」

Tom Brown：「有意思的是，我們很多人是這件事看起來還不確定時就入場的，像 Fermi 對原子彈持懷疑態度一樣。有一些證據表明原子彈可能會被製造出來，但也有很多證據表明它不會，但他最終決定一試。因為如果是真的，影響會很大，所以值得做。」

2015-2017 有一些且不斷增加的證據證明 AI 可能是一件大事。我 2016 年和導師聊：我做過創業，想做 AI 安全，但數學不夠強，不知道怎麼辦。當時有人說你得精通決策理論；有人說不會出現瘋狂 AI 事件，真正支持的人很少。

Jack Clark：「我 2014 年做 ImageNet 趨勢報導被當瘋子。2015 年的時候我想寫 NVIDIA 因論文都提 GPU，也被說瘋了；2016 我離開新聞去 AI，還有郵件說「你犯了人生最大錯誤」。當時從很多角度看，認真押注「規模化會成」確實像瘋子。」

Jared Kaplan：「你怎麼決定的？糾結嗎？」

Jack Clark：「我做了個反向下注：提要求做全職 AI 記者並把工資翻倍，我知道他們不會答應。然後睡一覺醒來就辭職。因為我每天都在讀檔案文件，我總覺得有件瘋狂大事在發生，某個時點你就該用高信念下注。」

Tom Brown：「我沒那麼果斷，我搖擺了六個月。」

Daniela Amodei：「而且那時「工程師也能顯著推動 AI」這件事並不主流。當時是「只有研究員才能做 AI」，所以你的猶豫不奇怪。」

Tom Brown：「後來 OpenAI 說「你可以透過工程幫助 AI 安全」，那才讓我加入。Daniela 你在 OpenAI 還是我經理，你當時為什麼加入？」

Daniela Amodei：「我在 Stripe 五年半，Greg 曾是我老闆。我還介紹過 Greg 和 Dario 認識。當時他正在創立 OpenAI，我對他說：「我認識的最聰明的人是 Dario。如果你能讓他加入團隊，那真是你的幸運。」後來，Dario 就加入了 OpenAI。」

或許和你一樣，我也在思考從 Stripe 离開後，自己想做些什麼。我之所以加入 Stripe，是因為之前在非營利組織和國際發展領域工作時，我覺得自己需要更多技能，其實當時我還以為自己最終會回到那個領域。

在加入 Stripe 之前，我覺得自己沒有足夠能力去幫助那些比我條件差的人。所以我在關注其他科技公司，希望找到一種新的方式去產生更大的影響，而當時的 OpenAI 讓我覺得它是個很好的選擇。它是一家非營利組織，致力於實現一個非常重要且具有遠大意義的目標。

我一直很相信 AI 的潛力，因為我對 Dario 也有一些了解，而且他們確實需要有人來幫忙管理，所以我覺得這份工作和我的背景非常契合。我當時心想：「這是一家非營利機構，這裡聚集了一群非常優秀、懷抱美好願景的人，但他們的運作似乎還有些混亂。」而正是這種挑戰讓我感到興奮，因為我可以加入進去。

當時我覺得自己像是一個全能型選手，不僅負責管理團隊成員，還要帶領一些技術團隊，以及擴展組織的管理；我負責組織擴展工作，也曾在語言團隊工作過，後來還接手了一些其他任務。我還參與了一些政策方面的事務，也和 Chris 一起合作過。我覺得公司裡有很多優秀的人才，這讓我特別想加入進來，幫助公司變得更加有效率、更有條理。

Jack Clark：「我記得做完 GPT-3 之後你說「你們聽說過 trust and safety 嗎？」」

Daniela Amodei：「我以前在 Stripe 帶過 trust and safety 團隊。對於像這樣的技術，你們可能需要考慮一下信任與安全這個問題。這其實是人工智慧安全研究（AI Safety Research）和更務實的日常工作之間的一座橋樑，也就是說，如何讓模型變得真正安全。」

提出「這項技術未來會產生重大影響」是非常重要的。同時，我們也需要在日常中開展一些更實際的工作，為將來面對更高風險的情境打下基礎。

負責任的擴展政策：確保 AI 的安全發展

Jack Clark：「這正好聊一聊負責任的擴展策略（RSP，Responsible Scaling Policy）是如何提出的，為什麼我們會想到它，以及我們現在是如何應用它的，特別是考量到我們目前在模型的信任與安全方面所做的工作。那麼，這個 RSP（負責任的擴展策略）是誰最先提出來的？」

Dario Amodei：「最初是我和 Paul Christiano 提出來的，時間大概是在 2022 年底。最開始的想法是，我們是否應該在模型擴展到某個特定規模之前暫時限制它，直到我們找到解決某些安全問題的方法？」

但後來我們覺得，僅僅在某個點上限制擴展，然後再放開限制，這樣的做法有些奇怪。所以我們決定設定一系列門檻，每當模型達到一個門檻時，就需要進行一系列測試，以評估模型是否具備相應的安全能力。

在每達到一個門檻時，我們都需要採取更嚴格的安全和保障措施。不過，最初我們就有一個想法：**如果這件事由第三方來執行，可能會更好。**也就是說，這種策略不應該由某一家公司單獨負責，否則其他公司可能就不願意採納這一策略。因此，Paul 親自設計了這個策略。當然，隨著時間的推移，其中的許多細節也發生了變化。而我們團隊這邊則一直在研究，如何讓這個策略更好地運作。

當 Paul 把這個概念整理成型後，他幾乎是在宣布這個概念的同時，我們也在一兩個月內發布了自己的版本。其實，我們團隊中的很多成員都深度參與了這個過程。我記得自己至少寫過其中的一個初稿，但整份文件經歷了多次修訂。

Tom Brown：「RSP 對於 Anthropic 來說，就像是我們的「憲法」。它是一份具有指導意義的核心文件，因此我們願意投入大量時間和精力來反覆打磨，確保它的準確性和完善性。」

Daniela Amodei：「我覺得，RSP 在 Anthropic 的發展過程真的非常有趣。它經歷了多個階段，同時也需要多種不同的技能來推動它的實施。比如，有一些宏大的理念，這部分主要由 Dario、Paul、Sam 和 Jared 等人負責，他們在思考：「我們的核心原則是什麼？我們想要傳遞什麼樣的資訊？我們如何確定自己的方向是正確的？」」

但除此之外，還有非常實際的操作層面的工作，比如在不斷迭代的過程中，我們會評估並調整一些細節。比如，我們原本預計在某個安全等級下會達到某些目標，但如果沒有實現，我們就會重新評估，並確保我們能夠對自己的工作結果負責。

此外，還有很多與組織架構相關的調整。比如，我們決定重新設計 RSP 的組織結構，以便更清晰地劃分責任。我很喜歡用憲法來類比這份文件的重要性。就像美國為了確保憲法的落實，建立了法院、最高法院、總統、參眾兩院等一整套制度和機構。雖然這些機構還承擔著其他職責，但它們的存在在很大程度上是為了維護憲法，而我們在 Anthropic 的 RSP 也在經歷類似的過程。

**Sam McCandlish：「我認為，這其實反映了我們對安全問題的一種核心觀點：安全問題是可以解決的。**這是一項非常複雜且艱鉅的任務，需要投入大量時間和精力。」

就像汽車安全領域一樣，相關的制度和機構是經過多年的發展才建立起來的。但我們現在面臨的問題是：**我們是否有足夠的時間來完成這些工作？**因此，我們必須盡可能快速地找出 AI 安全所需的關鍵制度，並先在我們這裡建立起來，同時確保這些制度可以被其他地方借鑑和推廣。

Dario Amodei：「這也有助於組織內部的協作統一，因為如果組織中有任何部分的行為不符合我們的安全價值觀，RSP 就會以某種方式將問題暴露出來，對吧？RSP 會阻止他們繼續推進那些不符合安全標準的計畫。因此，它也成為一個不斷提醒每個人的工具，確保安全性成為產品開發和規劃過程中的基本要求。我們並不是在空談一些口號，而是實實在在地把安全融入到每一個環節。如果有人加入團隊後無法認同這些原則，他們就會發現自己無法融入。要麼適應這個方向，要麼就會發現難以繼續下去。」

Jack Clark：「隨著時間的推移，RSP 變得越來越重要。我們為它投入了數千小時的工作，而當我向參議員們解釋 RSP 時，我說：「我們制定了一些措施，確保我們的技術既不容易被濫用，同時也能夠保證安全。」他們的反應通常是：「這聽起來很正常。難道不是每家公司都這樣做嗎？」這讓我有些哭笑不得，其實並不是每家公司都這樣做。」

Daniela Amodei：「**此外我認為除了推動團隊的價值觀一致性之外，RSP 也增強了公司的透明度。**因為它清楚地記錄了我們的目標是什麼，公司內部的每個人都能理解，同時外部的人也能清楚地知道我們在安全方面的目標和方向。雖然它還不完美，但我們一直在不斷優化和改進它。」

我覺得明確指出「我們關注的核心問題是什麼」，我們不能隨便用「安全」這個詞來左右工作進展，比如說「因為安全問題，我們不能做某件事」或者「因為安全問題，我們必須做某件事。」我們真正的目標是讓大家清楚地知道我們所指的安全是什麼。

Dario Amodei：「從長遠來看，真正損害安全的往往是那些頻繁的「安全演練」。我曾說過：「如果有一棟大樓，每週都會響起火警警報，那這其實是一棟非常不安全的建築。」因為當真正發生火災時，可能沒人會在意。我們必須非常注重警報的準確性和校準。」

Chris Olah：「換個角度來看，我覺得 RSP 在很多層面上都創造了健康的激勵機制。比如在公司內部，RSP 將每個團隊的激勵機制與安全目標對齊，這意味著，如果我們在安全方面沒有取得足夠進展，相關工作就會被暫停。」

而在外部，RSP 也比其他方法更能創造健康的激勵機制。比如說，如果有一天我們必須採取一些重大行動，比如承認「我們的模型已經發展到某個階段，但我們還無法確保它的安全性」，那麼 RSP 提供了一個清晰的框架和證據來支持這個決定。這種框架事先就已存在，且清晰易懂。回想起我們討論 RSP 早期版本時，我並沒有完全意識到它的潛力，但現在我認為它確實比我能想到的其他方法更有效。」

Jared Kaplan：「我同意這些觀點，但我覺得這可能低估了我們在制定正確政策、評估標準以及劃定界限時所面臨的挑戰。我們已經在這些方面進行了大量迭代，並且仍在繼續優化。一個困難的問題是，對於一些新興技術，有時很難明確地判斷它是危險的還是安全的。很多時候，我們會遇到一個巨大的灰色地帶。這些挑戰讓我在 RSP 開發初期感到非常興奮，現在仍然如此。但與此同時，我也意識到，要清晰地落實這一策略並讓它真正發揮作用，比我最初想像的要更複雜、更具挑戰性。」

Sam McCandlish：「灰色地帶是無法完全預測的，因為它們無處不在。只有當你真正開始實施時，才能發現問題所在。因此，我們的目標是盡早落實所有內容，這樣我們就能盡快發現潛在問題。」

Dario Amodei：「你必須進行三到四次迭代才能真正做到完美，迭代是一個非常強大的工具，你幾乎不可能第一次就完全正確，所以如果面臨的風險在不斷增加，你需要盡早完成這些迭代，而不是等到最後。」

Jack Clark：「同時，你還需要建立內部的制度和流程。雖然具體細節可能會隨著時間而變化，但培養團隊的執行能力才是最為重要的。」

Tom Brown：「我負責 Anthropic 的運算資源管理，對我來說我們需要與外部的利害關係者進行溝通；不同的外部人士對技術發展的速度有著不同的看法。我一開始也認為技術不會發展得那麼快，但後來我的看法改變了，所以我非常理解這一點。我覺得 RSP 對我來說特別有用，尤其是在與那些認為技術發展會比較緩慢的人交流時。我們可以告訴他們：「在技術發展到非常緊急的程度之前，我們不需要採取極端的安全措施。」如果他們說：「我認為事情在很長一段時間內都不會變得緊急。」我就可以回應說：「好，那我們暫時不需要採取極端的安全措施。」這讓與外界的溝通變得更加順暢。」

Jack Clark：「那麼，RSP 還在哪些方面對大家產生了影響呢？」

Sam McCandlish：「一切都圍繞評估，每個團隊都在進行評估。比如你的訓練團隊一直在做評估工作，我們試圖確定這個模型是否已經變得足夠強大，以至於可能帶來危險。」

Daniela Amodei：「這其實意味著我們需要根據 RSP 的標準來衡量模型的表現，包括檢查是否存在可能引發我們擔憂的跡象。」

Sam McCandlish：「評估模型的最低能力相對容易，但評估模型的最高能力則非常困難。因此，我們投入了大量的研究精力，嘗試回答這樣的問題：「這個模型是否能夠執行某些危險的任務？是否存在我們尚未考慮到的某些方法，比如思維導圖、最佳事件（best event）或某些工具的使用；這些會不會讓模型能夠執行一些非常危險的行為？」」

Jack Clark：「在政策制定過程中，這些評估工具非常有幫助。因為「安全」是一個非常抽象的概念，而當我說：「我們有一個評估工具，它決定了我們是否可以部署這個模型。」然後，我們就可以與政策制定者、國家安全專家以及 CBRN（化學、生物、輻射與核領域）的領域專家合作，共同制定精確的評估標準。如果沒有這些具體工具，這些合作可能根本無法實現。但一旦有了明確的標準，人們就會更願意參與進來，幫助我們確保其準確性。所以在這方面，RSP 的作用非常顯著。」

Daniela Amodei：「RSP 對我來說也非常重要，而且經常影響我的工作。我覺得有趣的是，我思考 RSP 的方式有點特別，更多是從它的「語氣」出發，就是它的表達方式。最近我們對 RSP 的語氣進行了大幅調整，因為之前的語氣太過技術化，甚至有些對立的感覺。我花了很多時間思考，如何構建一個讓人們願意參與其中的體系。」

如果 RSP 是一份公司裡每個人都能輕鬆理解的文件，那就會好得多。就像我們現在的 OKR（目標與關鍵結果）一樣。比如，RSP 的主要目標是什麼？我們怎麼知道是否達到了目標？目前的 AI 安全等級（ASL）是多少？是 ASL-2 還是 ASL-3？如果每個人都知道需要關注的重點，那麼發現潛在問題就會變得更容易。相反，如果 RSP 過於技術化，只有少數人能夠理解，那它的實際效用就會大打折扣。

很高興能夠看到 RSP 正在朝一個更易理解的方向發展。現在，我認為公司裡的大多數人，甚至可能是所有人，無論他們的職位是什麼，都能讀懂這份文件，並且覺得：「這很合理。我希望我們在以下這些原則的指導下開發 AI，而且我也明白為什麼要關注這些問題。如果我在工作中遇到問題，我大致知道該注意什麼。」我們希望讓 RSP 足夠簡單，像是在製造工廠工作的人能夠輕鬆判斷：「安全帶應該連在這裡，但現在沒有連到位。」從而及時發現問題。

關鍵在於建立一個健康的回饋機制，使領導層、董事會、公司其他部門以及實際從事研發工作的團隊之間能夠順暢交流。我認為，大多數問題的產生往往是因為溝通不暢或資訊傳遞出現偏差。如果問題只是因為這些原因而出現，那將是非常遺憾的，對吧？最終，我們需要做的就是把這些理念切實付諸實踐，並確保它們簡單明瞭，便於每個人理解。

Anthropic 的創立故事

Sam McCandlish：「其實我們中沒有誰一開始就有創辦公司的意願。我們只是覺得這是我們的責任，我們必須採取行動，因為這是確保 AI 發展朝著正確方向前進的唯一途徑，這也是我們為什麼會做出那個承諾的原因。」

Dario Amodei：「我最初的想法很簡單，我只是希望透過某種有益的方式去發明和探索新事物。這種想法引導我進入了 AI 領域，而 AI 的研究需要大量的工程技術支持，最終也需要大量的資金支持。」

然而，我發現如果沒有一個明確的目標和規劃來設立公司和管理環境，很多事情雖然會被完成，但卻會重複科技產業中那些讓我感到疏離的錯誤。這些錯誤往往源於相同的人、相同的態度和相同的思維模式。所以在某個時刻，我意識到我們必須用一種全新的方式來做這件事，這幾乎是不可避免的。

Jared Kaplan：「還記得我們在研究生院的時候，你曾經有一個完整的計畫，試圖探索如何透過科學研究促進公共利益。我覺得這和我們現在的思路非常相似。我記得你當時有一個叫「Project Vannevar」的專案，目標就是實現這一點。我當時是個教授，我觀察了當時的情況，並深信 AI 的影響力正在以一種極快的速度增長。」

然而，由於 AI 研究對資金的高需求，再加上身為一名物理學教授，我意識到自己無法單靠學術研究推動這些進展。我希望能夠和值得信賴的人一起，建立一個機構，確保 AI 的發展能夠朝著正確的方向前進。但老實說，我從來不會建議別人去創辦一家公司，也從未有過這樣的願望。對我來說，這只是一種實現目標的手段而已。我認為通常情況下，成功的關鍵在於你真正關心實現一個對世界有意義的目標，然後找到實現這個目標的最佳手段。

如何打造信任文化

Daniela Amodei：「我經常思考我們作為團隊的策略優勢，其中一個可能聽起來有些意外，但卻非常重要的因素就是我們之間的高度信任。要讓一大群人擁有共同的使命是非常困難的，但是在 Anthropic，我們能夠成功地將這種使命感傳遞給越來越多的人。在這個團隊裡，包括領導層和所有成員，大家都因共同的使命而聚集在一起。我們的使命既清晰又純粹，在科技產業中這樣的情況並不常見。」

我覺得我們正在努力實現的目標充滿了一種純粹的意義，我們沒有人是因為想要創辦公司而開始的。我們只是覺得必須這麼做。我們無法在原來的地方繼續推進我們的工作，必須靠自己來完成這件事。

Jack Clark：「當時，隨著 GPT-3 的出現，以及我們所有人都接觸過或參與過的計畫，例如擴展法則（scaling laws）等等，我們在 2020 年已經清楚地看到了 AI 的發展趨勢。我們意識到，如果不盡快採取行動，可能很快就會到達一個不可逆轉的臨界點。我們必須採取行動，才能對這個環境產生影響。」

Tom Brown：「我想延續 Daniela 的觀點，我確實認為團隊內部存在著高度的信任。我們每個人都清楚，我們加入這個團隊是因為我們想為世界做出貢獻。我們還共同承諾將收入的 80% 捐贈給能夠推動社會發展的事業，這是一件大家都毫不猶豫支持的事情：「是的，我們當然會這麼做。」這種信任是非常特別且稀有的。」

Daniela Amodei：「我覺得 Anthropic 是一間政治色彩非常淡薄的公司。当然，我們的視角可能與一般人有所不同，我也時刻提醒自己這一點。我認為，我們的招聘流程和團隊成員的特質，使得這裡的文化幾乎天然排斥「辦公室政治」。」

Dario Amodei：「還有團隊的團結性，團隊的團結性至關重要。無論是產品團隊、研究團隊、信任與安全團隊、行銷團隊還是政策團隊，大家都在為實現公司同一個目標而努力。當公司內部的不同部門各自追求完全不同的目標時，往往會導致混亂。如果他們認為其他部門在破壞自己的工作，那更是不正常的現象。」

我認為，我們最重要的成就之一是成功地維持了公司的整體一致性。像 RSP 這樣的機制在其中發揮了重要作用。這種機制確保公司內部不是某些部門在製造問題，而其他部門在試圖修復問題；而是所有部門都在履行各自的職能，並在統一的變革理論（theory of change）框架下協同工作。

Chris Olah：「我最初加入 OpenAI 是因為它是非營利組織，我可以在那裡專注於 AI 安全研究。但隨著時間的推移，我逐漸發現這種模式並不完全適合我，也迫使我做出一些艱難的決定。在這個過程中，我非常信任 Dario 和 Daniela 的判斷，但我並不想離開。因為我認為增加更多 AI 實驗室未必對世界有利，這讓我對離開感到非常猶豫。」

當我們最後決定離開時，我對創辦一家公司仍然持保留態度。我曾主張，我們應該成立一個非營利機構，專注於安全研究。但最終，務實的態度和對現實限制的坦承讓我們意識到，創辦 Anthropic 是實現我們目標的最佳方式。

Dario Amodei：「我們早期學到的一個重要教訓是：少做承諾，多兌現承諾。保持現實，直面權衡取捨，因為信任和信譽比任何具體政策都更加重要。」

Daniela Amodei：「**Anthropic 的一個獨特之處在於團隊的高度信任和一致性。**例如，當我看到 Mike Krieger 因安全原因堅持不發布某些產品時，同時看到 Vinay 在討論如何平衡業務需求以推動計畫完成時，我感到非常特別。此外，技術安全團隊、推理團隊的工程師也在討論如何確保產品既安全又實用。這種一致的目標和務實的態度，是 Anthropic 工作環境中最吸引人的地方之一。」

Dario Amodei：「**一個健康的組織文化在於，每個人都能理解並接受共同面臨的權衡取捨。**我們生活的世界並不完美，每個決策都需要在不同的利益之間找到平衡，而這種平衡往往不可能完全令人滿意。然而只要整個團隊都能在統一的目標下，共同面對這些權衡，並從各自的崗位出發為整體目標貢獻力量，這才是一個健康的生態系統。」

**Sam McCandlish：「**某種意義上，這是一場「向上的競賽」。是的，這確實是一場「向上的競賽」。雖然這並不是一個完全沒有風險的選擇，事情可能會出錯，但我們都一致認為：「這就是我們所做的選擇。」」

競逐 AI 的巅峰

Jack Clark：「但市場本質上是務實的，因此，Anthropic 作為一家公司越成功，其他人就越有動力去效仿那些讓我們取得成功的做法。而且，當我們的成功與我們在安全領域的實際工作緊密相關時，這種成功會在業界形成一種「引力」，促使其他公司也加入到這場競爭中。就像我們開發了安全帶，其他公司也可以效仿，這是一個健康的生態。」

Dario Amodei：「但是，如果你說：「我們不會開發這項技術，而你也無法比其他人做得更好。」這種方式行不通，因為你沒有證明從現狀到未來的路徑是可行的。世界需要的是，無論是產業還是一家公司的層面，都需要找到一種方法，讓社會能夠從「技術不存在」過渡到「技術以強大的形式存在，並且被社會有效地管理」。我認為，唯一能實現這個目標的方式，是在單一公司層面，甚至最後在整個產業層面，直面這些權衡。」

**你需要找到一種方法，既能保持競爭力，甚至在某些領域引領產業，同時又能確保技術的安全性。**如果你能做到這一點，那麼你對產業的吸引力將會非常強大。從監管環境，到希望加入不同公司的優秀人才，甚至到客戶的看法，所有這些因素都會推動產業朝著同樣的方向發展。如果你能證明，在不犧牲競爭力的情況下也能實現安全性，也就是找到那些雙贏的解決方案，那麼其他公司也會受到激勵，效仿這種做法。

Jared Kaplan：「我認為，這就是為什麼像 RSP 這樣的機制如此重要的原因。我們能清晰地看到技術的發展方向，並意識到需要對某些問題保持高度警惕，但同時我們也必須避免發出「狼來了」的錯誤警報，不能簡單地說：「創新應該在這裡停止。」我們需要找到一種方法，使 AI 技術能夠為客戶帶來有用、創新且令人愉悅的體驗，同時明確我們必須堅持的限制條件；這些條件既能確保系統的安全性，也能讓其他公司相信，他們也可以在安全的前提下實現成功，並與我們競爭。」

Dario Amodei：「幾個月後，隨著我們推出 RSP，三家最知名的 AI 公司也紛紛推出了類似的機制。可解釋性研究是我們另一個取得突破的領域。此外，我們還與 AI 安全研究機構展開合作，這種整體對安全的關注正在產生深遠的影響。」

Jack Clark：「是的，Frontier Red Team 幾乎立刻被其他公司模仿了。這是好事，我們希望所有實驗室都能測試那些潛在的高風險安全隱患。」

Daniela Amodei：「Jack 之前也提到過，客戶也非常關心安全問題。客戶不希望模型產生虛假資訊，也不希望模型容易被繞過安全限制。他們希望模型是有用且無害的。我們在跟客戶溝通時經常聽到他們說：「我們選 Claude，因為我們知道它更安全。」我認為，這對市場的影響是巨大的。我們能夠提供值得信賴和可靠的模型，也給競爭對手帶來了不小的市場壓力。」

Chris Olah：「或許可以進一步展開 Dario 剛才的觀點。有一種說法認為，最道德的行為是「崇高的失敗」。也就是說，你應該為了安全而犧牲其他目標，甚至以一種不切實際的方式去行動，以此來展示自己對事業的純粹性。但我認為，這種方式實際上是自我挫敗的。」

首先，這種方式會導致決策權落入那些不重視安全、不優先考慮安全的人手中。另一方面，如果你努力尋找一種方法，把激勵機制對齊，把艱難的決策放在最有力量支持正確決策的地方，並以最有力的證據作為基礎，那麼你就可以觸發 Dario 描述的「向上的競賽」。在這場競賽中，不是關心安全的人被邊緣化，而是其他人被迫跟隨你的步伐，加入到這場競賽中。

展望人工智慧的未來

Jack Clark：「那麼，對於我們接下來要做的事情，你們都感到興奮的是什么呢？」

Chris Olah：「我覺得有很多理由讓人對可解釋性感到興奮。一個顯然是出於安全的考量，但還有另一個原因，我覺得在情感層面上，這同樣讓我感到興奮或意義非凡，那就是我認為神經網路非常美妙，而且其中有許多我們還沒有看到的美。我們總是把神經網路當作一個黑盒子，對它的內部結構並不特別感興趣，但當你開始深入研究它們時，就會發現它們內部充滿了令人驚嘆的結構。」

這有點像人們看待生物學時的態度，有些人可能會覺得：「進化很無聊，它只是一个簡單的過程，運行了很長時間，然後創造了動物。」但實際上，進化所創造的每一個動物都充滿了令人難以置信的複雜性和結構。而我認為，進化是一種優化過程，就像訓練一個神經網路一樣。神經網路內部也有一整套類似於「人工生物學」的複雜結構。如果你願意深入研究它們，你會發現其中有許多令人驚嘆的東西。

我覺得，我們才剛開始慢慢揭開它的面紗。它是如此令人難以置信，裡面有太多東西等待我們去發現。我們才剛開始打開它的大門，我覺得接下來的發現會非常精彩和美妙。有時我會想像，十年後走進一家書店，買一本關於神經網路可解釋性的教科書，或者一本真正講述神經網路「生物學」的書，書中會有各種令人驚嘆的內容。我相信，在未來十年，甚至未來幾年，我們會開始真正地發現這些東西，這將是一段瘋狂而令人驚嘆的旅程。

Jack Clark：「幾年前，如果有人說：「政府將會設立新的機構來測試和評估 AI 系統，而且這些機構會非常專業並發揮作用。」你可能不會相信這是真的。但這已經發生了。可以說，政府已經建立了應對這種新型技術類別的「新大使館」。我很期待看到這會走向何方。我認為，這實際上意味著國家有能力應對這樣的社會轉型，而不只是依靠企業；我很高興能夠參與其中。」

Daniela Amodei：「我現在已經對這一點感到興奮了，但我覺得，只要想像一下未來 AI 能夠為人類做些什麼，就很難不感到激動。即使是現在 Claude 能夠協助開發疫苗、進行癌症研究和生物學研究的跡象，也已經令人感到不可思議。看到它現在能做的事情已經很驚人，而當我展望未來三到五年時，想像 Claude 能夠真正解決許多我們人類面臨的根本性問題，尤其是在健康領域，也讓我感到非常興奮。回想起我曾經從事國際發展工作的日子，如果當時 Claude 能夠幫助完成我當時效率低下的工作，那將是多麼令人驚嘆的事情。」

Tom Brown：「我想，從個人角度來說，我非常喜歡在工作中使用 Claude。所以，最近我在家裡也經常用 Claude 和它聊一些事情。最近最大的變化是程式碼。六個月前，我還沒有用 Claude 來處理任何編程相關的工作，我們的團隊當時也很少用 Claude 來寫程式，但現在這種情況已經出現了顯著變化。比如，上週我在 Y Combinator 舉辦的一次活動上做了一個演講。剛開始時，我問大家：「現在有多少人用 Claude 來編程？」結果幾乎 95% 的人都舉起了手。幾乎全場的人都舉手了，這和四個月前的情況完全不同。」

Dario Amodei：「當我思考讓我感到興奮的事情時，我會想到例如我之前提到的似乎已經達成共識，但其實這個共識即將被打破的地方，其中之一就是可解釋性。我認為，可解釋性不僅是引導和確保 AI 系統安全的關鍵，它還包含了關於智能優化問題和人類大腦運作原理的深刻洞見。我曾說過 Chris Olah 將來會獲得諾貝爾醫學獎。」

因為我曾經是一名神經科學家，而許多我們尚未解決的心理疾病，比如精神分裂症或情緒障礙，我懷疑它們與某種更高層次的系統問題有關。然而，由於人腦的複雜性和難以直接研究的特性，這些問題很難被完全理解。而神經網路雖然不是一個完美的類比，但它們不像人腦那麼難以解析和互動。隨著時間的推移，神經網路將成為一個更好的類比工具。

另一個相關的領域是 AI 在生物學中的應用。生物學是一個極其複雜的問題，出於多種原因人們對它仍然抱持懷疑態度，但我認為這種懷疑的共識開始瓦解了。我們已經看到化學領域的諾貝爾獎授予了 AlphaFold，這是一個了不起的成就，我們應該努力開發能夠幫助我們創造出數百個「AlphaFold」的工具。

最後一點是，利用 AI 來增強民主。我們擔心如果 AI 被錯誤地開發，它可能會成為獨裁主義的工具。**那麼，如何讓 AI 成為促進自由和自決的工具？**我認為，這個領域的發展可能比前兩個領域要早一些，但它的重要性絲毫不亞於前兩者。

Jared Kaplan：「我想至少有兩點可以呼應你之前的觀點。**一點是，我覺得很多人之所以加入 Anthropic，是因為他們對 AI 科學抱有極大的好奇心。**隨著 AI 技術的進步，他們逐漸認同了我們不僅需要推動技術發展，還需要更深入地理解它，並確保它的安全性。我覺得能夠和越來越多對 AI 發展和責任感有共同願景的人一起工作，是一件令人興奮的事情，而且我覺得過去一年中發生的許多技術進步，確實推動了這種共識的形成。」

**另一個方面是，回到實際問題上，我覺得我們在 AI 安全方面已經做了很多工作。**但隨著最近的一些發展，我們開始對那些非常高級的系統可能帶來的風險有了一些初步認識。這使得我們可以透過可解釋性研究和其他類型的安全機制，直接研究並調查這些風險。

透過這種方式，我們能夠更清晰地了解高級 AI 系統可能帶來的風險，這將使我們能夠以更加科學和實證的方式推進我們的使命。因此，我對接下來六個月感到非常興奮，我們將利用對高級系統潛在問題的理解，進一步研究並找到避免這些陷阱的方法。

原影片連結

點擊了解律動 BlockBeats 在招崗位

歡迎加入律動 BlockBeats 官方社群：

Telegram 訂閱群：https://t.me/theblockbeats

Telegram 交流群：https://t.me/BlockBeats_App

Twitter 官方帳號：https://twitter.com/BlockBeatsAsia

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
Gate廣場四月發帖挑戰
2.57萬熱度
#
加密市場行情震盪
6.9萬熱度
#
國際油價走高
24.34萬熱度
#
美以伊停火預期升溫
43.41萬熱度
#
DriftProtocol遭駭客攻擊
33.95萬熱度

熱門 Gate Fun
查看更多

1
hehecoin
hehesz
市值:$2283.35持有人數:2
0.00%
2
GTM
GATE THE MONEY
市值:$2251.72持有人數:1
0.00%
3
Gai
GAI
市值:$2251.72持有人數:1
0.00%
4
THMC
THERMOCOIN
市值:$0.1持有人數:1
0.00%
5
USDT
BIGBAG
市值:$2251.72持有人數:1
0.00%

一周兩次事故後，回顧Anthropic七位聯合創始人一年前如何談論「安全」

要點總結

七位聯創，快速認臉

精彩觀點摘要

為什麼要研究 AI？

突破性的擴展

AI 的起步階段

公眾對人工智慧的態度轉變

負責任的擴展政策：確保 AI 的安全發展

Anthropic 的創立故事

如何打造信任文化

競逐 AI 的巅峰

展望人工智慧的未來

熱門話題

Gate廣場四月發帖挑戰

加密市場行情震盪

國際油價走高

美以伊停火預期升溫

DriftProtocol遭駭客攻擊

熱門 Gate Fun

hehecoin

hehesz

GTM

GATE THE MONEY

Gai

GAI

THMC

THERMOCOIN

USDT

BIGBAG

置頂