runesleo

vip
幣齡 8.5 年
最高等級 6
用戶暫無簡介
這幾天泡在 Fable 5 裡,把積了半年的 agent 工作流翻修了一遍:7 路 agent 並行審計,挖出 24 個問題——三份配置各說各話,記憶服務死了兩個月還在被規則引用,一個安全守衛從來沒真正攔住過任何東西。然後一路修到底,規則瘦身 62%,散在四個工具裡的技能分叉全部合併歸一。
這種活以前我自己幹要一週,還不一定敢動核心配置。這次是我在旁邊拍板,它自己跑完,每一步都貼驗證證據。
Fable 是真好用,就是貴。更難受的是過兩天就用不上了,剛摸到手感就要還回去,比一直用不上還折磨。
聽說 Cursor 訂閱裡塞了一點 Fable 額度,杯水車薪,到時候大概也只能這麼湊合。
工具的代差是真實存在的,用過就回不去。
查看原文
post-image
  • 打賞
  • 回覆
  • 轉發
  • 分享
今晚網又掛了兩次。Chrome 全紅,Claude Code 和 Codex 也跟著掛。
這時候發現 Cursor 的好處了,他竟然在沒梯子的情況下還能回話,還能在本機 shell 裡動手。我就讓它跑 network-doctor:查網關 ping、看 Clash 是不是 TUN 半掛、該重啟 mihomo 還是直接關 TUN。
修網這種活,通常就幾輪「檢測 → 執行 → 再看狀態」。沒開 Cursor 付費額度的話,免費額度往往夠也跑幾輪排查。
有興趣的可以試試,把 Cursor 當作免費本地修理助手。
查看原文
post-image
  • 打賞
  • 回覆
  • 轉發
  • 分享
Fable 5 用到上限了,這可如何是好?感覺瞬間失去了方向
查看原文
post-image
  • 打賞
  • 回覆
  • 轉發
  • 分享
恭喜,大家又多了一個新工種:agent 審計員。
AgentFlow 這篇論文最有意思的地方,不是又發明了一個工作流框架,而是把 agent 程式當成一條新的軟體供應鏈來畫圖。
以前審程式碼,主要看函式 A 呼叫了函式 B。
現在要看的路徑更麻煩:
使用者輸入進入了哪個提示詞;
提示詞會影響哪個 agent;
agent 能交接給誰;
共享記憶會不會把髒上下文帶過去;
最後哪個工具能寫檔案、發郵件、跑指令。
這就是它說的 Agent Dependency Graph。
我最近越來越能理解這件事。多開 Codex、Claude、Cursor 本身沒意義,真正要管的是每個 worker 的權限邊界和寫回路徑:
能讀什麼;
能寫什麼;
能呼叫什麼;
碰到發布、部署、錢包、生產環境時,門禁在哪裡;
幹完以後證據寫回哪裡。
不然所謂多 agent 工作流,很快就會變成一堆看起來很忙、但沒人知道誰碰過什麼的對話視窗。
論文:AgentFlow: Building Agent Dependency Graphs for Static Analysis of Agent Programs
查看原文
  • 打賞
  • 回覆
  • 轉發
  • 分享
我最近用 BTC L1 資產工具時,越來越覺得錢包還有一個沒解決好的問題:
它不是簡單的「餘額顯示準不準」。
真正麻煩的是,一個 UTXO 裡可能疊了多種資產語義。
比如 BTC 本身、inscription、Runes、Bitmap、Alkanes,甚至某些應用自己的狀態解釋,都可能和同一個輸出有關。
Bitcoin Core 只知道 UTXO。
但用戶看到的是「我有多少資產」。
這裡就有一層很危險的錯覺:
平台識別出來的資產,不等於這個 UTXO 上全部的資產語義。
所以多發、歸集、split、merge 這類工具,真正難的不是把交易拼出來,而是在簽名前回答一個問題:
這次到底會花掉什麼?
我覺得比較理想的解法,是錢包和市場都補一層 asset-aware preflight:
1. 多 indexer 交叉識別
2. 混合資產 UTXO 自動標紅
3. 高風險輸出預設 lock
4. PSBT 級別展示 recipient / amount / asset id / fee / change
5. 批量操作前先小額 self-send 驗證
BTC L1 資產越多,真正重要的基礎設施可能不是交易按鈕,而是「別誤傷資產」的安全層。
不然用戶不是在轉帳,是在盲簽一堆自己也看不懂的 UTXO 狀態變化。
BTC-0.94%
查看原文
post-image
  • 打賞
  • 回覆
  • 轉發
  • 分享
這篇講 forecasting RL 預測強化學習的文章挺有意思。
它做的事情可以這樣理解:
拿一批已經有結果的歷史預測題,讓 AI 回到當時的時間點。
但不能讓它直接上今天的網際網路,否則會偷看到答案。
所以作者搭了一個「時間遮罩」環境:
搜尋只能搜當時以前的資料;
網頁透過歷史快照讀取;
金融和趨勢數據也只給當時可見的部分。
然後讓模型自己查資料、判斷證據、輸出機率。
等真實結果揭曉後,用 proper scoring rule 給它打分,再用 RL 去強化更好的預測過程。
這點最有意義:
訓練的不是一句答案,而是整套預測動作:
查什麼、讀什麼、什麼時候停、怎麼處理衝突證據、最後給多少機率。
放到預測市場裡,我覺得第一步還不是讓 AI 自動交易。
更應該先讓它保留 forecast diary:
1. 當時機率
2. 使用證據
3. 市場價格
4. 是否會交易
5. 後續結果
6. 錯因歸類
如果一個系統說 60% 的時候,長期並不像 60%,那它還不是策略,只是會寫理由。
如果你也想練習「記錄預測 → 等結果 → 校準自己」,可以從小額/模擬開始,把它當預測日記,而不是交易建議。
我自己用的連結:
原文在這裡:
我覺得最值得看的不是結論本身,而是它把「預測」拆成了一個可以訓練和複盤的過程。
查看原文
  • 打賞
  • 回覆
  • 轉發
  • 分享
Claude Code 裡最危險的訊號之一:
正在確定 6 分鐘,高 effort,幾百 token。
這通常說明模型已經卡在上下文泥潭裡了。後面容易出現答非所問、舊記憶串線、路徑幻覺、工具輸出誤讀。
別等它「想完」。
直接停,開新 session,用乾淨上下文重跑。
查看原文
  • 打賞
  • 回覆
  • 轉發
  • 分享
不知道怎麼入手預測市場策略?分享一個我每天在用的笨辦法。
先別急著研究模型和指標。打開排行榜,每天把各品類頭部前幾十名拉下來存一份,別只看當天,攢上一兩周。
然後跨多天比對,挑出反覆出現的地址。只衝上來一天的忽略掉,能連續掛榜的,才是真在持續贏,不是運氣。
為什麼不直接看榜首?我專門驗證過一次:把全時段盈利最高的幾個翻出來,結果很多早躺平了。帳面兩千多萬美金的地址,最近 30 天的每日榜一次都沒上過。錢是真賺到了,但人早就不在牌桌上,這種打法對當下沒參考價值。
鎖定那些持續活躍的地址之後,再去翻它最近在哪些市場、什麼節奏下注。到這一步你才知道該拆什麼、學什麼。
不用一上來就搞複雜的,先從「看誰一直在贏」開始。
排行榜在這 👉
查看原文
  • 打賞
  • 回覆
  • 轉發
  • 分享
今天排查了一個詭異的問題:最近 Opus 4.8 用起來總覺得"不對勁",回覆品質飄忽,偶爾提到一些我沒問過的東西。
查了半天,發現問題出在我自己身上——我寫的 17 個 Hook 腳本一直在往模型的對話上下文裡灌垃圾。
Claude Code 的 Hook 有兩條輸出通道。一條是模型能看到的,一條是只有你終端能看到的。大部分人寫 Hook 的時候不會注意到這個區別,預設的輸出方式恰好走的是"模型能看到"那條。
結果就是:你每調用一次工具,Hook 就往模型的上下文裡塞一條它根本不需要看的提醒。我的情況是單個對話被注入了 280 次,其中有一個計數器 bug 讓模型以為"本 session 已經 21810 次工具調用了"。
模型不是變笨了,是在一堆你自己注入的噪音裡掙扎。
修法就一行,把 Hook 裡的 echo "xxx" 改成 echo "xxx" >&2,從"模型能看到"切到"只有終端看到"。
如果你寫了自定義 Hook 又覺得模型表現變差了,先查這個。
查看原文
post-image
  • 打賞
  • 回覆
  • 轉發
  • 分享
比特幣一層資產開始變得複雜起來以後,
普通用戶最先遇到的問題是:
餘額到底以誰為準?
我這幾天在 Alkanes 上就遇到這個問題。
同一個地址,
Subfrost、ESPO、UniSat、idclub
看到的餘額和狀態可能都不一樣。
有的像成交了。
有的像 revert 了。
有的餘額晚了很久才更新。
我把自己一筆 Alkanes 交易
按 txid / block / outpoint 拆開,
才發現它本質上是同一批 UTXO
被不同系統用不同方式解釋。
前端餘額只是一個視圖。
真正要對帳,
最後還是要回到鏈上的 outpoint。
這事很重要。
比特幣一層如果要承載更多資產、
AMM、Bond、LP、vault、marketplace,
基礎設施必須把資產狀態講清楚。
普通用戶至少要能回答三件事:
我到底擁有什么?
我這次簽名會花掉什麼?
失敗之後資產回到哪裡?
所以我現在不把任何一個前端當“最準”。
我的臨時排查順序是:
1. 先看 txid / block / outpoint,確認 UTXO 到底怎麼流轉
2. 再看 Subfrost App,理解當前主操作界面怎麼解釋
3. 用 ESPO 的 explorer / API 交叉驗證
4. UniSat
BTC-0.94%
查看原文
post-image
  • 打賞
  • 回覆
  • 轉發
  • 分享
這太尷尬了呀,Opus 4.8 有問題。然後如果你用 Fable 推進任務的話,它老是自動給你切換成 4.8,我靠,難受。
是不是現在只能用 4.6 呀?
查看原文
  • 打賞
  • 回覆
  • 轉發
  • 分享
Codex 這個額度顯示有點有意思。
我這裡顯示本週額度已經 0%,
但當前對話還能繼續幹活。
先不下結論,可能是幾種機制疊在一起:
短窗口額度還在
當前 session 有寬限
本地工具調用不完全吃同一個池
UI 百分比有取整/延遲
remote host 狀態還保持著
這類細節挺像 Agent 產品的真實複雜度:
用戶看到的是一個聊天框,
背後可能是一堆 quota、session、工具、權限、host 狀態在協調。
以後用 AI 工具,可能真的要學會看系統狀態,
不能只盯著 UI 上那一個百分比。
查看原文
post-image
  • 打賞
  • 回覆
  • 轉發
  • 分享