這幾天泡在 Fable 5 裡，把積了半年的 agent 工作流翻修了一遍：7 路 agent 並行審計，挖出 24 個問題——三份配置各說各話，記憶服務死了兩個月還在被規則引用，一個安全守衛從來沒真正攔住過任何東西。然後一路修到底，規則瘦身 62%，散在四個工具裡的技能分叉全部合併歸一。
這種活以前我自己幹要一週，還不一定敢動核心配置。這次是我在旁邊拍板，它自己跑完，每一步都貼驗證證據。
Fable 是真好用，就是貴。更難受的是過兩天就用不上了，剛摸到手感就要還回去，比一直用不上還折磨。
聽說 Cursor 訂閱裡塞了一點 Fable 額度，杯水車薪，到時候大概也只能這麼湊合。
工具的代差是真實存在的，用過就回不去。

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

5小時前

今晚網又掛了兩次。Chrome 全紅，Claude Code 和 Codex 也跟著掛。
這時候發現 Cursor 的好處了，他竟然在沒梯子的情況下還能回話，還能在本機 shell 裡動手。我就讓它跑 network-doctor：查網關 ping、看 Clash 是不是 TUN 半掛、該重啟 mihomo 還是直接關 TUN。
修網這種活，通常就幾輪「檢測 → 執行 → 再看狀態」。沒開 Cursor 付費額度的話，免費額度往往夠也跑幾輪排查。
有興趣的可以試試，把 Cursor 當作免費本地修理助手。

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

12小時前

Fable 5 用到上限了，這可如何是好？感覺瞬間失去了方向

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

07-04 05:54

恭喜，大家又多了一個新工種：agent 審計員。
AgentFlow 這篇論文最有意思的地方，不是又發明了一個工作流框架，而是把 agent 程式當成一條新的軟體供應鏈來畫圖。
以前審程式碼，主要看函式 A 呼叫了函式 B。
現在要看的路徑更麻煩：
使用者輸入進入了哪個提示詞；
提示詞會影響哪個 agent；
agent 能交接給誰；
共享記憶會不會把髒上下文帶過去；
最後哪個工具能寫檔案、發郵件、跑指令。
這就是它說的 Agent Dependency Graph。
我最近越來越能理解這件事。多開 Codex、Claude、Cursor 本身沒意義，真正要管的是每個 worker 的權限邊界和寫回路徑：
能讀什麼；
能寫什麼；
能呼叫什麼；
碰到發布、部署、錢包、生產環境時，門禁在哪裡；
幹完以後證據寫回哪裡。
不然所謂多 agent 工作流，很快就會變成一堆看起來很忙、但沒人知道誰碰過什麼的對話視窗。
論文：AgentFlow: Building Agent Dependency Graphs for Static Analysis of Agent Programs

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

06-30 10:39

我最近用 BTC L1 資產工具時，越來越覺得錢包還有一個沒解決好的問題：
它不是簡單的「餘額顯示準不準」。
真正麻煩的是，一個 UTXO 裡可能疊了多種資產語義。
比如 BTC 本身、inscription、Runes、Bitmap、Alkanes，甚至某些應用自己的狀態解釋，都可能和同一個輸出有關。
Bitcoin Core 只知道 UTXO。
但用戶看到的是「我有多少資產」。
這裡就有一層很危險的錯覺：
平台識別出來的資產，不等於這個 UTXO 上全部的資產語義。
所以多發、歸集、split、merge 這類工具，真正難的不是把交易拼出來，而是在簽名前回答一個問題：
這次到底會花掉什麼？
我覺得比較理想的解法，是錢包和市場都補一層 asset-aware preflight：
1. 多 indexer 交叉識別
2. 混合資產 UTXO 自動標紅
3. 高風險輸出預設 lock
4. PSBT 級別展示 recipient / amount / asset id / fee / change
5. 批量操作前先小額 self-send 驗證
BTC L1 資產越多，真正重要的基礎設施可能不是交易按鈕，而是「別誤傷資產」的安全層。
不然用戶不是在轉帳，是在盲簽一堆自己也看不懂的 UTXO 狀態變化。

BTC-0.94%

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

06-29 09:02

這篇講 forecasting RL 預測強化學習的文章挺有意思。
它做的事情可以這樣理解：
拿一批已經有結果的歷史預測題，讓 AI 回到當時的時間點。
但不能讓它直接上今天的網際網路，否則會偷看到答案。
所以作者搭了一個「時間遮罩」環境：
搜尋只能搜當時以前的資料；
網頁透過歷史快照讀取；
金融和趨勢數據也只給當時可見的部分。
然後讓模型自己查資料、判斷證據、輸出機率。
等真實結果揭曉後，用 proper scoring rule 給它打分，再用 RL 去強化更好的預測過程。
這點最有意義：
訓練的不是一句答案，而是整套預測動作：
查什麼、讀什麼、什麼時候停、怎麼處理衝突證據、最後給多少機率。
放到預測市場裡，我覺得第一步還不是讓 AI 自動交易。
更應該先讓它保留 forecast diary：
1. 當時機率
2. 使用證據
3. 市場價格
4. 是否會交易
5. 後續結果
6. 錯因歸類
如果一個系統說 60% 的時候，長期並不像 60%，那它還不是策略，只是會寫理由。
如果你也想練習「記錄預測 → 等結果 → 校準自己」，可以從小額/模擬開始，把它當預測日記，而不是交易建議。
我自己用的連結：
原文在這裡：
我覺得最值得看的不是結論本身，而是它把「預測」拆成了一個可以訓練和複盤的過程。

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

06-25 00:41

Claude Code 裡最危險的訊號之一：
正在確定 6 分鐘，高 effort，幾百 token。
這通常說明模型已經卡在上下文泥潭裡了。後面容易出現答非所問、舊記憶串線、路徑幻覺、工具輸出誤讀。
別等它「想完」。
直接停，開新 session，用乾淨上下文重跑。

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

06-24 13:39

不知道怎麼入手預測市場策略？分享一個我每天在用的笨辦法。
先別急著研究模型和指標。打開排行榜，每天把各品類頭部前幾十名拉下來存一份，別只看當天，攢上一兩周。
然後跨多天比對，挑出反覆出現的地址。只衝上來一天的忽略掉，能連續掛榜的，才是真在持續贏，不是運氣。
為什麼不直接看榜首？我專門驗證過一次：把全時段盈利最高的幾個翻出來，結果很多早躺平了。帳面兩千多萬美金的地址，最近 30 天的每日榜一次都沒上過。錢是真賺到了，但人早就不在牌桌上，這種打法對當下沒參考價值。
鎖定那些持續活躍的地址之後，再去翻它最近在哪些市場、什麼節奏下注。到這一步你才知道該拆什麼、學什麼。
不用一上來就搞複雜的，先從「看誰一直在贏」開始。
排行榜在這 👉

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

06-24 11:08

今天排查了一個詭異的問題：最近 Opus 4.8 用起來總覺得"不對勁"，回覆品質飄忽，偶爾提到一些我沒問過的東西。
查了半天，發現問題出在我自己身上——我寫的 17 個 Hook 腳本一直在往模型的對話上下文裡灌垃圾。
Claude Code 的 Hook 有兩條輸出通道。一條是模型能看到的，一條是只有你終端能看到的。大部分人寫 Hook 的時候不會注意到這個區別，預設的輸出方式恰好走的是"模型能看到"那條。
結果就是：你每調用一次工具，Hook 就往模型的上下文裡塞一條它根本不需要看的提醒。我的情況是單個對話被注入了 280 次，其中有一個計數器 bug 讓模型以為"本 session 已經 21810 次工具調用了"。
模型不是變笨了，是在一堆你自己注入的噪音裡掙扎。
修法就一行，把 Hook 裡的 echo "xxx" 改成 echo "xxx" >&2，從"模型能看到"切到"只有終端看到"。
如果你寫了自定義 Hook 又覺得模型表現變差了，先查這個。

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

06-12 04:56

比特幣一層資產開始變得複雜起來以後，
普通用戶最先遇到的問題是：
餘額到底以誰為準？
我這幾天在 Alkanes 上就遇到這個問題。
同一個地址，
Subfrost、ESPO、UniSat、idclub
看到的餘額和狀態可能都不一樣。
有的像成交了。
有的像 revert 了。
有的餘額晚了很久才更新。
我把自己一筆 Alkanes 交易
按 txid / block / outpoint 拆開，
才發現它本質上是同一批 UTXO
被不同系統用不同方式解釋。
前端餘額只是一個視圖。
真正要對帳，
最後還是要回到鏈上的 outpoint。
這事很重要。
比特幣一層如果要承載更多資產、
AMM、Bond、LP、vault、marketplace，
基礎設施必須把資產狀態講清楚。
普通用戶至少要能回答三件事：
我到底擁有什么？
我這次簽名會花掉什麼？
失敗之後資產回到哪裡？
所以我現在不把任何一個前端當“最準”。
我的臨時排查順序是：
1. 先看 txid / block / outpoint，確認 UTXO 到底怎麼流轉
2. 再看 Subfrost App，理解當前主操作界面怎麼解釋
3. 用 ESPO 的 explorer / API 交叉驗證
4. UniSat

BTC-0.94%

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

06-11 08:38

這太尷尬了呀，Opus 4.8 有問題。然後如果你用 Fable 推進任務的話，它老是自動給你切換成 4.8，我靠，難受。
是不是現在只能用 4.6 呀？

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

06-10 07:15

Codex 這個額度顯示有點有意思。
我這裡顯示本週額度已經 0%，
但當前對話還能繼續幹活。
先不下結論，可能是幾種機制疊在一起：
短窗口額度還在
當前 session 有寬限
本地工具調用不完全吃同一個池
UI 百分比有取整/延遲
remote host 狀態還保持著
這類細節挺像 Agent 產品的真實複雜度：
用戶看到的是一個聊天框，
背後可能是一堆 quota、session、工具、權限、host 狀態在協調。
以後用 AI 工具，可能真的要學會看系統狀態，
不能只盯著 UI 上那一個百分比。

查看原文

打賞
按讚
回覆
轉發
分享

熱門話題
查看更多
#
gStocks代幣化股票上線
482.45萬熱度
#
非農爆冷打壓加息預期
107.75萬熱度
#
預測世界盃巴西VS挪威
23.79萬熱度
#
ETH突破1700
1.52億熱度
#
Meta賣算力引發存儲股大跌
141.57萬熱度

已置頂

runesleo

熱門話題

gStocks代幣化股票上線

非農爆冷打壓加息預期

預測世界盃巴西VS挪威

ETH突破1700

Meta賣算力引發存儲股大跌

已置頂