何日もかけてOpenAI Codexをテストした
たとえGPT-5.4 xhigh(最高推論レベル)をオンにしても、メインモデルを使うとやはり多くの間違いを犯す。
例えば、一度は指示を誤解して不要なものを直接削除してしまった。もう一つはもっとひどいもので:自分が書き込みに成功したと思い込んでいたが、実際には全くできていなかった。
同じことを三回繰り返し、その都度Opusの後のレビューでやっと気づいた。
今のところの結論は、Codexはツールとして非常に適している。明確なコードのタスクを与えれば、速くて良い仕事をしてくれる。
しかし、複雑な多段階の指示を理解したり、動くべきかどうか判断したりするメインモデルとしては、まだ一歩及ばない。
今もやはりOpusを主力としている。😎
原文表示