Beatingによると、OpenAIのポストトレーニング研究者ポール・ガルニエは、Codex 5.5が流体力学のアプリケーションで、深層強化学習のベースラインよりも優れた、解釈可能な制御コードを生成できることを示した。ニューラルネットワークを学習させるのではなく、ガルニエは物理シミュレーションを解析してモデルを使い、Pythonスクリプトを反復的に改良し、検証したシナリオの半数以上で優れた性能を達成した。
AIが生成した制御ルールは「局所の曲率が閾値を超えたらジェット噴射を遅らせる」のように物理的に解釈可能だった。ニューラルネットワークのブラックボックスとは異なり、コードベースの手法は分布シフト下でも頑健であり、テスト時間を4倍に延長した際には、従来のDRLモデルが崩壊した一方で、物理に基づいたコードは安定したままだった。制御戦略全体の実装には21.25百万トークンを要し、合計は14ドル未満だった。