CodexとGPT-4.5でエンジニアが動く話を聞いて思ったこと

結論から言うと、Braintrustの事例を読んで「ああ、これは採用コストとのトレードオフだ」と即思った。

OpenAIのブログにBraintrustというAI評価プラットフォームの話が出ていた。彼らはCodexとGPT-4.5を組み合わせて、エンジニアが顧客リクエストを直接コードに変換する実験を回しているらしい。詳細な数値は公開されていないが、要は「エンジニアの実験サイクルをAIで一段圧縮した」という話だ。自社の話に引きつけると、今まさに刺さる。

8人でPMFを取りに行く現実

うちは今8人。エンジニアは実質3名で、そのうち1人はインフラ寄りだから、プロダクト開発に張れるのは2名ちょっとという状況だ。先月、顧客から「この機能が欲しい」と言われて、優先度を上げようとしたら「2スプリント先になります」と返ってきた。PMFを取りきれていない段階でこのスピードは正直きつい。Braintrustがやっていることは、そのボトルネックを正面から刈り取ろうとしている話に見えた。

Codexを使えば、顧客フィードバックをエンジニアが自然言語でそのまま投げて、試作コードを出力できる。全部通るわけじゃないのは分かっている。ただ、「試す回数を増やす」という意味のROIは相当高い。実験コストが下がれば、PMFへの到達確率が上がる。これはシンプルな掛け算だ。

競合が使い始めたら一瞬で差がつく

先月、同じステージのスタートアップのCEOとランチした。その場で「もうエンジニアにCodex使わせてる、レビュー工数が3割減った体感」と言われた。3割という数字が本当かどうかは置いておいて、使っているか使っていないかでスプリントのリズムが変わるのは想像できる。スプリントが1本速ければ、四半期で3〜4本多く回せる計算だ。

投資家への説明でも、「開発速度をどう担保するか」は必ず聞かれる。うちはシード後期で、次のラウンドを見据えると、ここ2〜3四半期のベロシティが直接バリュエーションに響く。「AIで実験サイクルを圧縮している」という説明は、今の投資家には刺さりやすい。ただし使っているだけでは弱い。どのKPIが動いたか、数字で出せないと意味がない。

採用の文脈でも同じ話がある。エンジニアを1人増やすと人件費は年600〜800万円かかる。Codexの月額コストはその100分の1以下だ。採用候補者と話していても「AIツールを積極的に使える環境か」は必ず確認される。使わせる環境を作ること自体が採用ブランディングになっている。

次にやること

今週中に自社のエンジニアとBraintrustの事例を共有して、「顧客リクエスト→コード出力」のフローを一度試してみる。全部任せるつもりはない。まず1つのユースケースで試して、スプリント内の実験本数がどう変わるか計測する。GTM的に言うと、機能リリースのリードタイムが短縮できれば、セールスサイクルの後半で「この機能いつ出ますか?」に答えやすくなる。それだけで受注率が変わる可能性がある。

Codexを入れるかどうかよりも、「試す文化をどう作るか」の方が本質的な問いだと気づいた。ツールは手段で、開発チームが実験を恐れない状態を作ることが先だ。Braintrustの事例が面白かったのは、そこを正面から取り組んでいるように見えたからだと思う。

あなたのチームは、顧客フィードバックをどのくらいのスピードでコードに変換できているか。そこにボトルネックがあるなら、試してみる価値はある。