ITコンサルタントが生成AIを使ってMAGIシステムを作ってみたら、思いのほか楽しくなった話 #doda Developer Group Advent Calendar 2024

doda Developer Group Advent Calendar 2024 12日目の記事です。

（本記事は2024/12/9時点の情報を基に執筆しています。）

ITコンサルタント、アイディアが枯渇するを知る
MAGIシステム、作ります
まとめ、その向こうに

ITコンサルタント、アイディアが枯渇するを知る

こんにちは。カスタマープロダクト本部プロダクト開発統括部 dodaシステムアーキテクト部に所属し、dodaサイト領域のアーキテクチャ改善やサービスマネジメントを担当している、望月です。
職種はITコンサルタントです。最近は生成AIの技術進歩と焼肉に熱狂する日々を過ごしています。

ITコンサルタントとは、幅広い総合的なスキルセットを活かして、プロダクトや組織が抱える課題を見つけ出し、それらを解決に導くためプロジェクトをリード・マネジメントする職種です。

私はDatadogを活用したオブザーバビリティの向上やセキュリティ対策、SREやDevOpsの推進、保守運用のマネジメント、さらにインシデント対応の組織文化醸成など、多岐にわたる領域を担当しています。
そのため、「目の前に広がる課題へ、どうアプローチすればいいのか」と常に問いかけられていて、日々アイディアを生み出さなければなりません。

しかし悲しいかな、アイディアとは枯渇するもので、質も都度まばらになってしまいます。結果穴だらけの企画が誕生し、手戻りが発生してしまう、なんてことも少なくありません。

そこで今回は、OpenAIの「GPT-4モデル」「GPTo1-previewモデル」を両方使用し、生成AIに「質の良い」アイディアを考えてもらおう！という試みを行います。

MAGIシステム、作ります

「質の良い」アイデアには、多角的な視点を取り入れ、最適な回答に研ぎ澄ませていく過程が必要だと考えます。
例えば会議のような場で、複数のメンバーがそれぞれの立場から意見を出し合い、合議制で物事を決めていく。
合議制…

合議制といえば…

そう、MAGIシステムですよね！

ということで、今回はMAGIシステムを疑似的に作って、企画のアイディア出しを丸投げアウトソーシングできるかを検証します。

※ある程度の年齢以上のエンジニアであれば、MAGIシステムを作るロマンを共有できるはず…ですよね？ね？
※MAGIシステムがわからない方は、Google先生へ！

実は、以前GPT-3.5モデルが登場した際に、一度試しにMAGIっぽい仕組みを作ってみたことがありました。
ただ、そのときはプロンプト設計にかなり工夫が必要で、アイデアを出すよりも構築作業に多くの時間を取られた記憶があります。

そこで今回は、GPT-4にプロンプトの設計からお願いしてみます。
これにより構築作業を爆速化しつつ、私はコーヒーを片手に、赤木博士の気分を楽しむという算段です。

今回のテーマは「生成AIを使用したWebアプリケーション信頼性向上のためのアイディア」です。

GPT4、発進

MAGIプロンプト、生成

すると...

MAGIシステムを構築する魔法のプロンプトが出力されました！
技術者、ビジネス管理者、リスク評価者の三者による合議制とのこと。理にかなってそうです。

MAGIプロンプトの価値は

このプロンプトを…

別のチャットに貼り付けて生成すると...

おお！合議制っぽい結果！
最適な結論を「リアルタイム障害検知」とし、リスク・コストを抑えるため段階的に実装するというアイディアが弾かれました。
フィードバックの経過を見ても、それぞれのロールに従って相互の立場からフィードバックを行えています。

この間、実に73秒。

o1-preview、リフトオフ

次に、2024年9月12日にリリースされた新モデル「o1」を試してみることにします。
このo1モデル、複雑な学術タスクや推論で非常に高いパフォーマンスを発揮するとのこと。なんと、博士号レベルの問題も解けてしまうそうです。

そこで、o1には一発でこう聞いてみます。

すると…

最適な結論を「自動テスト生成導入」「AIコードレビュー支援」「リアルタイム障害検知」とし、リスク・コストなどの観点表を出力してくれました。

この間25秒。コーヒーはまだ熱々です。
ほーん、や、やるやん。

技術者向けTips：
o1モデルについては、OpenAIがモデルの詳細を公開していないため、推測の域を出ませんが、調べた限りでは、"Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters"という論文で提唱されている"Chain of Thought”という考え方が採用されている可能性が高いようです。

主なポイントとしては以下の通りです：

これまでは「学習データのスケール優位性がパフォーマンスに直結する」という考え方が主流でしたが、小規模モデルを鎖状（チェーン）に繋ぐ方が、より精度が高くなるという新しいアプローチが示されています（論文によるとスコアは14倍に向上）

鎖状のモデルに対して強化学習の報酬モデル（プロセス報酬モデル）が併用されているとのこと。

プロセス報酬モデルの報酬関数をどう設定するか、そのチューニング技術がOpenAIの強みを発揮している部分だと考えられます。

要するに、複数の思考プロセスを直列につないだら、よりハッピーなモデルが完成した、ということのようです。（難しいですね）

でもこのモデルを用いれば、思考の質が深まり、多角的な目線でアイディアをひねり出すことも出来そうです。

速報

（本記事は2024/12/9時点の情報を基に執筆しています）

12 Days of OpenAI | OpenAI にてo1の正式版、及びo1-proがリリースされました。

今回の検証ではo1-previewモデルを使用しましたが、o1、o1-proを使用すればより精度が高い推論を期待できそうです。

o1-preview, o1, o1Proのベンチマークの違い — o1-preview, o1, o1Proのベンチマーク比較表

まとめ、その向こうに

あえて、月並みのことを言います。
AIの進歩ってすごいですね！

今回の検証におけるポイントは、複雑な思考や意見折衝がAIで執り行えるのか？という点です。感情や立場を排斥して意見を集約できる点でいえば、人間以上のパフォーマンスを出せていると言えるでしょう。検証をやっていて非常に楽しかったです。

感情とは不思議なもので、今、楽しさを感じると共に強い「危機感」を覚えています。
自らの市場価値を高めていかなければ、直ぐに技術革新の波に飲まれていくのだと思います。改めて自分の成長ギアを上げていく必要があるのだと、再認識できました。