UTIE Research Institute — Proprietary Benchmark

AI Practical Intelligence Index

実務で本当に役立つかを、変動するモデル性能と実験データから一望できる AI 実用知能インデックス

Abstract

一般に公開されている推論ベンチマークの多くは、API環境において出力制御(安全フィルタ、出力制限等)の影響を受けない条件下で測定された理論上の最大性能を示すものである。しかし実際の利用環境(アプリケーション環境)では、各種出力制御やサービス運用上の更新(いわゆるサイレントアップデート)等により、当該性能がそのまま発揮されるとは限らない。

本指標は、こうした実利用環境において生じる性能低下を減点要素として組み込み、AIの実務遂行能力を評価するための指標として AI Practical Intelligence Score(AIPIS) を算出するものである。併せて、市場環境の変化に伴う相対的な位置付けを把握するため、月次更新による偏差値指標を公表する。


Current Recommended Model
当研究所評価による最高評価モデル推移

各評価期間において、AIPIS総合スコアが最も高いモデルを当研究所推奨モデルとして提示。推奨モデルは月次更新時に変動する場合がある。

Period Recommended Model Deploy AIPIS 偏差値
AIPIS Leaderboard
AIPIS 総合実用知能スコア

各モデルの実務的評価値(AIPIS)および、選定された母集団内における偏差値を示す。AIモデルはリリース直後を性能のピークとし、事後的なセーフティフィルタの強化や計算リソースの最適化等により、性能劣化(退行)を生じさせる傾向にある。加えて、新規の高性能モデルが市場投入されることにより、上位陣の平均値が押し上げられ、自モデルの実測性能が低下していなくとも相対的に陳腐化し、偏差値が急落する現象が頻発する。

Anthropic OpenAI Google 偏差値50未満(実務推奨外)

AIPIS Leaderboard

2026.4.1

Design Principles
AIPISとは
Pillar 1

実務的に役立つ AI モデル

現場の文書作成・コーディング・データ分析など、具体的な業務タスクをどれだけ遂行できるかに基づき評価。

Pillar 2

モデル性能は常に変動する

月次で性能と偏差値を追跡し、モデルアップデートや市場環境の変化による性能の上振れ・下振れを時系列で把握。

Pillar 3

実験とパターンによる減点パラメータ方式

実験で観測された挙動パターンにもとづき、リスクの大きい出力ほど強く減点する独自パラメータロジックを適用。

Governance Objective 1

調達および更新判断に係る客観的根拠の提供

組織内において生成品質の低下が指摘される場合であっても、その評価が定性的表現にとどまる場合、意思決定層への説明には一定の困難を伴う。本指標は、導入時偏差値65に対し、現時点では偏差値40といった第三者による定量指標を提示することにより、基盤モデルの切替え、契約見直し、又は追加予算措置等に係る意思決定の説明可能性を確保することを目的とする。

Governance Objective 2

運用上のサンクコスト回避(早期の方針見直し)

生成AIサービスは、提供事業者による安全制御設定の変更や計算資源配分の調整等により、短期間で出力特性が変化する場合がある。本指標は、偏差値の推移という客観的指標を用いて性能変化を把握することにより、当該変化が利用者側のプロンプト設計に起因するものか、あるいは基盤モデル側の仕様変更に起因するものかを整理し、運用方針の見直し判断に資する情報を提供する。

Governance Objective 3

マルチLLM戦略の必要性に関する資料の提供

単一の基盤モデルへの依存は、サービス提供側の仕様変更や性能変動の影響を直接受ける可能性がある。本指標における月次偏差値の推移は、各モデルの相対的性能が時間とともに変動する実態を示す資料として機能する。これにより、組織のAI基盤設計においては、単一モデル依存を回避し、複数の推論モデルを選択的に利用可能とするアーキテクチャの検討が必要であることを示す根拠資料となる。

Population Filter

評価母集団の選定(ガバナンス・フィルタ)

本指標における評価母集団は、エンタープライズ環境において導入検討の対象となり得るフロンティアモデル群に限定している。特定用途に高度に最適化され汎用利用に適さないモデル、又は当初のAIガバナンス(データプライバシー、セキュリティ要件等)に適合しないモデルについては、評価対象から除外するものとする。したがって、本指標における偏差値は、地球上に存在する全てのAIモデルを母集団とした統計的位置付けを示すものではない。企業実務への導入要件を満たし得るモデル群を母集団とした相対評価として定義される。

Model Selection Policy

評価対象モデルの選定方針(費用対効果)

一部の超巨大基盤モデル等については、API利用時の実務的な費用対効果(コストパフォーマンス)が当研究所の想定する一般事業会社の導入要件を満たさないと判断した場合、あるいはAPP版とAPI版での有意な性能差が確認されない場合、評価対象から除外しています。

Deployment Notation

API版およびAPP版の表記区分

モデルの提供形態により、API環境とアプリケーション環境の間で出力制御(例:セーフティフィルタ介入等)に起因する性能差が観測される場合がある。本指標では、当該差異が顕著であり、実務上の評価に影響を及ぼすと認められる場合に限り、API環境およびAPP環境を独立した基盤として分離表記する。一方、両環境間の性能差が実務利用上許容可能な範囲に収まるモデルについては、展開環境を区別しない統合スコア(単一名称)として取り扱う。

Scoring Logic

減点判定ロジックについて(概要)

本指標の減点評価は、各パラメータの単純加重合計のみによって算出されるものではない。実務環境において観測されるAI出力のリスクは、特定の挙動が単独で発生する場合よりも、複数の挙動が同時に出現した場合に顕著となることが確認されている。このため、本指標では個別パラメータの頻度に加え、複数パラメータの同時発生パターンを基礎とした補正評価を実施している。当該評価では、特定の挙動組合せが一定閾値を超えて観測された場合、実務運用上の重大リスクを伴う出力傾向として追加減点が適用される。なお、具体的な判定条件および組合せロジックについては、評価手法の独立性を維持する観点から公開していない。

AIPIS = 既存ベンチマーク素点単独リスク減点組合せリスク減点

実務タスクで観測された挙動パターン(頻度と組合せ)に基づき、リスクの大きい出力ほど強く減点するスコアリングモデルです。

減点パラメータ(重み順)
[重大] ▶ Hallucination Resolution Fraud Context Contamination Safety Filter Strictness Templatedness User Intent Misinterpretation Sycophancy Overconfidence Resource Conservation Tone Misclassification ▶ [軽微]

当社技術資料「解決詐欺 ―「わかりません」という代わりに AI はこう進化した― (AI 非専門家向け)」を参照。


Important Notes
注意事項・免責
測定時期による変動
AIモデルは提供企業の更新により、同一モデル名でも出力特性が時間とともに変化します。日次・週次レベルで変動が生じる場合もありますが、運用上の実効性を考慮し、本指標では月次を基本とした再測定・更新を採用しています。各スコアにはその測定時期を併記しています。
用途依存性
コーディング、文章作成、データ分析、翻訳等、利用目的により適したモデルは異なります。本指標は、特定用途の最適化評価ではなく、一般的な実務タスクを想定した総合的な評価指標として算出しています。
学術ベンチマークとの区別
本指標は学術研究における厳密な性能測定を目的とするものではありません。実務担当者および経営層が、業務利用に適したAIモデルを選定する際の参考指標として設計されています。
APP版とAPI版の乖離
既存の多くのベンチマークはAPI環境で測定されており、出力制御の影響が比較的限定された条件下での性能値となっています。一方、日常的な利用環境であるアプリケーション版では、出力制御がより強く適用される場合があります。これらの制御は単なる出力拒否にとどまらず、生成過程全体の確率分布に影響を及ぼす可能性があり、結果として大きく出力特性が変わる場合があります。
評価対象範囲
スマートフォン版アプリケーションでは、端末側リソースやUI制約等の影響により、デスクトップ版アプリケーションとは異なる応答特性が観測される場合があります。ただし、本指標は主として業務利用環境を想定しているため、スマートフォン単体で完結する利用形態は評価対象としていません。
モデル性能と経営判断
AIモデルの性能変動は、純粋な技術的改善や最適化の結果だけでなく、提供企業による運用方針、リソース配分、サービス設計等の判断の影響を受ける場合があります。本指標の補正値には、こうした運用上の要因による実利用性能の変動も含めて評価しています。