|
AIモデルのパフォーマンスは、評価指標を通して間接的に反映される必要があります。そのため、適切な評価指標を選択することは、AIモデルにとって特に重要です。この記事では、主に様々なAIタスクで一般的に用いられる評価指標をいくつか紹介します。 I. タスクの分類 1. 混同行列 混同行列は、分類問題におけるモデルのパフォーマンスを評価するために使用される表です。これは、モデルの予測値とテストデータセットにおける実際のラベルとの関係を示します。混同行列は、以下の4つの重要な指標を含む2次元の表です。 (1)真陽性(TP):モデルは陽性クラスサンプルを陽性クラスとして正しく予測します。 (2)真陰性(TN):モデルは陰性クラスのサンプルを陰性クラスとして正しく予測します。 (3)偽陽性(FP):モデルが負のクラスサンプルを正のクラスサンプルとして誤って予測します。 (4)偽陰性(FN):モデルが陽性クラスのサンプルを誤って陰性クラスのサンプルとして予測します。 2. 正確性: 総サンプルサイズのうちモデルによって正しく予測されたサンプルの割合は、次のように計算されます。 3. 精度: 陽性クラスの予測精度は次のように計算されます。 4. 思い出してください: 正しく予測される陽性クラスサンプルの割合は次のように計算されます。 5. F1スコア: 精度と再現率の調和平均は次のように計算されます。 6. ROC曲線: ROC 曲線は、さまざまな分類しきい値における真陽性率 (リコールとも呼ばれる) と偽陽性率のトレードオフを表します。 7. AUC: AUCはROC曲線の下の面積を表し、0から1の範囲の値をとります。AUC値が高いほど、様々な分類閾値においてモデルのパフォーマンスが優れていることを示します。完全な分類器のAUCは1ですが、ランダム分類器のAUCは約0.5です。AUCとは、モデルが正例と負例をそれぞれ1つずつランダムに選択した場合、正例を正しく予測する確率が負例を正しく予測する確率よりも高いことを意味します。したがって、AUCはモデル全体のパフォーマンスを包括的に評価する指標となります。 8. PR曲線: PR曲線(適合率-再現率曲線)は、二値分類問題の性能を評価するために使用されるグラフィカルツールです。真陽性率と偽陽性率に焦点を当てたROC曲線とは異なり、PR曲線は適合率と再現率のトレードオフに焦点を当てています。 PR曲線は、異なる分類閾値におけるモデルのパフォーマンスを評価するのに役立ちます。曲線が右上隅に近いほど、高い適合率を維持しながら再現率が高くなり、モデルが可能な限り多くの正例を識別できることを意味します。 II. タスクへの復帰 回帰問題では、一般的なモデル評価メトリックには次のものがあります。 1. 平均二乗誤差(MSE): 予測値と実際の値の差の二乗平均を計算します。MSEが小さいほど良いです。計算式は次のとおりです。 2. 二乗平均平方根誤差(RMSE) これは平均二乗誤差の平方根であり、実際の値と同じ測定単位を提供するために使用されます。RMSEが低いほど良いとされています。計算式は以下のとおりです。 3. 平均絶対誤差(MAE) 予測値と実際の値の平均絶対差を計算します。MAEが小さいほど良いです。計算式は次のとおりです。 4. R²スコア(R二乗): R²スコアは、モデルによって説明される分散の割合を表し、その値の範囲は-1から1です。R²値が1に近いほど、モデルの適合度は高くなります。詳細な計算式は次のとおりです。 式では、実際の平均を表します。 |