最初のステップは、近似モデルの情報源であるデータセットの準備です。
データセットは以下で構成されています。
8つの経路を有する液体超音波流量計に対する、37個の診断パラメータを持つ87個のインスタンスが含まれています。
これらの36個の変数は、ターゲットである"稼働状態"を除いてすべて連続です。
変数は以下の通りです。
入力
- フラットネス比
- 対称性
- クロスフロー
- 8つの経路それぞれの流速
- 8つの経路のそれぞれの音速
- 8つの経路の平均音速
- 8つの経路の両端のゲイン
ターゲット
ニューラルネットワークが扱うのは数値なので"稼働状態"は、流量計が故障している場合は0、正常に動作している場合は1という2つの数値に変換されています。
データを準備したら、学習で考慮すべき要素を抽出し可視化します。
まずは、データセットに含まれる陰性(異常)の事例と陽性(陽性)の事例の比率を知ることが重要です。
上のグラフは、陰性(異常)なインスタンスの数(40.23%)と陽性(正常)なインスタンスの数(59.77%)が同程度であることを示しています。
この情報は、後に予測モデルを適切に設計するために使用されます。
次の図は、各入力とターゲットの間の相関関係を分析したものです。
"flatness_ratio: フラットネス比"("-0.506)といくつかの"gain_i: ゲイン"が、最もターゲットとの相関の強い入力だと分かります。
一方で、経路内の流速の相関は非常に弱いため、流量計の稼働状態を予測する上で決定的要素とはなりません。
このデータセットをランダムに分割し、87個のインスタンスの内、53個(60%)を訓練用、17個(20%)のを検証用、17個(20%)をテスト用とします。