最初のステップは、近似モデルの情報源であるデータセットの準備です。
データセットは以下で構成されています。
このデータセットでは、インスタンスの数(行数)は308個、変数の数(列数)は7個です。
変数は以下の通りです。
入力
- 浮心の垂直位置
- プリズマティック係数
- 長さ-排水量比
- 幅-喫水比
- 幅-長さ比
- フルード数
ターゲット
フルード数と浮心の垂直位置は、船体形状のみでなく航行速度にも依存する変数です。
また、全変数は無次元に規格化した値になっています。
このデータセットを訓練用、検証用、テスト用に分割します。
それぞれのインスタンス数が60%、20%、20%の比率になるようにランダムに分けます。
具体的には、訓練用が186個、検証用とテスト用が61個となります。
データセットの設定が済んだら、データの質を確認します。
まず、ターゲットの分布を計算しプロットします。
下の図が、ここでのターゲットである残留抵抗のヒストグラムです。
見ての通り、ほとんどのインスタンスの残留抵抗は低い値に集中しています。
次の図は、各入力とターゲットの相関を表しています。
"froude_number: フルード数"が残留抵抗と強い相関を持つことが見て取れます。