最初のステップは、近似モデルの情報源であるデータセットの準備です。
データセットは以下で構成されています。
このデータセットでは、変数の数(列数)は10個、インスタンスの数(行数)は2920個です。
変数は以下の通りです。
入力
- 太陽の最高到達点との距離[rad]
- 日平均気温[℃]
- 日平均風向[°]
- 日平均風速[m/s]
- 雲量[0を全天晴れ、4を全天曇りとした5段階評価]
- 視程[km]
- 湿度[%]
- 3時間平均風速[m/s]
- 3時間平均気圧[inHg]
ターゲット
発電量は1ピリオド(3時間)あたりの値です。各ピリオドの風速/気圧の平均もデータに含まれます。
このデータセットを訓練用、検証用、テスト用に分割します。
それぞれがインスタンス全体の60%、20%、20%を含むようにランダムに分けます。
データ分布を計算することで、データの正確性を確認し異常を検出することができます。
下の図は、発電量のヒストグラムです。
見ての通り、圧縮強度の分布は正規分布になっています。
1つの入力と1つのターゲットの間の依存性を調べるのも重要です。
そのために、各入力とターゲットの間の相関を図示します。
この事例の場合、ターゲットとの相関が最も強い入力は、"distance-to-solar-noon: 太陽の最高到達点との距離"です(太陽が最高到達点に近いほど、発電量も大きくなります)。
ターゲットと最も相関が強い入力(太陽の最高到達点との距離)との散布図を図示します。