最初のステップは、近似モデルの情報源であるデータセットの準備です。
データセットは以下で構成されています。
この例では、変数(列)の数は14、インスタンス(行)の数は107となっています。
変数は、以下の通りです。
入力
- 周囲の温度(ステータ近く)
- 冷却水温度(モーターは水冷式、測定は出口側で行われる)
- 電圧のd成分
- 電圧のq成分
- 電流のd成分
- 電流のq成分
- 電圧のd-q成分からのベクトルモジュール
- 電流のd-q成分からのベクトルモジュール
ターゲット
- 車両のモーター速度
- 電流に誘起されたトルク
- ステータのヨークの温度
- ステータのティースの温度
- ステータの巻線の温度
未使用
固有IDは、単に測定セッションを示すだけのインスタンスなので、"未使用"にしておきます。
私たちの主な目的は、オーバーヒートを防ぐため電気モーターの動作を記述することです。
そのため、エンジンの内部部品の温度を示す変数をターゲットに設定しています。
このデータセットをランダムに分割し、それぞれがインスタンス全体の60%、20%、20%を含む、訓練用、検証用、テスト用のサブセットとします。
具体的には、訓練用に65個、検証用に21個、テスト用に21個のインスタンスを使用します。
すべてのデータセット情報が設定されたら、データの品質を確認するためにいくつかの分析を行います。
例えば、データの分布を計算できます。
次の図は、ターゲットの1つであるステータのティースの温度のヒストグラムを示しています。
この図から、ティースの温度が正規分布に従っていることがわかります。
次の図は、入力とターゲットの相関関係を表しています。
これは、それぞれの入力がモーターの温度に与える影響を見るのに役立ちます。
この例では様々なターゲットがあるので、そのうちの1つであるトルクに対する相関図を示します。
上のグラフは、トルクがいくつかの入力と重要な依存関係にあることを示しています。
ご覧のように、トルクと特に高い相関関係にある入力は"i_q: 電圧のq成分"です。
また例えば、周囲の温度とステータの巻線の温度の関係を散布図にすることもできます。
一般的に、周囲の温度が高いほどステーターの巻線の温度も高くなっており、理にかなっています。