データ前処理

機械学習・データマイニングにおけるデータ前処理（データまえしょり、英: data preprocessing）は学習の前段階で行われるデータ変換である^[1]。

概要

機械学習やデータマイニングではモデルとデータが用意され、データに基づいてモデルのパラメータが更新=学習される。しかしデータがモデルに適さない場合がある（例: モデル入力サイズとデータ次元の不一致）^[2]。そのため、学習より前の段階で、人が考案した規則に従って、生データを学習データへと変換することがある。この変換をデータ前処理という。

目的

データ前処理には様々な目的がある。

モデル制約への適合
- 例: 入力の値域合わせ、入力次元合わせ
クリーニング
- 例: 外れ値除去（スクリーニング）^[3]、欠損値処理

関連する慣用句として「ガベッジイン、ガベッジアウト」がある。

脚注

[脚注の使い方]

^ "tf.keras.preprocessing ... preprocess data before training." TensorFlow docs. 2022-07-17閲覧.
^ "One issue ... is that the samples are not of the same size. Most neural networks expect the images of a fixed size. Therefore, we will need to write some preprocessing code." PyTorch docs. 2022-07-17閲覧.
^ "外れ値が残ったままデータ分析を実行すると、ほとんどのケースで全体の分析結果がゆがんでしまいます。極端に大きな値や小さな値を分析データに含めることで、分析結果が外れ値に引っ張られてしまうからです。" 橋本. (2020) データ分析は前処理が8割、「毒抜き」しないと危険. 日経クロステック.

表示
編集

表話編歴データ
拡張（英語版）解析考古学（英語版）クレンジング（英語版）収集（英語版）圧縮破壊（英語版）キュレーション（英語版）劣化（英語版）編集（英語版） ETL/ELT（英語版）抽出変換（英語版）ロード（英語版）ファーミング（英語版）フォーマット管理（英語版）融合（英語版）統合（英語版）完全性ライブラリ（英語版）損失（英語版）管理移行マイニング前処理保存プライバシー回復（英語版）整理（英語版）保持（英語版）品質サイエンススクレイピング（英語版）スクラビング（英語版）セキュリティ（英語版）スチュワード（英語版）記録媒体妥当性検証（英語版）ウェアハウスラングリング（英語版）

データ