データ前処理

機械学習データマイニングにおけるデータ前処理(データまえしょり、: data preprocessing)は学習の前段階で行われるデータ変換である[1]

概要

機械学習データマイニングではモデルとデータが用意され、データに基づいてモデルのパラメータが更新=学習される。しかしデータがモデルに適さない場合がある(例: モデル入力サイズとデータ次元の不一致)[2]。そのため、学習より前の段階で、人が考案した規則に従って、生データを学習データへと変換することがある。この変換をデータ前処理という。

目的

データ前処理には様々な目的がある。

  • モデル制約への適合
    • 例: 入力の値域合わせ、入力次元合わせ
  • クリーニング

関連する慣用句として「ガベッジイン、ガベッジアウト」がある。

脚注

[脚注の使い方]
  1. ^ "tf.keras.preprocessing ... preprocess data before training." TensorFlow docs. 2022-07-17閲覧.
  2. ^ "One issue ... is that the samples are not of the same size. Most neural networks expect the images of a fixed size. Therefore, we will need to write some preprocessing code." PyTorch docs. 2022-07-17閲覧.
  3. ^ "外れ値が残ったままデータ分析を実行すると、ほとんどのケースで全体の分析結果がゆがんでしまいます。極端に大きな値や小さな値を分析データに含めることで、分析結果が外れ値に引っ張られてしまうからです。" 橋本. (2020) データ分析は前処理が8割、「毒抜き」しないと危険. 日経クロステック.
  • 表示
  • 編集
データ
  • 拡張(英語版)
  • 解析
  • 考古学(英語版)
  • クレンジング(英語版)
  • 収集(英語版)
  • 圧縮
  • 破壊(英語版)
  • キュレーション(英語版)
  • 劣化(英語版)
  • 編集(英語版)
  • ETL/ELT(英語版)
    • 抽出
    • 変換(英語版)
    • ロード(英語版)
  • ファーミング(英語版)
  • フォーマット管理(英語版)
  • 融合(英語版)
  • 統合(英語版)
  • 完全性
  • ライブラリ(英語版)
  • 損失(英語版)
  • 管理
  • 移行
  • マイニング
  • 前処理
  • 保存
  • プライバシー
  • 回復(英語版)
  • 整理(英語版)
  • 保持(英語版)
  • 品質
  • サイエンス
  • スクレイピング(英語版)
  • スクラビング(英語版)
  • セキュリティ(英語版)
  • スチュワード(英語版)
  • 記録媒体
  • 妥当性検証(英語版)
  • ウェアハウス
  • ラングリング(英語版)