非線形回帰

統計学
回帰分析
モデル
  • 一般化線形モデル
  • 離散選択(英語版)
  • ロジスティック回帰
  • 多項ロジット(英語版)
  • 混合ロジット(英語版)
  • プロビット(英語版)
  • 多項プロビット(英語版)
  • 順序ロジット(英語版)
  • 順序プロビット(英語版)
  • ポアソン(英語版)
  • 非線形回帰
  • ノンパラメトリック(英語版)
  • セミパラメトリック(英語版)
  • ロバスト(英語版)
  • 分位点(英語版)
  • 等調(英語版)
  • 主成分(英語版)
  • 最小角度(英語版)
  • 局所
  • 折れ線(英語版)
  • 変数誤差(英語版)
推定
  • 普通(英語版)
  • 加重(英語版)
  • 一般化(英語版)
  • 最小絶対偏差(英語版)
  • 繰返し加重(英語版)
  • ベイズ(英語版)
  • ベイズ多変量(英語版)
背景
詳細はミカエリス・メンテン式を見よ。

統計学において、非線形回帰(ひせんけいかいき、: Nonlinear regression)は、観測から得られたデータがモデルパラメータの非線形結合であり、1つ以上の独立した変数に依存する関数によってモデル化される回帰分析の一形式である。データは逐次近似法によって当て嵌められる。

一般

非線形回帰において、

y f ( x , β ) {\displaystyle \mathbf {y} \sim f(\mathbf {x} ,{\boldsymbol {\beta }})}

という形式の統計モデル独立変数のベクトルxとその関連した 観測された従属変数yを結び付ける。関数fはパラメータβのベクトルの要素において非線形であるが、その他の点では任意である。例えば、酵素の反応速度論に対するミカエリス・メンテンモデルは2つのパラメータと1つの独立変数を持ち、これらはfによって結び付けられる:[注釈 1]

f ( x , β ) = β 1 x β 2 + x {\displaystyle f(x,{\boldsymbol {\beta }})={\frac {\beta _{1}x}{\beta _{2}+x}}}

この関数は、2つのβ線形結合として表わすことができないため、非線形である。

系統誤差が独立変数中に存在するかもしれないが、その取扱いは回帰分析の対象範囲外である、もし独立変数に誤差があるとすると、これは変数誤差モデル(英語版)であり、これも対象範囲外である。

非線形関数のその他の例には、指数関数対数関数(英語版)三角関数冪関数ガウス関数ローレンツ曲線がある。指数関数または対数関数といった一部の関数は、それらが線形となるように変換することができる。そのように変換された時、標準的な線形回帰を行うことができるが、注意深く適用しなければならない。より詳細については線形化§変換を見よ。

一般に非線形回帰には線形回帰に存在するような、最良の当て嵌めパラメータに関する閉形式の式は存在しない。大抵は、最良のパラメータを決定するために数値的最適化アルゴリズムが適用される。ここでも線形回帰と対照的に、最適化される関数には多くの極小点(ローカルミニマム)が存在する可能性があり、最小点(グローバルミニマム)でさえも偏った(英語版)推定値を与える可能性がある。実際上は、二乗和の最小値を探るために、最適化アルゴリズムと併せて、パラメータの推定値が使われる。

非線形データモデリングに関する詳細については、最小二乗法および非線形最小二乗法を見よ。

回帰統計値

この手順の根底にある仮定は、このモデルが線形関数、すなわち一次のテイラー級数

f ( x i , β ) f ( x i , 0 ) + j J i j β j {\displaystyle f(x_{i},{\boldsymbol {\beta }})\approx f(x_{i},0)+\sum _{j}J_{ij}\beta _{j}}

によって近似できるというものである。上式において J i j = f ( x i , β ) β j {\displaystyle J_{ij}={\frac {\partial f(x_{i},{\boldsymbol {\beta }})}{\partial \beta _{j}}}} 。最小二乗推定量は以下の式で与えられる。

β ^ ( J T J ) 1 J T y . {\displaystyle {\hat {\boldsymbol {\beta }}}\approx \mathbf {(J^{T}J)^{-1}J^{T}y} .}

非線形回帰統計値は計算され、線形回帰統計値と同じように使われるが、式ではXの位置にJを使用している。線形近似はこの統計値へ偏り(バイアス)を導入する。したがって、非線形モデルから導き出された統計値を解釈するためには普段よりもより注意が必要である。

普通最小二乗法と加重最小二乗法

最良適合曲線はしばしば、残差二乗和を最小化するものであると想定される。これは普通最小二乗(英語版)(OLS)アプローチである。しかしながら、従属変数が一定の分散を持たない場合は、加重残差二乗和が最小化されるだろう(加重最小二乗法(英語版)を見よ)。それぞれの重みは理想的には観測値の分散の逆数と等しくなるべきであるが、反復加重最小二乗アルゴリズムでは、重みは繰り返し毎に再計算することができる。

線形化

変換

一部の非線形回帰問題は、モデル定式化の適切な変換によって線形領域へと移すことができる。

例えば、パラメータaおよびbと乗法誤差項Uを持つ非線形問題

y = a e b x U {\displaystyle y=ae^{bx}U\,\!}

を考える。両辺の対数を取ると、この式は

ln ( y ) = ln ( a ) + b x + u , {\displaystyle \ln {(y)}=\ln {(a)}+bx+u,\,\!}

となる。上式において、u = ln(U)である。この式はxに関するln(y) の線形回帰によって未知のパラメータの推定ができることを示唆している。この線形回帰の計算は反復的最適化を必要としない。しかしながら、非線形変換の使用には注意が必要である。データ値の影響は変化し、モデルの誤差構造と全ての推論結果の解釈も同様に変化する。これらは望ましくない効果である。その一方で、誤差の最大の源が何かに依存して、非線形変換はガウス関数的に誤差をばらまく。そのため非線形変換を実行するかどうかの選択はモデル情報の熟慮に基づかなければならない。

ミカエリス・メンテン反応速度論では、反応速度の逆数1/vに対して基質濃度の逆数1/[S] をプロットする線形のラインウィーバー=バークプロット

1 v = 1 V max + K m V max [ S ] {\displaystyle {\frac {1}{v}}={\frac {1}{V_{\max }}}+{\frac {K_{m}}{V_{\max }[S]}}}

がよく使われてきた。しかしながら、ラインウィーバー=バークプロットはデータの誤差に非常に敏感であり、特定の範囲の独立変数 [S] でデータの当て嵌めに強く偏っているため、その使用は断固として推奨されない。

指数型分布族に属する誤差分布では、リンク関数が一般化線形モデルの枠組みの下でパラメータを変換するために使われうる。

分割回帰

カラシの収量と土壌の塩分濃度
詳細は「分割回帰」を参照

独立変数(説明変数、X)は複数のクラスまたは区分へと分割することができ、区分ごとに線形回帰を実行することができる。信頼度分析を伴う分割回帰では従属変数(説明変数、Y)が様々な区分において異なる振る舞いをする結果が得られるかもしれない[1]

右図は、土壌塩分(X)がマスタードの収量(Y)に最初は、「臨界値」または「閾値」まで、影響を与えず、その後は収量に負の影響を与えることを示す[2]

出典

  1. ^ R.J.Oosterbaan, 1994, Frequency and Regression Analysis. In: H.P.Ritzema (ed.), Drainage Principles and Applications, Publ. 16, pp. 175-224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 90-70754-33-9 . Download as PDF : [1]
  2. ^ R.J.Oosterbaan, 2002. Drainage research in farmers' fields: analysis of data. Part of project “Liquid Gold” of the International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Download as PDF : [2]. The figure was made with the SegReg program, which can be downloaded freely from [3]

  1. ^ このモデルは生化学の慣習では以下のように表記される:
    v = V max   [ S ] K m + [ S ] {\displaystyle v={\frac {V_{\max }\ [{\mbox{S}}]}{K_{m}+[{\mbox{S}}]}}}

推薦文献

  • Bethea, R. M.; Duran, B. S.; Boullion, T. L. (1985). Statistical Methods for Engineers and Scientists. New York: Marcel Dekker. ISBN 0-8247-7227-X 
  • Meade, N.; Islam, T. (1995). “Prediction Intervals for Growth Curve Forecasts”. Journal of Forecasting 14 (5): 413–430. doi:10.1002/for.3980140502. 
  • Schittkowski, K. (2002). Data Fitting in Dynamical Systems. Boston: Kluwer. ISBN 1402010796 
  • Seber, G. A. F.; Wild, C. J. (1989). Nonlinear Regression. New York: John Wiley and Sons. ISBN 0471617601 

関連項目

標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ