« 職場の庭にミイデラゴミムシ | トップページ | ヒヨドリバナにイカリモンガ »

2009年10月15日 (木)

『不偏長軸』という概念

 今日は帝京大学医学部の池本孝哉先生をお招きして、『昆虫の「内的な発育最適温度」とその意義』という演題でセミナーを行っていただいた。昆虫の発育は温度の影響を受け、ある一定の温度範囲のうちでは、温度環境と発育速度との間には直線的な関係にあることが経験的に知られている。しかし、ある一定の温度範囲をはずれると、低すぎても高すぎても発育速度はその直線関係から外れてしまう。極端な温度になれば、発育できないばかりか、死亡してしまうことになる。このあたりの関係について、池本先生には熱力学に基づいた非線形モデルを使えば、昆虫の発育速度について、色々な考察ができるようになる、という話をしていただいた。大変勉強になるセミナーだった。
 さて、この話の中で「不偏長軸」という概念が出てきた。これまでに全く知らなかったし、ネットで検索してもほとんど何も出てこない。これは何かと言えば、ある2つの変数の間の関係を見たとき、一般的には y = a + bx という一次回帰直線で関係の傾向が示されることが多いのだが(例えばxが温度でyが発育速度)、その場合には実際にxとyのあいだのばらつきから想定される関係の直線よりも、傾きが小さくなるので、実際に見て取れる関係に近い直線を導こうというものだ。
 具体的にどうするかと言えば、y = a1 + b1x という回帰直線と x = a2 + b2yという回帰直線を描いたとき、その交点を通り傾きが2つの回帰直線の傾きの幾何平均(√[b1/b2])になる直線を求めるのである。xとyの間に極めて高い相関がある場合は、yをxで回帰した直線と不偏長軸との間に大きな違いが無いのであまり不都合はないのだが、やはり不偏長軸を使った方がいろいろな利点があるらしい。
 ぼくがよく使うのは、発育零点(温度が下がった場合に発育速度が0になるという仮想的な温度)を求めることだが、これは一般的にはこれまで y = a + bx (xが温度でyが発育速度)という直線に一次回帰し、発育速度に0を代入して求められてきた。不偏長軸を用いると、一次回帰した場合よりも、この発育零点がより高く計算されるということになるようだ。
 不偏長軸という概念がどれほど使い物になるかはよくわからないが、とにかく一つ勉強になった。

|

« 職場の庭にミイデラゴミムシ | トップページ | ヒヨドリバナにイカリモンガ »

コメント

Reduced Major Axisのことでしょうか。あまり聞かない訳語ですが、検索すると使われている例がありました。Major Axisは長軸ではなく主軸と訳されることが多いと思います。

これは、どちらが独立変数でどちらが従属変数であるのか特定できない状況で使うものです。温度と発育速度の関係に使うには適していません。発育速度は温度の影響を受けることがあっても、温度が生物の発育速度に影響されることはないからです。このように、相関関係において因果の方向性が確定できる状況では普通用いません。

ちなみに、私は卒論から使っていました。貝殻の形態解析で殻長と殻高、殻幅間の関係を比較していたため、因果の方向性が特定できなかったからです。

投稿: 橘 | 2009年10月25日 (日) 04時44分

橘さん、コメントありがとうございました。
 池本先生による「不偏長軸」という述語は、おっしゃるとおり"Reduced Major Axis"の訳語です。どちらが独立変数でどちらが従属変数であるのか特定できない場合に、どちらかを独立変数にして、もう一方を従属変数にして回帰分析するのが適切でないことは容易に理解できます。ところが、温度と発育速度のように、温度が独立変数で発育速度が従属変数であることがはっきりわかる場合にも、不偏長軸を用いる利点があるということを池本先生は強調されていました。
 我々が様々な温度条件で発育速度を計測するとき、実際には発育速度ではなく、発育にかかった時間(発育時間)を計測します。ですから、発育時間の逆数としての発育速度を温度で回帰すると、温度が低い部分での誤差のばらつきの影響が大きくなってしまいます。ここで不偏長軸を用いると、温度が低い部分での誤差のばらつきの影響を小さく抑えることができる、というものです。
 横軸に温度、縦軸に(発育速度ではなく)発育時間をとって、95%の信頼限界を付して曲線を描いてみると、理解し易いと思います。発育時間の逆数としての発育速度を温度で回帰した場合には、低温の部分で95%の信頼限界の幅が広がりますが(実際には発育時間を計測して、その逆数を従属変数として回帰しているので、ということだとぼくは理解しています)、不偏長軸を用いた場合は、中間部分で95%の信頼限界の幅がもっとも広がります。
 ぼくも十分に理解したわけではなりませんが、「ふ~ん、なるほど!」と思いました。
 橘さん、ぼくの理解に間違いがあるようでしたら、ご指摘いただけると幸いです。

投稿: Ohrwurm | 2009年10月25日 (日) 09時56分

そのような状況で、通常の回帰分析よりもRMAの方が適切であるということが理論上支持されるのでしょうか。温度が低い部分での誤差のばらつきの影響を小さく抑えることができるのは、本当に適切なのでしょうか。また、副作用はないのでしょうか。
これは、そもそも扱う従属変数か当てはめるモデルが不適切な気がします。「成長速度」に変換して直線回帰すること自体がおかしいんじゃないでしょうか。時間を揃えて異なる温度で育った同齢個体の体長を変数変換した値を従属変数にしたらどうでしょうか。

投稿: 橘 | 2009年10月26日 (月) 19時05分

橘さん、再びコメントありがとうございました。
 ぼくと橘さんさんとの間で根本的なところで違いがあるのに気が付きました。ぼくは昆虫を扱っていますので、測定するのは体長のようなものではなく齢期間、すなわち時間です。ですから、時間を一定にして発育速度を測るようなことはしません、と言いますか、普通はできません。ですから、このような問題に直面するのだと思います。
 前のコメントでは手元に資料がありませんでしたので、不十分な書き方しかできませんでしたので、あらためて書きます。
 従来の方法では、発育期間Dについての法則式 (1/D)=-(t/k)+(1/k)T (Tは温度、tは発育零点、kは有効積算温度)に回帰直線を適用していましたが、池本先生は、この式を変形して、(DT)=k+tDに対して不偏長軸(RMA)を適用し、求めたkとtの値をもとの法則式に入れる、という方法を提案されています。

投稿: Ohrwurm | 2009年10月26日 (月) 19時31分

計算の内容は分かりましたが、それが何故良いという話になるのかはやはりよく分かりません。機会があれば自分でも調べてみます。では。

投稿: 橘 | 2009年10月26日 (月) 22時59分

橘さんがツッコミを入れていただいたおかげで、ぼくも復習する良い機会になりました。感謝申し上げます。

投稿: Ohrwurm | 2009年10月26日 (月) 23時08分

誤差の問題ではなく、測定単位によって統計量を考える問題ではないでしょうか。

時速50Kmと時速100Kmとの2台のクルマが1時間に走る距離は150Km、平均走行距離は75Kmです。

50と100の幾何平均は70.7です。(=(50*100)^(1/2) )。

時速の平均とすると、100Kmを走るのに一方は2時間、もう一方は1時間、合計200Kmで3時間・・・調和平均は67Km/h(=2/(1/50+1/100)) となります。

虫が1ステージをクリアーするのに要する時間(単位量(長さや重さ)/時間)を問題(従属変数)に使うなら、幾何平均よりも調和平均をつかうのが自然な感じがしますがどうでしょうか。

数学的には
相加平均 ≥ 幾何平均 ≥ 調和平均
ですね。

投稿: こけた | 2009年10月27日 (火) 15時52分

こけたさん、コメントありがとうございます。
車の場合に例えるのは分かり易い感じがします。
昆虫の場合は、ある一定の温量(温度×時間)が一定量に達すると次の発育段階に進む、という経験則がありますから、車の場合の距離を一定と考えて、調和平均を使うのが良いように思えます。
しかし、不偏長軸(RMA)を求めるのにyをxで回帰した直線の傾きと、xをyで回帰した直線の傾きの幾何平均をとるのは、別の話だと思います。
もう少し頭の整理が必要ですね。慌てずにゆっくり行こうかと思います。

投稿: Ohrwurm | 2009年10月27日 (火) 20時06分

RMA:reduced major axis regression XからYへの回帰式の回帰係数と、YからXへの回帰式の回帰係数との幾何平均をもってあらたな「回帰係数」とするという方法ですね。(いわば、どっちつかず回帰?)

これはX,Yのどちらが従属変数か判然としないとき、すなわち互いに相関関係があるとしかいえないときに、理念的な「回帰直線」を仮定するということ・・・各観測データ点から理念直線への垂線の長さの二乗和を最小化する・・・という考え方だと思います。

因果関係と考える場合、回帰直線上には観測されたXの値に対する最良の予測値=理論値としてのYがのっかっているのです。観測値Yとの誤差の二乗和もそのときが最小です。
気温となると、一見、幼虫の成長の原因と考えられますが、また、飼育下におかれた幼虫や蛹なんかは積算温度みたいなのが要因系にあるんでしょうが、自然状態では気温と産卵数とか幼虫群の規模なんかの関係もありそうだし、食料の供給も気温との関係がありそう・・・たとえばウマノスズクサを食べつくした幼虫が土用芽の芽ぶきをゆったり待つなんてこともあるかも・・・というような仮説下だと、このようなデータ処理もありかも。

投稿: こけた | 2009年10月27日 (火) 20時51分

こけたさん、またまたコメントありがとうございます。
 池本先生の方法は、まだ一般的にはほとんど利用されていませんので、何らかの欠点があるのかも知れません。わざわざセミナーの講師として来ていただいたのは、新しい方法を十分に説明していただけることを期待していたわけです。まあ、そういうわけで、ぼくもまだ消化不良ですので、ヒマなときにゆっくり考えようと思います。不偏長軸(RMA)を適用するのに、(DT)=k+tDという形に変換する理由も、まだ十分に理解できていません。
 ところで、昆虫の発育速度を調べるときは、餌条件は理想的な状態にして実験しますので、ここでのモデルでは、そのようなことは想定されていないはずです。
 悪い餌を与えれば、発育が遅れるのは、まあ当たり前と言えば当たり前ですね。何度かそういう実験をしたことがありますので、そのあたりのことは実感しているつもりです。

投稿: Ohrwurm | 2009年10月27日 (火) 21時20分

一般的な回帰とMA、RMAとの違いについては以下のサイトにわかりやすい説明がありました。
http://www7.atwiki.jp/hayatoiijima/m/pages/23.html?guid=on

一般回帰はXからYを予測することを目的とする。
MA,RMAはXとYの関係を検討することを目的とする。
とあり、MAは傾きを実単位で、RMAは傾きを標準化データで処理するとあります。

σ(^-^)はRMAという名前は知りませんでしたが、相関係数、回帰分析の教科書でこのようなデータ処理を何度か見ています。また、実際にもプロット図に確率楕円を描いて2変量の関係を図示してみるようなことはやったことがあります。その楕円がRMAの回帰係数であることや、RMAと呼ばれる回帰分析手法とは今回お初でした。

Ohrwurmさんと橘さんとのやりとりに興味をもって首を突っ込んだおかげで思わぬ勉強ができました(^_^;) ありがとうございます。

最近、喫煙習慣と肺がんリスクとは因果関係ではなく相関関係だという疫学をめぐる議論に興味を持っているところ (^_^;)

投稿: こけた | 2009年10月28日 (水) 10時39分

「不偏長軸」とは、すなわち、散布図に描いた確率楕円の長軸の向きが、それぞれ標準化されたX,Yデータ(不偏)の「回帰係数」となっているということを表している実に巧みな意訳のように思えてきました(^_^;)

投稿: こけた | 2009年10月28日 (水) 20時19分

こけたさん、またまたコメントありがとうございます。
http://www7.atwiki.jp/hayatoiijima/m/pages/23.html?guid=on
ここに書かれていることは参考になりそうです。
学校を出てから新しい手法を勉強する機会がなかなか無く、学生時代に習った手法をずっと使い続けていたわけですが(単なる相関にもyをxで回帰していたり)、それではまずかったということがよくわかりました。
日常はなかなかじっくり勉強する時間がありませんが(余計な本を読んだりしていますが)、これについては少しずつでも勉強していこうと思います。
橘さんだけでなく、こけたさんにもツッコミを入れていただき、感謝いたします。

投稿: Ohrwurm | 2009年10月28日 (水) 21時46分

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/182871/46499724

この記事へのトラックバック一覧です: 『不偏長軸』という概念:

« 職場の庭にミイデラゴミムシ | トップページ | ヒヨドリバナにイカリモンガ »