「京都大学がビッグデータの新統計法則を発見、「べき則」の普遍性を解明」というニュースを読んで

(追記:論文をちゃんと読んでみたら感覚的な証明しかなかった。「追記2」に詳しく書いた。ここだけでも読んでほしい。)
(さらに追記:長くなったので冒頭に要約をつけた。)

要約
 この記事ではニュース記事「京都大学がビッグデータの新統計法則を発見、「べき則」の普遍性を解明 | 大学ジャーナルオンライン」についての解説を行った。このニュース記事は Journal of the Physical Society of Japanに掲載されたMasaru Shintani, Ken Umeno両氏(梅野健氏は京都大学の教授)による論文「Super Generalized Central Limit Theorem —Limit Distributions for Sums of Non-identical Random Variables with Power Laws—」の内容を紹介する記事だ。僕は記事タイトルの「新統計法則」という言葉に興味を惹かれ、ニュースの元ネタであるMasaru Shintani, Ken Umenoによる論文を読んだ。この論文は大きく2つの部分からなり、1つは数学的に定理を証明するパート、もう1つは得られた結果を数値シミュレーションするパートだ。僕は後者については知識がないので前者に対する評価のみを行った。
 結論としては、「この論文の主定理に当たる命題は証明されておらず、ほぼ無関係かつ自明な命題の証明のみを行っている。当然数学的に新規性のあるアイデアはない」というものになる。

本文
 さっきはてなのトップを見たら次の記事が目についた。
京都大学がビッグデータの新統計法則を発見、「べき則」の普遍性を解明 | 大学ジャーナルオンライン

 「新統計法則」とは魅力的な響きだ。一方で「「べき則」の普遍性を解明」という言葉には少し首をかしげたくなる。「べき則」はここでは安定分布の意味で用いられていると思うが、安定分布が普遍的な対象だというのは確率論を知っている人からしたら当たり前のことだからだ。どういう意味で普遍的かと言うと、独立同分布の確率変数の和を適切なスケールで極限をとったときの収束先は必ず安定になるという意味でだ。
 ただ今回の記事には、

異なるべき分布を個々に持つ独立な確率変数の和という統計モデルを定式化した。その上で、データの数Nを無限にする極限において、レビの安定分布に収束するという極限定理を導出した。

とあり、独立同分布の和とは限らない場合に証明していることが分かる。これを読んで第一に尋ねるべきは「どのような仮定の下で?」ということだ。
 まず仮定なしには成り立たないことは明らかだ。例えば足していく確率変数の分布の裾の減衰がどんどん遅くなっていくとすると適切なスケールをとれず、そのため非自明な極限に収束させることが不可能になる。(追記:ちゃんと計算したら収束する例が普通に作れたため、これは嘘です。すみません。ただし「裾の減衰のオーダーが漸近的に x^{-1} のオーダーに近づく」場合にはやはり収束しません。些か自明な反例ではありますが。)つまり裾の減衰をコントロールする何らかの条件は必要だろう。例えば非独立同分布な確率変数の和に関する極限定理でおそらく最も知名度の高いリンデベルグ中心極限定理に現れるリンデベルグ条件は裾の減衰に非常に強い制限を課している。

 前置きはこれくらいにして当該の論文では何を証明したのかを見ることにする。論文はオープンアクセスではないようだがプレプリントarXivで読める。
[1702.02826] Super Generalized Central Limit Theorem: Limit distributions for sums of non-identical random variables with power-laws

 先に断っておくと僕はこの論文をちゃんとは読んでいない。理由は大きくは面倒臭いというものだが、もっとちゃんと言うと書き方が数学のものとは違うため読みにくいという理由だ。だから誤読の可能性は十分にあることを理解しておいてほしい。僕はarXivの方ではなくジャーナルに掲載されている方を読んだが、誰でもアクセスできるわけでは無いことを考慮してarXiv版の方に準拠して話を進める。

 この論文のMain Theoremにあたる命題の前提条件は2ページ左下のあたりの(Condition1)、(Condition2)だ。(Condition1)は C^+, C^- という2つの確率変数がそれぞれ正値、負値をとり期待値有限という条件だ。 C^+, C^- が何かはこの先で分かる。
 (Condition2)が大事で、和をとる確率変数 X_i の確率密度 f_i の裾の減衰を規定していて、大きくは正側、負側それぞれの減衰が x^{-(α+1)} のスピードであるという条件だ。ここで注意しなくてはならないのは α は α_i ではなく単に α だということだ(そしてもちろんこのαが収束先の安定分布の安定パラメータとなる)。つまり添え字i に応じて減衰のスピードが異なるわけでは無い。その意味でニュースの文面の「異なるべき分布を個々に持つ独立な確率変数の和」というのは多少misleadingな感じがする。ただし異なるべき分布というのは本当だ。分布に制限がついているのは裾の振舞いだけで、小さな値についてはそれぞれ異なっても良い。また裾の減衰の速度は決まっているが、 f_i(x) ~ c_{+i} x^{-(α+1)} (x → ∞)とあるように c_{+i} はそれぞれ異なってよいし、実は c_{+i} というのは先ほど書いた C^+ の分布に従うようにとられている。つまり裾の減衰の定数倍部分がランダマイズされている(ここで C^+ も i に依存していないことを注意しておく。つまりランダマイズの仕方は i によって変わらない。また C^+ の期待値が有限という条件から C^+ の分布の減衰がある程度規定されることも注意しておく)。

 少しややこしくなってきたがまとめると、ニュースの文面にある「異なるべき分布を個々に持つ独立な確率変数の和」というのは少し誤解を招く言い方で、正確には「『裾の減衰のオーダーは確率変数ごとに共通だが、裾の振舞いは定数倍程度異なり、更にその定数は独立同分布な確率変数により生成される』独立な確率変数の和」というものだ。

 こう書いてあれば、「確かに成り立ってもおかしくないな」という感じの主張になる。「新統計法則」というよりは古典的な結果を一定の仮定の下で拡張したという感じがする。ただ全く自明な結果ではないように見える。それぞれの確率変数の漸近挙動を仮定しているとはいえ、どのくらい大きく x をとれば f_i(x) ~ c_{+i} x^{-(α+1)} という近似ができるかを仮定していない。つまり添え字に関して一様な近似を仮定しているわけでは無い(もしかしたらしているのかもしれないが)。また C^+ のランダマイズがどれくらい効いてくるのかもよく分からない(大数の強法則のおかげで漸近的には定数と見なせそうな気もする)。本当はそこらへんも検討してこの定理がどのくらい非自明かの説明もできるといいのだけれど他の事で忙しいのでこの辺で終わる。

ーーーーーーーーーーーーーー
追記1

ニュースの文面と論文タイトルにある「超一般化中心極限定理」というのは少しどうなんだろうという気がする。僕は知らなかったのだが独立確率変数の和のスケール極限が正規分布以外の安定分布に収束するのを「一般化中心極限定理」と呼ぶことがあるらしい。今回の論文の結果はそれの同分布性を弱めたから「超一般化~」と言っているようだが、この結果は特別な場合に対する一般化で、新たな一般化の方向を決定づけるものでは無いと思う。つまり一般化中心極限定理の変種というのが正しいのではないだろうか。

あと「一般化中心極限定理」は非常に古典的な結果で、確率論入門書の古典的名著であるフェラーの『確率論とその応用』にも載っている。最近の本だと、

ランダムウォーク はじめの一歩: 自然現象の解析を見すえて

ランダムウォーク はじめの一歩: 自然現象の解析を見すえて

にもこの辺のことが詳しく書いてある。この本は少し前に見つけてちょこちょこ読んでいるが、聞いたことの無い話題が色々書いてあって面白い。おすすめ。

追記2
 昨日この記事を書いた後、上で書いた「近似の一様性」無しで証明出来るはずがないと思い、ちょっと注意深く論文を見直してみた。すると

Outline of the proof—Although the following is not mathematically rigorous, we give the following intuitive proof.

とあった。最初に感覚的な説明をして後から厳密な証明をするのかと思い、読み進めたが厳密な証明は無い。最後に数値的な確認はあるようだが。しかしこれだけで「証明がない」と決めつけるのは少し早計だろう。Outlineのアイデアが素晴らしく、あとは細かな部分を埋めるだけならば問題はない。この論文ではどうか。残念だがOutlineに書いてあることはかなり雑で、控えめに見ても証明にはなっていない。アイデアも陳腐そのもの。このアイデアが適用できるように仮定を置き、その仮定を満たす分布のクラスが十分に広い、もしくは重要な例を含むことがいえて初めて研究と呼べるものになるだろう。こんなのは「intuitive」でもなんでもなくて、適当にやっているだけ。何故これでできている風の雰囲気を出しているかが分からないくらい的外れだ。

 どこがおかしいかを説明していく。はてなブログ上でTeXを使うことはできるがものすごく面倒なので、他で作成したpdfのスクショを貼るという原始的な方法をとる。以下のまとめは論文の議論をもとに僕が私的にまとめなおしたもので誤りを含む可能性があることを注意しておく。
f:id:hasamic:20180410194758p:plainf:id:hasamic:20180410194803p:plain
2枚目が多少小さくなってしまったが読めるからよいとしよう。おかしなことをしているのは上の"intuitive proof"の4,5のステップだ。ここさえ認めれば一応証明は通っている。
 まずステップ4を見る。S_Nが収束するかを知りたいのに何故か「S_Nが収束したらS_N'も同じ極限に収束するからS_N'の極限を考える」という方針をとっている。つまりこの時点でS_Nの収束を示すことは放棄している。また普通に考えれば分かることだが、コピーしたものの和を有限個とることで元のものより収束を示すのが簡単になる訳がない。また「S_N'も同じ極限に収束する」というのもかなり怪しく、少なくともMよりもよっぽど早くNを無限にもっていかなくてはならないだろう。
 しかしステップ5では驚くべきことにM→∞、N→∞の順に極限を考えるという。先にM→∞にするというのは、各X_iが元から無限個のiid確率変数の和、つまり現在の状況下だと安定パラメータαの安定分布だと仮定することとほぼ同義だ。つまりこの証明は本質的に必ずしも同分布でないα安定過程の独立和に関する極限を計算しているだけで、これを計算するのに何も難しい点はない。結局ほぼ自明かつ本筋と無関係なことを示しているに過ぎない。以上が証明に関する指摘になる。

 しかしこれほど適当な議論をしているとは思わなかった。証明の数学的価値は明確に0といっていいだろう。議論の方針からいって確率論に対する基本的な理解が足りていないことが分かる。この論文に意味があるとすれば数値計算の部分になるのだろうが、僕はその方面の見識を全く持っていないのでコメントは控える。ただ1つ注意をしておくと、上の命題の仮定を満たしつつ収束しない確率変数列は容易に作ることができるので、シミュレーションで現象が確認できたとしても、それはシミュレートする確率変数に暗黙に良い条件を持ち込んでいるからで、上の命題がそのままで正しいことの証拠にはならない。