田口善弘@中央大学:確かによく似ているので違いが分かりにくいと思います。極めて大雑把なことをいうと統計では必ず確率を考えます。その確率の使い方はいろいろで「ある仮定は正しいと仮定するとそれが正しいという確率が殆どゼロなのでこの仮定は間違いだとみなそう」という風に使われる場合もあるし、「確率が最大なのはこの場合なのでそれが起きたと思おう」という風に使われるばあいもあるし「これが正しい確率はこれこれなので、間違っている確率は1から正しい確率を引いた値にしよう」という風に使われることもあるとおもいますが、とにかくなんらかの確率を計算します。確率を計算するには何らかの仮定(モデル)が要りますから、統計はモデルを考えて確率を計算するのが通常の手続きとなります。
データサイエンスの場合は、確率を計算する必要はありません。例えば「これが小さい方がいいな」と思ったらそれが小さくなるような答えを探せばいいだけで「なんでこれが小さい方がいいのか」ということが問われたりしません。それ自体が目的ですから。
このような構造の為、データサイエンスでやっても統計でやっても同じような結果になるので区別が難しくなります。たとえば平面上に点がばらついている時、その直線の散らばりをもっともよく表す直線を探せ、となったら、統計ではなんらかのモデル(例えば直線からのずれの大きさが正規分布というある分布に従っている)を仮定して確率を計算しますが、データサイエンスでやる場合は例えば「直線からのずれの絶対値の和が最低になる線を探す」と考えてそのような直線をただ探します。この2つはやっていることが違うので結果は異なってしまいますが、ぱっと見、どっちがいいかは分からないと思いますし、実際、どっちが正しいのかは(答えを知らない限り)判断できません。
さらにややこしいことに、確率を計算しないデータサイエンスの方法を統計の人が(それを説明する確率モデルの導入無しに)統計的な手法だと主張することは普通ありませんが、データサイエンスの方は役に立ちさえすれば躊躇なく統計の方法を使います。なのでますます統計とデータサイエンスのちがいはあいまいになります。
誤解を恐れずに行ってしまえばデータサイエンスは「勝てば官軍、現実に合えばなんでもOK」という立場なのに対して統計の方は「あくまで確率ありき。確率を計算できないものはいくら現実にあっていても統計ではない」という立場です。要するに「応用重視」か「ちゃんとした根拠のないものはダメ」と思うかの差ということです。しかし、使う方からすれば要するに結果がよければでどっちでもいいので「なんのために区別してるの?」となってしまうのだと思います。