これから所謂データサイエンスを学んだり仕事で活用したりしようと考えている者です。「所謂」と書いたのは、巷間言われている同分野があたかも統計学と同義であるかのように解説されているからです。例えば既存のデータに対して最もFitの良い関数を推計する場合、データが時系列ではなくクロスセクションであった場合などは不均一分散が発生するため最小二乗法よりもプロビットやロジットなどの最尤法を使うことで解決できますが、それでもこれは統計学の範疇です。そこで質問です。

(1)上記のようなケースや、或いはそれに限らずFitの良い関数を推計するテクニックとして、統計学ではなく近似理論(数値解析法の一分野)の、例えばLagrange function、Newton's/Hermite interpolation formula(Divided difference)、Bernstein Operator、Minimax approximation (Characterization Theorem)、Least squares approximation、或いは周期関数ならフーリエ近似などのテクニックは所謂データサイエンスにおいて使わないものなのでしょうか?これらはあくまでも閥値内での近似に過ぎないからダメということなのでしょうか?

(2)個人的なバックグラウンドを背景とした質問になるのですが、私は統計学に関しては大学の学部時代に計量経済学を割と真面目にゼミで勉強し、就職してからもファイナンス関連で細々と触ってはいました。一方、40代になってから英国の大学院で数学の修士号を取得しました(ヘボい大学です)が、その時は統計学は全く触らず、上記のApproxmation theory(教科書はM.J.D. PowellのApproxmation theory and methods)や、そのほかは

Algebraic graph theory(教科書はGodsil and Royleの同名書)、

Calculus of variations、

Analytic Number Theory(教科書はApostol)、

Nonlinear ordinary differential equations(教科書はJordan and Smith)、

Coding theory and cryptography 、などです。

ヘボい大学(英国の)ですが、Distinctionで数学の修士号を取得しました。

この学力で、40代後半で、いまさらデータサイエンティストなんてやれるのでしょうか?

ご質問に回答する前に、ちょっと論点を整理しておきましょう。まず、昨今の産業界における実務系データサイエンスの構成要素は、僕が理解するところでは本質的には以下の3分類に帰着します。

  • 実験計画法

  • 統計的学習モデル

  • 最適化計画

1つ目はマーケティングの世界で「A/Bテスト」として人口に膾炙している通りです。その方法論は統計的因果推論の文脈なども踏まえると、かなり多彩になってきています。2つ目は実証分析系のモデルも含みますし、一方で機械学習分野における予測モデルも含みます。いずれにせよ統計的学習理論に拠った、何かしらの数理モデルということですね。3つ目は多少領域が限定されますが、例えばライドシェアの配車ロジックなどでは重視されることが知られています。世の中のビジネスの多くが「最適な〇〇」を欲している、というのも大きいです。

いずれにせよ、研究開発ではなくビジネス実務におけるデータサイエンスというのは、そこまで高度な学術的アプローチを必要としない、ということはご理解いただけるのではないかと思います。平たくいえば「挙動が安定していてその振る舞いも熟知されている、枯れた手法」の方が好まれる世界です。

で、ご質問の件ですが。

まず(1)は「課題設定次第」といえるでしょう。いわゆるデータサイエンス領域で統計的学習モデルが好まれるのは「確率的挙動」を対象とすることが多い(と信じられている)ためであり、そうでなければ例えば力学的アプローチなどを用いても良いわけです。

(2)に関しては、むしろそれだけの学識がおありならば実務データサイエンスで用いられるような枯れた技法をキャッチアップするのは造作もないことかと思われます。特に計量経済学とファイナンスの知識がおありなら尚更です。

どちらかというと、重要なのはそのスキルを「どこで」「どのような人たちに」アピールするか、かもしれません。それはその時々のjob marketの状況次第かと思いますので、headhuntersなど詳しい人々に聞いた方が良いかもしれません。ご参考になれば幸いです。

1年

利用規約プライバシーポリシーに同意の上ご利用ください

TJOさんの過去の回答
    Loading...