TJOさんのブログで勉強させていただいた者です。いつもありがとうございます。ランダムフォレストなどを学ばせていただきました。ところでTJOさんは交差検証をおすすめしているところをよく見かけますが、こちらはクロスバリデーションのことと思いますが、実務での使い方について不勉強なので教えてください。

例えば1000件のデータがあって10フォールドのクロスバリデーションで、ランダムフォレストを学習したとします。それぞれ一部が異なる900の学習データで学習した10個のモデルと、そのモデルの出力100件が10個できるわけですが、その精度がどれも良かったとします。これなら本番のシステムに組み込みたいとなりました。

ここからどうしたらいいでしょうか。というのも、10個のモデルからどれか一つを選んで組み込むのか。あるいはあくまでもクロスバリデーションは機械学習手法の選定に使うべきであって、モデル自体を評価するには1000件をもう一度trainとtestに分けて学習し直してできたモデルを評価し直して使うのか。

あるいは10個を多数決でアンサンブルするというようなトリッキーな話もあるのかもしれませんが。

このあたりはどのようにやるのが良いでしょうか。