対話型大規模言語システム(LLM)の性能を評価するための指標について興味があります。 (1) どのようなカテゴリーの問いを与えるのがよいでしょうか,数個箇条書きで示してください。 (2) これらの問いに対するLLMの応答を評価するにはどのような分析をするのが適当でしょうか。 (3) これらを自動的に実行するためのプログラムはどのように設計して実装すればよいかヒントをください。

Loading...