田口善弘@中央大学:僕は自然言語処理の専門家というわけじゃないので以下の文献に従って紹介します。
Evaluating Large Language Models (LLMs) with Eleuther AI – Weights & Biases
(wandb.ai)
(1) どのようなカテゴリーの問いを与えるのがよいでしょうか,数個箇条書きで示してください。
とのことですが、最近のLLMのテストは200以上のタスクからなっていて(以下参照)
lm-evaluation-harness/task_table.md at master · EleutherAI/lm-evaluation-harness
(github.com)
もはや「数個箇条書きで」とかいうレベルでは説明できません。この表の一番上はアナグラムですし途中にずらっと並んでいるBLiMPは
2020.tacl-1.25.pdf (aclanthology.org)
からとられたものでこれは単語の対応関係を示すもので例えばblimp_anaphor_gender_agreement
は再帰代名詞の性別が正しいかということをテストするものになっています。
(2) これらの問いに対するLLMの応答を評価するにはどのような分析をするのが適当でしょうか。
上記の表には評価指標も書かれていますがほぼ全部ACCです。ACCは正解がどれくらい得られたかの指標で一番単純な「当たりの割合」の評価指標で正例と負例のバランスが悪いと妥当な指標になりませんので一部f1というバランスが崩れた時の指標も使われているようです。
(3) これらを自動的に実行するためのプログラムはどのように設計して実装すればよいかヒントをください。
この文献そのものがそもそも、自動化を目指したPythonのスクリプト群です。
それでは健闘を祈ります(もっと詳しい人が説明してくれることいいですね)。