僕は自然言語処理の専門家というわけじゃないので以下の文献に従って紹介します。<a target="_blank" rel="noopener noreferrer nofollow" href="https://wandb.ai/wandb_gen/llm-evaluation/reports/Evaluating-Large-Language-Models-LLMs-with-Eleuther-AI--VmlldzoyOTI0MDQ3#evaluation-metrics">Evaluating Large Language Models (LLMs) with Eleuther AI – Weights &amp; Biases (</a><a target="_blank" rel="noopener noreferrer nofollow" href="http://wandb.ai">wandb.ai</a><a target="_blank" rel="noopener noreferrer nofollow" href="https://wandb.ai/wandb_gen/llm-evaluation/reports/Evaluating-Large-Language-Models-LLMs-with-Eleuther-AI--VmlldzoyOTI0MDQ3#evaluation-metrics">)</a>(1) どのようなカテゴリーの問いを与えるのがよいでしょうか，数個箇条書きで示してください。とのことですが、最近のLLMのテストは２００以上のタスクからなっていて（以下参照）<a target="_blank" rel="noopener noreferrer nofollow" href="https://github.com/EleutherAI/lm-evaluation-harness/blob/master/docs/task_table.md">lm-evaluation-harness/task_table.md at master · EleutherAI/lm-evaluation-harness (</a><a target="_blank" rel="noopener noreferrer nofollow" href="http://github.com">github.com</a><a target="_blank" rel="noopener noreferrer nofollow" href="https://github.com/EleutherAI/lm-evaluation-harness/blob/master/docs/task_table.md">)</a>もはや「数個箇条書きで」とかいうレベルでは説明できません。この表の一番上はアナグラムですし途中にずらっと並んでいるBLiMPは<a target="_blank" rel="noopener noreferrer nofollow" href="https://aclanthology.org/2020.tacl-1.25.pdf">2020.tacl-1.25.pdf (</a><a target="_blank" rel="noopener noreferrer nofollow" href="http://aclanthology.org">aclanthology.org</a><a target="_blank" rel="noopener noreferrer nofollow" href="https://aclanthology.org/2020.tacl-1.25.pdf">)</a>からとられたものでこれは単語の対応関係を示すもので例えばblimp_anaphor_gender_agreementは再帰代名詞の性別が正しいかということをテストするものになっています。(2) これらの問いに対するLLMの応答を評価するにはどのような分析をするのが適当でしょうか。上記の表には評価指標も書かれていますがほぼ全部ACCです。ACCは正解がどれくらい得られたかの指標で一番単純な「当たりの割合」の評価指標で正例と負例のバランスが悪いと妥当な指標になりませんので一部f1というバランスが崩れた時の指標も使われているようです。(3) これらを自動的に実行するためのプログラムはどのように設計して実装すればよいかヒントをください。この文献そのものがそもそも、自動化を目指したPythonのスクリプト群です。それでは健闘を祈ります（もっと詳しい人が説明してくれることいいですね）。

対話型大規模言語システム（LLM）の性能を評価するための指標について興味があります。 (1)
どのようなカテゴリーの問いを与えるのがよいでしょうか，数個箇条書きで示してください。 (2)
これらの問いに対するLLMの応答を評価するにはどのような分析をするのが適当でしょうか。 (3)
これらを自動的に実行するためのプログラムはどのように設計して実装すればよいかヒントをください。

対話型大規模言語システム（LLM）の性能を評価するための指標について興味があります。 (1) どのようなカテゴリーの問いを与えるのがよいでしょうか，数個箇条書きで示してください。 (2) これらの問いに対するLLMの応答を評価するにはどのような分析をするのが適当でしょうか。 (3) これらを自動的に実行するためのプログラムはどのように設計して実装すればよいかヒントをください。