LLMの文章生成の結果を評価するG-EVALを調べてみた 投稿日: 2024年8月25日2024年8月27日 投稿者: mima3 概要 LLMなどで作成されたテキストの品質を自動測定するのは難しい。 コサイン類似度やBLEUなどの手法があるが、それは人間の判断とは違いが多い。 G-EVALではタスクの導入と評価基準から評価手順をLLMで作成させた評… 全文を読む