【AIを比較テスト】「ITパスポート試験」を解かせたら、1位になったのは「東大発スタートアップ」イライザのLLM
あふれるニュースや情報の中から、ゆっくりと思考を深めるヒントがほしい。そんな方のため、スローニュースの瀬尾傑と熊田安伸が、選りすぐりの調査報道や、深く取材したコンテンツをおすすめしています。
きょうのおすすめはこちら。
「日本語言語モデルの実践的評価」研究によりIT分野での大規模言語モデル(LLM)の能力差を解明
ChatGPTをはじめとする大規模言語モデル(LLM)はどれほどの実力を持つのか。
世界中で医療や法律などさまざまな専門分野の試験にチャレンジするなど、評価が進められています。
GMOメディアはLLMがIT分野の知識においてどれほどの能力があるかを知るため、ChatGPTなど6つのLLMについて比較するテストを行い、その結果を論文としました。
ITに関する基礎知識を持っていることを証明する国家試験である、ITパスポート試験の過去問を、それぞれのLMMに解かせてみました。
研究対象になったのは下記の6つのLLMです。(モデル名/開発元)
GPT-3.5(gpt-3.5-turbo-1106 / OpenAI)
GPT-4(gpt-4-11-6-preview / OpenAI)
Japanese StableLM Alpha(Japanese Stable LM Instruct Alpha 7B v2 / Stability AI)
Swallow(Swallow-7B-instruct-hf / 東京工業大学情報理工学院・国立研究開発法人産業技術総合研究所の研究チーム)
Nekomata(nekomata-7b-instruction / rinna)
ELYZA-japanese-Llama-2-7b (ELYZA-japanese-Llama-2-7b-instruct / ELYZA)
これらのLLMに「IT パスポート試験」の過去問を解答させることで、IT 分野の問題に対しどの程度正しい解答を導き出すことができるかを評価しました。
その結果は、というと、日本製であるELYZAのLLMが72.3%の精度を記録し、OpenAIのGPT-4(70.53%)、GPT-3.5(69.9%)をしのいで、最高の精度を記録しました。
LLMにも得意分野や不得意分野があるということですね。
一方で、IT分野が苦手なLLM でも、解答を補助するヒントを与えることで解答の精度が向上することがわかりました。
現時点でのLLMについては得意不得意があることは、日本語の問題もふくめて、活用していく点からも気になりますね(瀬)