作文や会話のような客観的に評価できない項目の評価ってなかなか難しいですよね。
もし練習であれば、添削やコメントをするだけでもいいと思うんですが、テストの一問題となると点数化しないといけなくなります。
そういう評価をする場合、大きく分けて以下の評価方法があると思います。
・全体的評価(ホリスティック評価)
・分析的評価(ルーブリックなど)
全体的評価はホリスティック評価などとも言われますが、単一の基準で点をつける方法ですね。日本留学試験の「記述」などではこの方式で採点しているそうです。
一方、ルーブリックに代表される分析的評価は、評価する要素を決めてそれぞれに採点をし、それらを合計する方法です。
ルーブリックの良い点は、パフォーマンスの詳細が可視化しやすいところですかね。とにかくこれをつかって作文などを評価している人は多いのではないでしょうか。
で、今回はこのルーブリックをChatGPTにやってもらいました。例として取り出す作文とルーブリックは以下の本から持ってきました。
問題とルーブリック
この本に以下のような問題があります(p20、p70から引用)。
で、それに対する回答の例として、以下のような3つの作文例があります。
(a)ここはとてもにぎやかな町です。人がたくさんいます。車もたくさん走ります。店もたくさんあります。ロシア料理やタイ料理やインド料理です。音楽の店もあります。電車の中に人がたくさんいます。遠くに山が見えます。(101文字)
(b)わたしはいま町が見えます。とてもにぎやかな町ですから、いろいろな店やレストランがあって、多い人が買い物をしたり、歩いたりします。アイスクリームの店では、人がたくさん並びますから、アイスクリームがおいしいと思います。それから、電車も走って、ここは駅に近いそうです。電車の中で、皆さんは話したり本を読んだりしています。富士山みたいの山があって、大きい木があって、とてもいい町です。(188文字)
(c)人がたくさんいます。店とレストランがいろいろあります。人たちは買い物です。人たちは電車の中にもです。(50文字)
そしてそれを以下のルーブリックで評価してみよう、というのがこの本の内容です。
ChatGPT氏の評価
(a)~(c)の作文例をChatGPTにやってもらいました。プロンプトは以下の通り(お題になっている絵は見せることができませんので省略しました)。
さて、(a)の作文に対する評価は・・・
作文(a):ここはとてもにぎやかな町です。人がたくさんいます。車もたくさん走ります。店もたくさんあります。ロシア料理やタイ料理やインド料理です。音楽の店もあります。電車の中に人がたくさんいます。遠くに山が見えます。
同様に(b)の評価も見てみましょう。
作文(b):わたしはいま町が見えます。とてもにぎやかな町ですから、いろいろな店やレストランがあって、多い人が買い物をしたり、歩いたりします。アイスクリームの店では、人がたくさん並びますから、アイスクリームがおいしいと思います。それから、電車も走って、ここは駅に近いそうです。電車の中で、皆さんは話したり本を読んだりしています。富士山みたいの山があって、大きい木があって、とてもいい町です。
作文(c):人がたくさんいます。店とレストランがいろいろあります。人たちは買い物です。人たちは電車の中にもです。
本の模範回答との比較
ChatGPT | 模範回答 | |
(a) | 9 | 10 |
(b) | 10 | 10 |
(c) | 5 | 5 |
で、その出てきた数字を本にある模範回答と比較してみたのが上の表です。
なかなか近接する数字が出ましたね。みなさんが評価するとどうなるでしょうか。これは「何点が正しい」というような絶対的な答えがありませんからなんとも言えませんが、割とChatGPT氏もいい線いっているのではないでしょうか。
さすがに今の時点で「作文はChatGPTで評価します」とは言えないとは思いますが、点数を出すときにChatGPTがつけるコメントは、採点をする時に役に立つかもしれませんね。
評価の揺れ
あとですね、やっぱ「揺れ」があるんですよ。それぞれの作文を同じプロンプトで3回ずつ評価してもらったのが以下の表です。
1回目 | 2回目 | 3回目 | 平均 | |
(a) | 9 | 9 | 7 | 8.3 |
(b) | 10 | 9 | 9 | 9.3 |
(c) | 5 | 5 | 5 | 5 |
どうでしょうかね。こうやって各作文を3回評価してもらって平均点を出すみたいなのだったら、もう機械採点でもいいような気もしますが。。。だめでしょうか笑
私は割と使えるのではないかと思いました。ルーブリックでは観点は3つくらいまで設定するのが普通ですけど、それは人間が採点することを前提にしているからですよね。AIなら10個観点があってもあんまり負荷は変わらないでしょうし、それならもっとおもしろい採点ができるのではないでしょうか。
まあ、さすがに資格試験などではまだまだ使えないとも思いますが、書いた本人が自分で入力して、足りない点を考えるみたいなツールとしては十分使えると思います。いかがしょうか。
最後にこの試みの注意点を申し上げておきます。
・この問題は絵を見て回答する問題だが、絵は読み込めていないので、絵にないことが書かれていてもそれは評価できない。
・有料版のChatGPTを使っている。
以上です。