ChatGPTの大ブレークは人間のフィードバックからの強化学習の成果 - つれづれ電脳記（日くらしPCに向かひて）

　今日は土曜日なので会社は休みです。ですが、歯の治療の続きのため、今日も列車で、会社近くの歯科医院まで行ってきました。
　歯の治療の帰り、図書館に立ち寄り、ある雑誌をパラパラっと眺めてきました。

　雑誌には、ChatGPTを取り上げている記事があり、ササっと流し読みしました。
　その記事の中で、特に、

ChatGPTは「攻撃的な回答、間違った情報を回避するための訓練を受けている。」

という部分が目を引きました。
　
　というのは、GPT-3までの従来のGPTは、ユーザーの意図に沿うという点では、以下のような限界があったというのです。
１　ユーザの明示的な指示に従わないことがある。
２　存在しない、あるいは誤った事実を基にした誤った出力をすることがある。
３　有害、不快または攻撃的なコンテンツが含まれている。
　

　ChatGPTにおいては、その課題を克服し、信頼性を高めるために、人間の判断を盛り込んだ追加的な学習を施しているのが特徴のようです。
　開発元のOpenAIは、これを
　「人間のフィードバックからの強化学習」
　　（その頭文字をとって「RLHF」）
と呼んでいます。

　その強化学習、RLHFは、

【１】　様々なパターンによる問いかけに的確に答える
【２】　差別、偏見を含む不用意な発言をしないよう、出力にフィルターをかける

ようにするのが目的です。
　
　そのための学習データは、アウトソーシングによって、人手をかけて集めたようです。

　ChatGPTが今のように大ブレークしたのは、上記の訓練
（人間のフィードバックからの強化学習）の成果、たまものでしょう。

　人間様であっても、不用意な発言をしてしまい、大きな問題となることがたまにあります。
　（某氏の「女性がたくさん入っている会議は時間がかかる」発言など）
　
　なお、ChatGPTの回答にウソ情報が含まれることについては、まだ発展途上のようで、こらからの進化に期待したいものです。