ところてん:基本的にはユーザと相対することで、ユーザの入力がそのまま学習データになると考えられます。
ChatGPTを実際に使ったことはありますか?ChatGPTのUIにはPositive、Negativeを付けるところがあります。これが将来的な教師データとなっていきます。ChatGPTへの入力と出力が今後の教師データになるわけです。
ChatGPTの利用者は1億人を突破したといわれています。このうち1%のユーザがポジネガを付けていると仮定すると、それでも教師データを提供してくれているユーザは100万人もいるわけです。これは十分な量の教師データの供給に繋がります。
またこのほかにも、最後の質問に対する回答を再生成するボタンというものがあります。このボタンが押されるときはどのようなタイミングだと思いますか? ユーザはChatGPTの回答が気に入らなかったときにこのボタンを押します。つまり回答が不適当だったのです。
すなわち、このボタンが押された回答は、何らかの理由で不適切であり、その後Regenerateボタンが押されなかったのであればこれは有効な回答であったと判断することができます。
こういった「暗黙的」なラベル付けは、Implicit
Feedbackと呼ばれています。このアプローチは精度は悪いですが、大量のデータを取得できるため、データ量によって適切な学習が行える可能性があります。
また、学習データの供給源としては次に有望なのが、書籍の中だと思われます。
https://en.wikipedia.org/wiki/GPT-3
Wikipediaからの情報になりますが、GPT-3の教師データは、主にCommon
Crawl(Webサイトのデータを収集して提供するNPO法人)からの、Webクロールによって獲得されたデータセットに依存しています。
また書籍についても利用はしていますが、ChatGPTの論文中には「two internet-based books corpora (Books1 and
Books2)」と書かれており、インターネット上に存在する書籍のデータセットを利用しているようです。
https://proceedings.neurips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf
では実際に何が使われているかというと、答えはOpenAIのドキュメントの中にありました。
https://huggingface.co/transformers/v3.3.1/model_doc/gpt.html
Toronto Book Corpus を利用しているようです。
こちらはどんな内容かというと、インターネット上で収集された、出版社から出ていない書籍のデータセットのようです。
https://en.wikipedia.org/wiki/BookCorpus
従って、GPTで使われている教師データは、有償販売されている書籍を含んでいない可能性が高く、書籍の中にしか記載されていない情報というものを知らない可能性が高いです。
そのため、今後は有償販売されている書籍のデータセットを、出版社に対して適切な対価を支払って購入する可能性があると思われます。
追記
何度かRegenerate responseボタンを押していたら、このような評価をするUIが出てきました。