田口善弘@中央大学:ご質問の趣旨からはちょっとずれてしまうのですが、そもそもただ単にデータ量が多ければ性能があがるというわけじゃないです。「独立なデータが増える」ことが大事です。「言語モデルなどのNN(*)の性能が、訓練ステップ数、データセットのサイズ、パラメータ数の3変数の冪乗に比例する」という経験則があることはあるのですが、データセットについては同じようなデータが増えても性能があがらないです。さて「既存の文章をほぼ全て網羅してしまった」という情報のソースを寡聞にしてしらないですが、もしそうなら、現時点で人間が書きそうな文章は全部学び終えてしまったのですから、時間が経って新しい用語や新しい出来事が増えない限り、「今後の学習深化に必要な文章」は得られないでしょう。なのでご質問の答えは「時間が経過してから新しい分を足していく」ということにならざるを得ないと思います。
(*)ニューラルネットワーク。深層学習もNNの一種です。
参考
Recruit Data Blog | NeurIPS 2022 参加報告 後編