チャットボットのホーム画面から、各学習に関するコーパスを確認できます。
コーパスとは
学習の初めに学習データであるファイルやURLに書かれている文章を1文ずつ抜き出し、その抜き出した文章を1行ごとにファイル名やページ数などと紐づけたデータがコーパスと呼ばれるものになります。
コーパスの「行」はこのコーパスが何行あるかを示しています。
学習したページ数ではありません。
本文だけでなくタイトル等も1行としてカウントするため、基本的に1ページあたり複数行読み込まれます。
多少のずれは起きますが、「行」は 学習データを文章ごとに区切ると何行になるか を表していることになります。