コーパスの「行」は何を表していますか

チャットボットのホーム画面から、各学習に関するコーパスを確認できます。

コーパスとは

学習の初めに学習データであるファイルやURLに書かれている文章を1文ずつ抜き出し、その抜き出した文章を1行ごとにファイル名やページ数などと紐づけたデータがコーパスと呼ばれるものになります。

コーパスの「行」はこのコーパスが何行あるかを示しています。

学習したページ数ではありません。

本文だけでなくタイトル等も1行としてカウントするため、基本的に1ページあたり複数行読み込まれます。
多少のずれは起きますが、「行」は 学習データを文章ごとに区切ると何行になるか を表していることになります。

TOP
picture
minimize