ドキュメントファイルを学習する場合の仕組みについて

ドキュメントファイルを学習する場合、amieサーバでPDFファイルに変換したものをテキストマイニングし、表示用のHTMLに変換する処理を行っています。
そのため、Microsoft Office系のファイルを学習する場合、Word・Excel・PowerPointなどのオリジナルファイル+PDFファイルがサーバに蓄積されるため、その分HDDの容量を使用します。

amieサーバには、Microsoft Officeアプリではない別のアプリでファイルをPDFファイルに変換するため、文字フォントや改行・ページレイアウトが崩れることがあります。

Office系ファイルとPDFファイルによる学習データの改行・レイアウトについて

下記の図はPowerPointのファイルをアップロードをした時のamieの動きを表しており、amie内部で自動的にPDFファイルに変換されます。

しかし、下記画像のようPowerPointのファイルをPDFで保存しアップロードする手順と、PowerPointのファイルをそのままアップロードする手順では、回答時に表示されるPDFファイルにレイアウトの違いが出る場合があります。

PowerPointファイルをPDF保存したものと、オリジナルファイルを学習した際の表示データ

※上記のようにフォントの太さや改行に違いが出るため、一度PDFで保存してから学習する方法を推奨しています。

TOP
picture
minimize