ドキュメントファイルを学習する場合、amieサーバでPDFファイルに変換したものをテキストマイニングし、表示用のHTMLに変換する処理を行っています。
そのため、Microsoft Office系のファイルを学習する場合、Word・Excel・PowerPointなどのオリジナルファイル+PDFファイルがサーバに蓄積されるため、その分HDDの容量を使用します。
amieサーバには、Microsoft Officeアプリではない別のアプリでファイルをPDFファイルに変換するため、文字フォントや改行・ページレイアウトが崩れることがあります。
Office系の学習できるバージョンについて
Microsoft Officeのバージョンにかかわらず、幅広く学習が可能です。
特に古いバージョン(Microsoft Office 97/2000/XP)でも、以下のアプリケーションについては、
バージョンを問わず学習することができます。
- Word
- Excel
- PowerPoint
※拡張子はdocx、xlsx、pptxであるファイルが推奨されます。
上記を満たすファイルであっても、複雑なレイアウトや書式設定(Wordの表や段組など)に対しては、
一部サポートしていないものが存在しています。
Office系ファイルとPDFファイルによる学習データの改行・レイアウトについて
下記の図はPowerPointのファイルをアップロードをした時のamieの動きを表しており、amie内部で自動的にPDFファイルに変換されます。
しかし、下記画像のようPowerPointのファイルをPDFで保存しアップロードする手順と、PowerPointのファイルをそのままアップロードする手順では、回答時に表示されるPDFファイルにレイアウトの違いが出る場合があります。
PowerPointファイルをPDF保存したものと、オリジナルファイルを学習した際の表示データ
※上記のようにフォントの太さや改行に違いが出るため、一度PDFで保存してから学習する方法を推奨しています。