ドキュメントファイルを学習する場合の仕組みについて

ドキュメントファイルを学習する場合、amieサーバでPDFファイルに変換したものをテキストマイニングし、表示用のHTMLに変換する処理を行っています。
そのため、Microsoft Office系のファイルを学習する場合、Word・Excel・PowerPointなどのオリジナルファイル+PDFファイルがサーバに蓄積されるため、その分HDDの容量を使用します。

amieサーバには、Microsoft Officeアプリではない別のアプリでファイルをPDFファイルに変換するため、文字フォントや改行・ページレイアウトが崩れることがあります。

Office系の学習できるバージョンについて

Microsoft Officeのバージョンにかかわらず、幅広く学習が可能です。
特に古いバージョン(Microsoft Office 97/2000/XP)でも、以下のアプリケーションについては、
バージョンを問わず学習することができます。

  • Word
  • Excel
  • PowerPoint

※拡張子はdocx、xlsx、pptxであるファイルが推奨されます。
上記を満たすファイルであっても、複雑なレイアウトや書式設定(Wordの表や段組など)に対しては、
一部サポートしていないものが存在しています。

Office系ファイルとPDFファイルによる学習データの改行・レイアウトについて

下記の図はPowerPointのファイルをアップロードをした時のamieの動きを表しており、amie内部で自動的にPDFファイルに変換されます。

しかし、下記画像のようPowerPointのファイルをPDFで保存しアップロードする手順と、PowerPointのファイルをそのままアップロードする手順では、回答時に表示されるPDFファイルにレイアウトの違いが出る場合があります。

PowerPointファイルをPDF保存したものと、オリジナルファイルを学習した際の表示データ

※上記のようにフォントの太さや改行に違いが出るため、一度PDFで保存してから学習する方法を推奨しています。

TOP
picture
minimize