本系統(tǒng)的目標是解決由于辦公文檔等電子信息的積累,以及Internet信息大量下載,導致本地文本數(shù)據(jù)巨增,難以快速準確查找有用信息的問題。系統(tǒng)把全文檢索和向量空間檢索結合起來實現(xiàn)主題檢索,使用KNN算法實現(xiàn)文本自動分類;通過對PDF、Word、PowerPoint、Html等類型的文檔格式和文件格式的分析,以及對關系數(shù)據(jù)庫表結構的分析,從文檔及數(shù)據(jù)庫記錄中提取文本,將所有文本信息進行索引和分...
|