本發(fā)明公開了一種表格定位的數(shù)據(jù)挖掘方法,屬計(jì)算機(jī)科學(xué)技術(shù)領(lǐng)域。該方法的步驟是:首先為數(shù)據(jù)源建立格式化模型,再根據(jù)數(shù)據(jù)源格式化模型定位數(shù)據(jù)表格,最后根據(jù)數(shù)據(jù)表格單元的內(nèi)容提取數(shù)據(jù)。搜索引擎可以運(yùn)用該技術(shù)對(duì)網(wǎng)頁信息進(jìn)行深入的分析與處理,將其中有用的格式化信息提取出來,并整理到關(guān)數(shù)據(jù)庫(kù)表或結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)中,從而可以引導(dǎo)用戶直接獲取自己需要的數(shù)據(jù),而不需要通過相關(guān)查詢間接獲取數(shù)據(jù),極大地減少了用戶...
|