該搜索引擎利用機(jī)器學(xué)習(xí)的方法,對含有同類信息且布局基本一致的HTML頁面樣本集進(jìn)行學(xué)習(xí),從而得出對此類HTML頁面進(jìn)行信息抽取的規(guī)則。應(yīng)用這些規(guī)則,結(jié)合一個特定領(lǐng)域的搜索引擎,對網(wǎng)絡(luò)上的相關(guān)信息進(jìn)行大量的獲取,并從半自由的HTML文本中獲取結(jié)構(gòu)化的信息。通過訓(xùn)練和學(xué)習(xí),調(diào)整規(guī)則數(shù)目和抽象程度,使其滿足精度要求,然后基于學(xué)習(xí)提煉后的規(guī)則集對樣本集以外的文本進(jìn)行信息提取。對用搜索引擎獲取的特定內(nèi)容的頁...
|