爬蟲從 Internet 中爬取眾多的網頁作為原始網頁庫存儲于本地,然后網頁分析器抽取網頁中的主題內容交給分詞器進行分詞,得到的結果用索引器建立正排和倒排索引,這樣就得到了索引數據庫,用戶查詢時,在通過分詞器切割輸入的查詢詞組并通過檢索器在索引數據庫中進行查詢,得到的結果返回給用戶。請問這里原始網頁庫是該怎么實現,是直接存到數據庫里嗎?還是什么形式?如果是存到數據庫里,應該有哪些字段?
添加回答
舉報
0/150
提交
取消