论坛首页 Java企业应用论坛

如何做好一个垂直搜索引擎

浏览 3034 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2008-02-19  
网络搜索主要包括信息采集、信息抽取、信息加工、信息检索四个模块。
1) 信息采集(网络蜘蛛)
对指定网站进行数据采集,把需要的信息存放到本地,并记录相应的采集信息。以供信息抽取模块进行数据提取。
2) 信息抽取
从采集的信息中抽取有效的数据进行结构化处理。剔除垃圾信息,获得正文内容,以及相关图片、种子文件等相关信息。对网站的追加信息、更新信息、删除信息进行分类处理。通过配置XML文件对不同站点的数据进行提取。
3) 信息加工
对抽取的信息进行数据加工处理。添加、修改、审核及相关的业务数据整理分类等。信息加工后的数据提交进行信息分词及建立索引。
4) 信息检索
提供信息查询接口。对信息进行分词处理提供全文检索接口。
   发表时间:2008-02-20  
lz自己写的?如果是请修改标题,加上原创,如果是转载,请写明转载,原始link。

如果是这里copy点,那里copy点,然后修修改改的,那么请delete。

如果整理只为表达某些看法,请列上你的看法,我相信大家更喜欢看你的看法,而不是copy。


0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics