浏览 3034 次
锁定老帖子 主题:如何做好一个垂直搜索引擎
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2008-02-19
1) 信息采集(网络蜘蛛) 对指定网站进行数据采集,把需要的信息存放到本地,并记录相应的采集信息。以供信息抽取模块进行数据提取。 2) 信息抽取 从采集的信息中抽取有效的数据进行结构化处理。剔除垃圾信息,获得正文内容,以及相关图片、种子文件等相关信息。对网站的追加信息、更新信息、删除信息进行分类处理。通过配置XML文件对不同站点的数据进行提取。 3) 信息加工 对抽取的信息进行数据加工处理。添加、修改、审核及相关的业务数据整理分类等。信息加工后的数据提交进行信息分词及建立索引。 4) 信息检索 提供信息查询接口。对信息进行分词处理提供全文检索接口。 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2008-02-20
lz自己写的?如果是请修改标题,加上原创,如果是转载,请写明转载,原始link。
如果是这里copy点,那里copy点,然后修修改改的,那么请delete。 如果整理只为表达某些看法,请列上你的看法,我相信大家更喜欢看你的看法,而不是copy。 |
|
返回顶楼 | |