`
xiewei906
  • 浏览: 22591 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
最近访客 更多访客>>
社区版块
存档分类
最新评论

如何做好一个垂直搜索引擎

    博客分类:
  • Java
阅读更多
网络搜索主要包括信息采集、信息抽取、信息加工、信息检索四个模块。
1) 信息采集(网络蜘蛛)
对指定网站进行数据采集,把需要的信息存放到本地,并记录相应的采集信息。以供信息抽取模块进行数据提取。
2) 信息抽取
从采集的信息中抽取有效的数据进行结构化处理。剔除垃圾信息,获得正文内容,以及相关图片、种子文件等相关信息。对网站的追加信息、更新信息、删除信息进行分类处理。通过配置XML文件对不同站点的数据进行提取。
3) 信息加工
对抽取的信息进行数据加工处理。添加、修改、审核及相关的业务数据整理分类等。信息加工后的数据提交进行信息分词及建立索引。
4) 信息检索
提供信息查询接口。对信息进行分词处理提供全文检索接口。
分享到:
评论
1 楼 imjl 2008-02-20  
lz自己写的?如果是请修改标题,加上原创,如果是转载,请写明转载,原始link。

如果是这里copy点,那里copy点,然后修修改改的,那么请delete。

如果整理只为表达某些看法,请列上你的看法,我相信大家更喜欢看你的看法,而不是copy。


相关推荐

    网页库级垂直搜索引擎技术

    垂直搜索引擎的选型;网页库级垂直搜索引擎技术(二)如何做好一个垂直搜索引擎;信息抽取的资料文档

    综合搜索引擎与垂直搜索引擎的比较研究

    搜索引擎是目前互联网信息服务的主要工具, 它...本文从信息服务的角度出发, 通过对综合搜索引擎与垂直搜索引擎在信息服 务各个要素方面的比较, 找出它们之间的竞争与合作的关系, 为当前的搜索引擎发展做出初步的 分析。

    垂直搜索引擎的设计与实现

    论文研究了搜索引擎的相关技术,通过分析基于查询串方式的搜索引擎和分类目录式搜索引擎的整体结构,设计了垂直搜索引擎的系统结构,并对其中涉及的关键技术:触b搜集器、信息抽取技术、中文分词和检索技术进行了深入...

    垂直搜索引擎系统

    DDH垂直搜索引擎系统是一个Java实现的垂直搜索引擎系统,是一套整合了Nutch/UCI/SOLR的网络信息整合系统。借助DDH你可以快速构建多领域的垂直搜索引擎系统。目前DDH整合了Nutch2.2.1+UCI1.0+SOLR4。

    垂直搜索引擎研究

    基于lucene的垂直搜索引擎研究,开题报告

    SOPI垂直搜索引擎系统 V2.2

    SOPI垂直搜索引擎2.0是一个从信息采集到分析到索引的整套解决方案,让你也可以轻松拥有一个多功能垂直搜索引擎。可以针用于行业垂直信息进行搜索,网站搜索等各类应用。 SOPI垂直搜索引擎系统的应用特点 外网搜索...

    基于Lucene_Heritrix的垂直搜索引擎的研究与应用

    探讨了Lucene和Heritrix在构建垂直搜索引擎中的应用。 1、垂直搜索引擎的基本介绍 2、基于Java 的全文检索引擎—Jakarta Lucene 3、网络爬虫Heritrix 4、Lucene和Heritrix在构建垂直搜索引擎中的应用(含代码) 5、...

    垂直搜索引擎网络爬虫的研究与实现.pdf

    垂直搜索引擎网络爬虫的研究与实现.pdf垂直搜索引擎网络爬虫的研究与实现.pdf垂直搜索引擎网络爬虫的研究与实现.pdf垂直搜索引擎网络爬虫的研究与实现.pdf

    垂直搜索引擎聚焦爬虫技术研究

    介绍了一种垂直搜索引擎的爬虫设计方案,这是主题搜索引擎的核心部分。

    垂直搜索引擎源代码

    垂直搜索引擎,自带爬虫,sql2008数据库,并发高,处理速度快,有web页面查询。dell 1950 可以每秒处理10g的查询,支持上亿的数据。

    HiGo垂直搜索引擎系统 v7.3.rar

    HiGo垂直搜索引擎开源版系统需要独立服务器支持,也可以用你本地电脑做服务器来调试,基于lucence mysql asp.net,支持数据索引,中文分词,模糊查询,爬虫采集,精确采集规则模式和模糊采集规则模式相混合(模糊采集...

    垂直搜索引擎完全开源版

    网博垂直搜索引擎完全开源版 1.前台结合Lucene的搜索引擎功能,使得数据搜索更快; 2.新增加采集功能,采集时图片下载,flash下载功能,默认配置的是南海网分类信息的采集规则; 3.该代码简洁,完全开源,可以与...

    垂直搜索引擎完全开源版 c#开发基于Lucene.net 带效果预览图片

    垂直搜索引擎完全开源版 c#开发基于Lucene.net 1.前台结合Lucene的搜索引擎功能,使得数据搜索更快; 2.新增加采集功能,采集时图片下载,flash下载功能,默认配置的是南海网分类信息的采集规则; 3.该代码简洁,...

    基于Java的垂直搜索引擎的设计与实现.pdf

    基于Java的垂直搜索引擎的设计与实现.pdf基于Java的垂直搜索引擎的设计与实现.pdf基于Java的垂直搜索引擎的设计与实现.pdf基于Java的垂直搜索引擎的设计与实现.pdf

    垂直搜索引擎研究 pdf

    垂直搜索引擎研究垂直搜索引擎研究垂直搜索引擎研究垂直搜索引擎研究

    垂直搜索引擎硕士论文

    详细介绍了利用heritrix和luncene两大开源软件搭建垂直搜索引擎平台,是很好的参考文献。

    垂直搜索引擎赢利模式探讨

    垂直搜索引擎赢利模式探讨,不依赖网站访问量,利用所挖掘的行业信息的双向特性,通过信息 撮合和定向信息发送等手段来实现赢利。

    横瓜垂直搜索引擎V3.2-横瓜Windows平台的垂直搜索引擎

    横瓜垂直搜索引擎,是Windows平台的垂直搜索引擎(不提供网络爬虫),最大可容量6000万条记录。 对于100万条记录规模的数据库,可在2分钟内完成所有架构工作。横瓜垂直搜索引擎分词速度约为 2500万字/分钟,约占99.984...

    奥搜垂直搜索引擎 v6.0标准版

    奥搜垂直搜索引擎 v6.0标准版 奥搜垂直搜索引擎 v6.0标准版

    TRS 垂直搜索引擎白皮书

    TRS 认为:垂直搜索引擎是针对某一个行业或组织,满足行业专业需求、或者组织某 项业务需求的专业搜索引擎,是搜索引擎的细分和延伸,是对某类网页资源和结构化资源的 深度整合,并为用户提供符合专业用户操作行为的...

Global site tag (gtag.js) - Google Analytics