1.开发自己的源码搜索引擎---Lucene+Heritrix(第2版)本书目录
2.我用Eclipse编JSP,编译后报错:Unable to compile class for JSP请求帮助
3.Lucene特点及优势
开发自己的源码搜索引擎---Lucene+Heritrix(第2版)本书目录
本书《Lucene+Heritrix(第2版)》涵盖了搜索引擎开发的全面内容,从基础入门到高级应用。源码
第1章介绍了搜索引擎历史,源码概述了Archie、源码Gopher、源码后台列表源码Robot和Spider的源码发展,以及Infoseek、源码AltaVista、源码Google和Baidu等重要里程碑。源码同时,源码讲解了信息检索系统基础,源码Lucene的源码核心概念,以及评价搜索引擎的源码关键标准。
第2章深入剖析Lucene开发,源码同桌双人游戏源码包括实例演示,从文档预处理和Eclipse工程创建开始,详细解释了索引类、搜索类的创建,以及索引建立过程、文件格式优化、文档删除和同步问题。IndexModifier类的使用也在此部分详细介绍。
第3章关注Lucene搜索,通过IndexSearcher、Hits类和评分机制,演示基础和高级搜索,包括评分方法和文档向量空间模型。
第4-7章则更专注于具体技术细节:第4章详细讲解Query对象,招生门户系统源码如TermQuery、BooleanQuery、RangeQuery,以及QueryParser的使用。第5章阐述排序、过滤和分页技术,第6章深入Lucene的分析器和高级配置,第7章探讨处理Word、Excel和PDF文档的方法。
第8章至第章,涵盖Compass框架配置、Lucene分布式、Google Search API、Heritrix网络爬虫以及综合实例,录入信息源码其中7.1-7.5介绍xpdf和POI的使用,8.1-8.5讲解Compass框架,9.1-9.3涉及分布式和Google API,.1-.4涉及Heritrix的下载和运行,.1-.2提供搜索引擎综合实例的准备。
在实践部分,如第章,作者展示了如何定制Heritrix抓取特定网站,如网易手机频道,并构建产品信息索引。章节还包括搜索引擎Web界面的搭建,如搜索主页面、显示和详细信息页面的实现。
通过本书,scala如何阅读源码读者不仅能学习到Lucene和Heritrix的理论知识,还能掌握其实战应用技巧,全面提升搜索引擎开发能力。
我用Eclipse编JSP,编译后报错:Unable to compile class for JSP请求帮助
你的问题是:
用eclipse编译jsp文件时,报错:
org.apache.jasper.JasperException: Unable to compile class for JSP:
看你没有提到在eclipse的project properties的java build path中添加lucene的jar包,如果没加会出无法识别 xxx 类的提示。
你的这个错误,估计应该是jsp里面java代码有问题,比如<% 和 %> 不匹配等等的。
建议用 分而治之 的方法,把jsp文件中的代码一段一段的剪切出去,看看编译会不会出错。直到不出错的时候,再往里面加,就可以确定是哪段代码出错了。
good luck.
Lucene特点及优势
Lucene,作为一个开源项目,自发布以来就深受开发者喜爱,它不仅被应用于创建全文检索应用,还被广泛集成到系统软件、Web应用甚至商业软件中,如Apache软件基金会官网和IBM的Eclipse、Web Sphere。其开放源代码特性、高效索引结构及优良系统架构,使其在众多应用中脱颖而出。 Lucene是一个高性能、可扩展的搜索库,特别适用于Java应用。它是Apache Jakarta家族的一部分,遵循Apache软件许可。其主要优点包括:索引文件格式独立,支持跨平台共享,采用8位字节的标准化格式,方便不同系统和平台的兼容。
采用分块索引技术,新文件能快速建立小文件索引,通过合并优化原有索引。
面向对象设计降低了学习难度,便于扩展新功能。
提供通用的文本分析接口,用户可自定义语言和文件格式处理。
内置强大的查询引擎,支持布尔操作、模糊查询和分组查询等。
对比商业引擎,Lucene的优势在于开源开发模式。开发者能深入理解搜索引擎制作技术,根据需求定制化,灵活性更强。其开放源代码架构允许程序员扩展功能,如中文处理、HTML和PDF等,且跨平台能力突出。 最后,Lucene虽基于Java,但在开放源代码社区的支持下,已有多种语言实现版本,如.NET Framework,使Lucene可在更多平台上运行。只需导入analysis、document、index等7个主要包,系统管理员就能根据需求灵活选择。扩展资料
Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。