Friday, October 24, 2008

Annotated Lucene (源码剖析)

Apache Lucene是一个高性能(high-performance)的全能的全文检索(full-featured text search engine)的搜索引擎框架库,完全(entirely)使用Java开发。它是一种技术(technology),适合于(suitable for)几乎(nearly)任何一种需要全文检索(full-text search)的应用,特别是跨平台(cross-platform)的应用。

0, Annotated Lucene (源码剖析)
1, Annotated Lucene:目录
2, Annotated Lucene:第一节 Lucene是什么
3, Annotated Lucene:第二节 索引文件概述
4, Annotated Lucene:第三节 索引文件结构(1)
5, Annotated Lucene:第三节 索引文件结构(2)
6, Annotated Lucene:第三节 索引文件结构(3)
7, Annotated Lucene:第三节 索引文件结构(4)
8, Annotated Lucene:第四节 索引是如何创建的
9, Annotated Lucene:第四节 索引创建过程
10, Annotated Lucene:第五节 索引是如何存储的
11, Annotated Lucene:第六节 文档内容是如何分析的
12, Annotated Lucene:第七节 如何给文档评分


备注:未完待续,部分内容和插图译自Lucene网站及代码,个别图片来自网上
Annotated Hadoop 作者:naven 日期:2008-10-20

Hawk搜索引擎平台应用:词典搜索和文档搜索

Hawk搜索引擎平台应用:词典搜索和文档搜索

DictSearch screenshots Hawk 搜索引擎平台可用来定制自己的搜索应用服务,如站内网页搜索和桌面搜索。下面介绍两个很有用的桌面搜索应用。辞典搜索收录有四十部超过800万词汇的常用 英语和汉语词典,如朗文,牛津,汉语大词典等。文档搜索服务索引了主要的Java文档和Linux系统下的文档如man手册等,欢迎使用!



© 2008 Javen-Studio http://javenstudio.org 咖啡小屋

Sunday, July 20, 2008

Hawk搜索引擎平台0.6.9测试版(提供下载)

Hawk搜索引擎平台0.6.9测试版(提供下载)

Hawk 搜索引擎平台是面向中小型网站,可以定制的垂直搜索引擎平台。本搜索引擎平台目标是方便用户搭建站内搜索、某个领域的垂直搜索、以及检索个人文档以及自己关注的网站信息的桌面搜索等应用领域。它改造自Lucene,Hadoop和Nutch系统,是纯Java的搜索平台软件,可以运行于Windows及Linux等平台,具备基本的抓取、索引和检索功能,本搜索引擎将免费提供,欢迎大家测试和使用,谢谢!

Hawk 搜索引擎平台特点简介

  • 对网页进行深度抓取和分析,自定义抓取规则,实现站内搜索。
  • 可以索引各种常用类型文档,实现桌面文档检索。
  • 单台PC服务器能索引上千万文档,可以用于中小型检索服务。
  • 可以自定义网页展示模板,或XML接口,轻松与各种系统整合。
  • 自动分析网页文本,提取新词,如人名,地名等。
  • 支持检索词自动推荐以及繁简转换功能。

© 2008 Javen-Studio http://javenstudio.org 咖啡小屋

Thursday, March 20, 2008

欢迎光临 Javen-Studio 新网址:http://javenstudio.org

欢迎光临 Javen-Studio 新网址:http://javenstudio.org

Hawk 搜索引擎平台 0.4.50 开发版


Hawk 搜索引擎平台 0.4.50 开发版
Hawk 搜索引擎平台是面向中小型网站,可以定制的垂直搜索引擎平台。本搜索引擎平台目标是方便用户搭建站内搜索、某个领域的垂直搜索、以及检索个人文档以及自己关注的网站信息的桌面搜索等应用领域。它改造自Lucene,Hadoop和Nutch系统,是纯Java的搜索平台软件,可以运行于Windows及Linux等平台,具备基本的抓取、索引和检索功能,本搜索引擎将免费提供,欢迎大家测试和使用,谢谢! Hawk 搜索引擎平台技术特点简介
改造Hadoop中MapReduce和JobTracker,TaskTracker的结构,以实现可以在Windows/Linux跨平台执行job,并将Map和Reduce分离以实现可以独立执行Map或者Reduce的任务,减少重复的数据处理。Map和Reduce分别代之Processor和Combiner两个独立的Task。以上改造为实现将来更轻量级的分布式计算做准备,而无需像Hadoop一样需建立庞大的cluster集群来进行分布式存储和计算。
改造Nutch结构,改造索引和segment存储格式及内容,简化部分处理流程,并把改造后的Hadoop系统与之整合。为支持单机千万级的索引量重新设计,同时为实现将来软件模块化做准备,如OSGI或更轻量级架构。
全新的管理界面的设计,以与Windows相似的操作界面呈现,并支持国际化语言,目前支持英文和中文界面。
支持自然语言语法分析及语义识别。网页正文智能识别和提取,及新词自动分析和提取功能,持续改进中。
© 2008 Javen-Studio http://javenstudio.org 咖啡小屋

Thursday, February 21, 2008

Annotated Hadoop (源码剖析)

Hadoop目前是Apache Lucene下的一个子项目,它最初是从Nutch项目中分离出来的专门负责分布式存储以及分布式运算的项目。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。本文先从源码角度剖析MapReduce框架及运行原理。

Annotated Hadoop: 第一节 Hadoop是什么
http://www.cppblog.com/javenstudio/articles/43072.html

Annotated Hadoop: 第二节 MapReduce框架结构
http://www.cppblog.com/javenstudio/articles/43073.html

Annotated Hadoop: 第三节 MapReduce工作原理
http://www.cppblog.com/javenstudio/articles/43075.html


未完待续
Annotated Hadoop 作者:naven 日期:2007-12-29

Wednesday, February 20, 2008

Hawk-0.4.35搜索引擎平台开发版发布

Hawk 搜索引擎平台是面向中小型网站,可以定制的垂直搜索引擎平台。本搜索引擎平台
目标是方便用户搭建站内搜索、某个领域的垂直搜索、以及检索个人文档以及自己关注的
网站信息的桌面搜索等应用领域。

http://www.cppblog.com/javenstudio/articles/43021.html