网页正文提取算法研究[非正则] 作品
网页正文提取算法研究[非正则]
互联网的页面展现形式相当丰富,但是如果按页面结构特征来分类,却不外乎以下几种类型:首页(包括栏目首页),列表页,内容页,评论页。
(1) 首页: 网站的首页, 一般含有多个栏目、图片、动画,以及若干文章标题链接。如: 网易首页。
(2) 列表页: 信息以列表的方式给出, 一般以表格的形式列出若干个条目, 经常含有分页功能。例...
Lucene.Net入门基础 技术
Lucene.Net入门基础
简单的例子
//索引
Private void Index()
{
IndexWriter writer = new IndexWriter(@"E:\Index", new StandardAnalyzer());
Document doc = new Document();
doc.Add(new F...
CentOS安装crontab及使用方法 技术
CentOS安装crontab及使用方法
安装crontab:
[root@CentOS ~] yum install vixie-cron
[root@CentOS ~] yum install crontabs
说明:
vixie-cron软件包是cron的主程序;
crontabs软件包是用来安装、卸装、或列举用来驱动 cron 守护进程的表格的程序。...
.Net下开发Windows Service 技术
.Net下开发Windows Service
Windows服务能做些什么?
Windows服务是这些后台程序、后台服务的正规名词。Windows服务的运行可以在没有用户干预的情况下,在后台运行,没有任何界面。通过Windows服务管理器进行管理。服务管理器也只能做些简单的操作:开始,暂停,继续,停止。Windows服务的特点:在后台运行,没有用户交互,可以...