网页正文提取算法研究[非正则] 作品

网页正文提取算法研究[非正则] 互联网的页面展现形式相当丰富,但是如果按页面结构特征来分类,却不外乎以下几种类型:首页(包括栏目首页),列表页,内容页,评论页。 (1) 首页: 网站的首页, 一般含有多个栏目、图片、动画,以及若干文章标题链接。如: 网易首页。 (2) 列表页: 信息以列表的方式给出, 一般以表格的形式列出若干个条目, 经常含有分页功能。例...
jabin 发布于 

Lucene.Net入门基础 技术

Lucene.Net入门基础 简单的例子 //索引 Private void Index() { IndexWriter writer = new IndexWriter(@"E:\Index", new StandardAnalyzer()); Document doc = new Document(); doc.Add(new F...
jabin 发布于 

CentOS安装crontab及使用方法 技术

CentOS安装crontab及使用方法 安装crontab: [root@CentOS ~] yum install vixie-cron [root@CentOS ~] yum install crontabs 说明: vixie-cron软件包是cron的主程序; crontabs软件包是用来安装、卸装、或列举用来驱动 cron 守护进程的表格的程序。...
jabin 发布于 

.Net下开发Windows Service 技术

.Net下开发Windows Service Windows服务能做些什么? Windows服务是这些后台程序、后台服务的正规名词。Windows服务的运行可以在没有用户干预的情况下,在后台运行,没有任何界面。通过Windows服务管理器进行管理。服务管理器也只能做些简单的操作:开始,暂停,继续,停止。Windows服务的特点:在后台运行,没有用户交互,可以...
jabin 发布于 

大规模网站架构 技术

大规模网站架构 以下并非所有都经过本人实践,部分为根据资料的假想所得,切勿贯彻本本主义。 网站架构目标 高可用性(High Availability) 可伸缩性(Scalability) 高性能(High Performance) 原则 尽量避免分布式,此为分布式第一原则 避免分布式事务 系统异构 架构与语言无关 系统可以多个平台并存(分层,模块化...
jabin 发布于