视觉特征的网页最优分割算法论文

视觉特征的网页最优分割算法论文 视觉特征的网页最优分割算法论文预读: 摘要:1随着移动通信技术的迅猛发展,人们通过移动终端访问网页的活动日渐频繁.然而,移动终端屏幕尺寸的限制往往造成Web页面无法正常

视觉特征的网页最优分割算法论文 : 视觉特征的网页最优分割算法论文预读摘要:1 ,., 随着移动通信技术的迅猛发展人们通过移动终端访问网页的活动日渐频繁然而移动终端 ,. 屏幕尺寸的限制往往造成Web页面无法正常显示给用户带来了很大的困扰为了解决这 ,,, 个问题早在20世纪90年代研究人员便开始研究网页自适应呈现技术提出了若干算 .,., 法这些算法可归纳为3类即网页重构、网页转码、网页分割其中网页分割是实现网页自 . 适应呈现的主流技术之一它首先将网页分割成若干个语义相关的内容段(也称为内容块); ,,, 然后在内容服务过程中服务器根据移动终端特征选择合适的内容段并推送给用户以确保 .:, 网页内容在移动终端上得以正常显示网页分割技术具有两个优点一方面它不需要占用大 ,, 量的计算资源;另一方面用户也不需要反复拖动滚动栏查看网页内容使网页内容的服务质 .,,. 量得以保证近年来关于网页分割技术的研究受到了广泛关注并且取得了丰富的研究成果 其中经典算法是Cai等研究人员提出的基于视觉的网页分割技术(Vision-ba ,. sedPageSegmenta-tionAlgorithmVIPS)VIPS根 ,,., 据人的视觉特点总结出一些网页分割的规则然后基于这些规则实现网页分割此后许多研 ,. 究者在该方法的基础上提出了许多改进的网页分割技术但基于规则的思想没有本质变化目 ,:,, 前基于视觉的网页分割技术主要存在两方面问题其一网页分割结果过碎不利于网页重构; ,,., 其二分割规则的总结需要人工参与规则的好坏也直接影响网页分割效果因此如何划分网 ,,, 页分割的粒度如何能减少分割过程中人工参与从而降低主观因素影响均是需要进一步研 ., 究的问题本文将网页分割转化为图的最优划分问题提出一种新颖的网页最优分割算法(V ,. ision-basedWebOptimalSegmen-tationVWOS) , VWOS算法首先基于人的视觉特点设计内容相似度计算模型然后利用网页结构特征和内 ,,, 容相似度模型将网页构造为加权无向连通图并将网页分割转化为图的最优划分问题最后 ,. 基于Kruskal算法求解图的最优划分问题实现网页最优分割VWOS算法是一种 ,.,, 自动算法不需要人工参与实验分析表明该算法能够有效地对网页进行分割分割效果和算 . 法性能优于VIPS算法 2相关研究 ,. 网页是一类特殊的文本文件它具有内容特征、结构特征、布局特征和视觉特征针对上述4 ,: 种特征网页分割技术可以分为4种类型基于内容特征的分割技术、基于结构特征的分割技 . 术、基于布局特征的分割技术和基于视觉特征的分割技术基于内容特征的网页分割技术主 ., 要是基于网页标签20世纪90年代末的手机浏览器不支持CSS层叠样式也不支持 ,., JavaScript只能访问简单的静态网页因此当时的学者只需基于标签的类型进 ,. 行分割即可达到很好的效果YanleiDiao等人提出具有自学习功能的Web查 , 询处理系统[1]利用有效标签类型(如〈p〉、〈table〉、〈ul〉、〈h1〉~〈h 6〉)进行网页分割;Wai-chingWong提出标签检测算法来检测具有同类型信 , 息的相似标签并定义标签类型进行网页分割;EijaKaasinen与OrkutB uyukkokten仅仅利用像〈p〉〈ta-ble〉〈ul〉这样的简单标签进行 . Web网页分割基于结构特征的网页分割技术采用了DOM(DocumentObje ,,, ctModelDOM)技术将网页表示成DOM树结构然后根据各内容块在DOM树 ., 中的位置对网页进行分割文献均采用的是基于DOM树的分割技术RichardRo ,. mero[8]在DOM树的基础上进行聚类分析实现网页分割基于布局特征的网页分割 . 技术主要包括基于位置的网页分割技术与基于模板的网页分割技术两种GenHatto ,, ri提出的基于距离的网页分割技术利用标签的相对位置与层级关系计算内容块的距离 .,. 以此对网页进行分割然而HTML中某些特殊标签具有布局作用降低了分割的准确率通 ,: 过对HTML标签的研究与分析GenHattori于2007年提出改进技术混

腾讯文库视觉特征的网页最优分割算法论文