DocView模型包括:网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等要素。其中正文和相关链接要素属于网页的内容数据,而其他6项则属于网页的元数据,其实搜索引擎优化也是这六个要素的相关优化。
网页标识是对Web上网页的唯一性标识,在DocView模型中使用网页的URL作为网页标识。
网页类型是根据网页内容的表现形式进行划分的,主要分为三类:有主题网页(topic)、Hub网页(hub)、图片网页(pic)。其中,有主题网页是指网页中通过文字描述了一件或多件事物,是有一定主题的;如一张具体的新闻网页就是典型的有主题网页。Hub 网页是指专门用来提供网页导向的网页,因而是超链聚集的网页;如门户网站的首页就是典型的Hub网页。图片网页是指网页的内容是通过图片的形式体现的,其中文字很少,仅仅是对图片的一个说明;
如某个机构包含图片的人员介绍网页就是典型的图片网页。将网页分为上述三个类型是因为三类网页在用途和处理方法上存在较大的差别。其中Hub网页与其它两类网页的区别在于网页在Web上发挥的作用不同,Hub 网页通常不会具体的讲述一件事物,而是提供关于相关信息的链接集。而图片网页与其它两类网页的区别在于处理的方法不同,由于图片网页的内容是通过图片表达的而不是通过文字,因而传统信息处理领域的方法对图片网页是不够有效的。三类网页间的区别导致很多应用领域都会对它们作适当的区别。
内容类别是从语义上对网页的内容进行分类,它是计算机获取网页语义信息的一个直接手段,在Web上的研究领域中有着广泛的使用。它是通过特定的分类器对网页内容分类得到的,依赖于一定的分类体系。
标题、关键词和摘要是概括描述 Web 文档内容的重要的元数据,对于 Web信息检索等领域的工作有非常重要的作用。
正文是原始网页中真正描述主题的部分,因此,在某些具体应用中用正文代替原始网页更为合理。
相关链接是指在本网页中指向与正文内容相关的网页的链接,而非广告等噪音链接。将正文和相关超链重新组合就得到了净化后的网页。
说到这里,我给大家提两个搜索引擎优化问题:
- 1,哪些链接是噪音链接,哪些链接是相关链接呢,怎么判断?
- 2,搜索引擎建立DocView模型的目的何在?
喜欢学习的搜索引擎优化相关人员请积极思考!