欢迎来到专业的宏发范文网平台! 心得体会 党建材料 工作总结 工作计划 思想汇报 事迹材料 发言讲话 述职报告
当前位置:首页 > 范文大全 > 公文范文 > 正文

Google新算法分析与基于用户的网站优化策略

时间:2022-03-14 15:19:04 浏览量:

(北京电子科技职业学院 设计与工艺学院,北京 100176)
摘 要:文章对Google新算法进行了详细分析,并针对新 算法,从用户的角度提出了合理的网站优化策略,指出:网站优化应坚持以用户为导向而不 是以搜索引擎为导向,应时刻关注基于用户的网站优化。
关键词:PageRank;HillTop;网站优化;链接
中图分类号:TP393  文献标识码:A  文章编号:1007—6921(2009)12—0063—02

随着Internet上信息快速的增长,对搜索引擎服务提出了严峻考验。为了提高网页排名,有 些网站只注重人为因素无度优化网页形式,而忽视基于用户的网站内容建设。为了减少恶意 操纵提高网页排名的不良竞争,达到为用户提供最为准确的搜索结果的目的,搜索引擎一直 在努力寻求创新的算法。
下面以Google为例探讨搜索引擎的新算法和基于用户的合理的网站优化策略:
1 Google搜索引擎算法分析
1.1 PageRank算法

早期Google搜索引擎采用PageRank算法,PageRank是基于“从许多优质的网页链接过来的网 页,必定还是优质网页”的回归关系,来判定所有网页的重要性的。

假定页面A有T1…Tn这些页面指向它。参数d是一个设置于0与1之间的阻尼系数,我们通常设 d为0.85。另外,C(A)定义为从A出发的连接数量[1]。则页面A的PageRank值由下 面的公式得出:
PR(A)=(1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn))

PageRank算法主要根据网页上的外部链接站点的数量和质量及链接页面等级决定PR值的大小 ,由PR值来决定该网页在搜索引擎中的排名,却忽略了链接页面对查询条件的主题相关性。 如果该页面只是在内容中出现了关键词,可主题内容与该关键词相差很大,也会因其存在的 页面PR值大而获得一个比较高的排名,这对用户来说是没有意义的。所以,决定网页排名不 但需要考虑网页的页面等级,更要考虑该网页的页面主题内容与查询主题的相关性是否相称 。同时,该算法很容易通过人为因素作弊来提高自己的网页排名,欺骗用户[2][3] 。
1.2 Google新算法

2000年,Bharat与其他的Google人开发出来的Hilltop算法克服了PageRank算法的缺陷,进 一步将排名比重放在网页以外的、非人为能够操纵的因素上。
1.2.1 HillTop算法

HillTop算法的指导思想和PageRank的是一致的,都是通过网页被链接的数量和质量来确定 搜索结果的排序权重。但HillTop认为计算来自具有相同主题的相关文档链接对于搜索者的 价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更 高。

HillTop首先计算查询主题最相关的“专家”资源列表,即通过对搜索引擎抓取的网页进行 预处理,从排名在前的匹配专家页和相联系的匹配信息中选择专家页中一个超链接的子集, 尤其选择那些与所有的查询项相关的链接,基于这些相关链接找出与查询主题最相关的网页 ,找出专家页;然后在选中的“专家”集中识别相关的链接,把查询主题的专家中相关的向 外的链接合并,以找到与查询主题相关页的被人高度认可的网页,并追踪它们以识别相关的 网页目标;最后将目标集根据非关联的指向它们的“专家”数量和相关性排序,即目标集根 据指向它们的专家得分的综合成绩来排序,其中专家页面到目标页面的链接决定了被链接网 页“权重得分”的主要部分[4]。
1.2.2 Google新算法

为了更加科学合理地为用户提供准确的搜索结果,目前Google采用PageRank结合HillTop算 法的排序技术决定网页排名。其新算法的计算公式是:
{(1-d)+a(RS)}*{(1-e)+b(PR*fb)}*{(1-f)+c(LS)}

其中:a、b、c为调节控制比重,d、e、f为阻尼控制,fb为因子基数。该算法由RS相关性 得分、PR页面等级得分和LS行业得分三部分组成[5]:

①RS相关性得分:基于网页标题(Title)、元标识(Meta tags)、正文标题(Headlines)、 正文(Body text)、URL、图片Alt文字、锚文字(Anchor Text)等元素中出现的关键词得出的 分数。若提高该部分得分,必须优化网页中的关键词。

②PR页面等级:基于链接至该网站的网页数量及其PR值得出的分数。根据前面PageR ank算法分析,若提高该部分得分,必须优化网页的链入和链出以及网站内部的链接。

③LS行业得分:根据专家文件计算得出的分数。若提高该部分得分,必须从用户的 角度优化自己的网站,为用户提供最好的服务,引起相关主题高端网站和搜索引擎的关注, 提高网站知名度。
2 Google新算法,完善基于用户的网站优化策略

Google新算法中决定网页排名是由RS、PR、LS三部分组成,不是由RankPage算法中单一的PR 值来决定。据有关资料显示,在Google新算法中,RS相关性得分占20%,PR页面等级值占40% ,LS行业得分占40%。所以,只靠搜索引擎优化来提高网页排名是远远不够的,更应从用户 的角度来优化网站。
2.1 优化关键词,提高RS相关性得分

关键词是搜索引擎算法中数学运算的一个因 子,用来确定几十亿网页与用户特定搜索 之间的相关性[6]。那些被搜索算法认为与某个关键词搜索最为相关的页面将被依 次排列出来,所以尽可能的从用户的角度和立场确定核心关键词。
2.1.1 关键词的确定

要使一个网站中相关网页的RS相关性得分高,首先要科学地确定关键词序列。科学的关键词 序列指的是:既要充分又要减少冗余。应该从2方面着手:①选择少数几个行业关键词, 贵在少而精;②选择几个行业专用关键词。要充分考虑访问者的搜索用词习惯,使用网络 经验不足的人习惯用意义比较广泛的行业关键词搜索,而另一些人习惯用行业专用关键词搜 索。
2.1.2 关键词的选择

①要对用户的搜索行为有深入分析,正确地选择最有价值的关键词,把预测主题能力强、权 重大的词作为关键词。

②当前用户愈加采用长尾查询,用关键词更多、更长的查询。所以在网页中,不仅要重 视简单关键词,更要多关注关键词的词句。
2.1.3 关健词的密度

为了使网站得到良好的排名,就必须在搜索引擎允许的范围内设定好关键词的密度。关键词 密度决定该页面对关键词的关联度,关联度越高,该页面的PR值就越高,所以应确保关键词 在整个网页中的充分利用和合理分布。研究表明,关键词密度在2%~8%之间能够对提高网站 排名是有益的。
2.1.4 关健词的分布

关键字分布的原则是在恰当的位置上放置关键词。搜索引擎的SPider将会专注于网页中特定 部分的内容,处于这一关注部分的词语比其他部分的词语要重要得多。通常是将关键词放置 到:<Tiile>和<meta>标签、标题<headings>、超链接文本、URL文本和网页顶部的文本之中 。但要严格限制关键词出现的次数和频率,一般同样的关键词最好不要超过3次,尽量用扩 展的词组来代替关键词。
2.2 优化链接,提高PR页面等级得分。

网站中的链接直接关系到PR页面等级得分。
2.2.1 内部链接

所谓内部链接指的是同一站点内网页之间的相互链接,从用户的角度看,它是最为重要的链 接。它在整个网站,尤其是对一些深层页面的浏览和检索扮演着至关重要的角色。内部链接 在Google中的作用亦不可小看,如同一个网站会将其PR值传递给链至它的站点一样,内部链 接也会将其PR值传递给所链页面[7]。
2.2.2 导入链接

所谓导人链接就是指链至你网站的站点,导入链接对PR页面等级得分有较大影响,优化导入 链接的原则是:导入链接的数量越多,尤其导入链接的PR值越大,继承得到的PR页面等级得 分就越大。因此,只有那些与你的目标关键词关联的高质量站点的外部链接才是最理想的导 入链接。
2.2.3 导出链接

所谓导出链接是指你链至其他网站数量。导出链接会导致网站PR值的消耗。但为了方便用户 导引,任何一个网站都几乎不可能没有出站链接,为了抵消这种消耗,除了需要确保链接是 互给的以外。
2.3 以用户需求为导向来优化网站,吸引专家页面指向,提高LS行业得分

以用户需求为导向,设计合理的网页布局、丰富原创的网站内容、方便的网站结构与导航, 有助于用户产生信任,吸引专家页面指向,提高LS行业得分[8]。
2.3.1 布局优化

链接在源页面中出现的位置会在一定程度上影响目标页面对源页面权重的继承。在规划页面 的链接分布时,我们应遵循页面重要区域的分布规律:“左上>右上>左>右>左下>右下”, 即把指向相对重要页面的链接放在源页面的左上方。这样,该链接指向的目标页面就可以继 承到更多的权重。
2.3.2 内容优化

内容设计要从用户需求出发,根据网站特点,扩展网站所有可扩展的关键词,根据关键词来 设计用户需求网页内容。内容优化减少了网站采集的可能性,增加原创的内容,让内容更符 合搜索关键词到达的用户,更利于用户的体验。
2.3.3 结构导航优化

如果一定要使用到第四层甚至更深层次的页面可以采取一些方法来弥补,如果该页提供了重 要内容,有大量来自其他网站的外部链接,可以在首页上增加一个该页的链接,通过首页直 接到达,搜索Spider还是可以轻易地找到它。如果有其他网站在顶级页面上链接了该页,其 效果就好似在自己的首页上做了该链接。同时,每个网页的网址、路径、网站文件的目录结 构直接体现于URL,方便用户浏览,增加被搜索引擎抓取的机会。
3 结束语

当前Google搜索引擎采用PageRank结合HillTop新算法,确定网页与搜索关键词的匹配程度 的基本排序过程取代了过份依靠PageRank的值去寻找那些权威页面的方法。在Google新算法 中,网页排名控制权越来越多地从网站管理员手中夺回,人为因素影响网页排名的方法将越 来越少。
[参考文献]
[1] 冯振明.Google核心—PageRank算法探讨[J].计算机技术与发展,2006,16( 7):82~84.
[2] 李长玲,翟雪梅.基于PageRank的引文分析方法探讨[J].信息系统,2007,3 0(1):122~124.
[3] 琚洁慧.中文搜索引擎中的PageRank算法及实现[J].计算机工程与设计,200 7,28(7):1632~1635.
[4] Dell Zhang,Yisheng Dong. An Efficient Algorithm to Rank Web Resourc es[J/OL]. http://www9.org/w9cdrom/, 2008,12.
[5] [HT5”]Evangelos Sakkopoulos Athanasios Tsakalidis PChristos Makris ,Yannis Panagis. Category ranking for personalized search[J]. Data & Knowledg e Engineering, Jan,2006.
[6] 杨松,杨文莲.基于关键字和链接的搜索引擎优化策略[J].渤海大学学报: 自然科学版,2006,27(3):269~271.
[7] 杨帆,王秀伟,白振兴.基于Google的网站优化技术[J].现代电子技术,200 6,19(234):149~151.
[8] 李福良,张辉.企业网站SEO技术研究[J].合肥工业大学学报:自然科学版, 2004,27(1):92~96.

推荐访问:算法 优化 策略 分析 用户

猜你喜欢