当前位置:优站分类目录 » 站长资讯 » 网站运营 » 文章详细

百度搜索引擎检测网站heilian垃圾链接的算法

来源:分类目录 时间:2014-01-23目录:网站运营浏览:1346次 
heilian又称暗链、隐藏链接,是heimao手法中相当普遍的一种手段,是指用非正常手段获取的其他网页的反向链接,最常见的heilian就是通过各种网页程序漏洞获取搜索引擎权重或网页级别(PR)较高的网页的管理权限代码(Webshell),进而在被黑网页上链接自己的网页。该手段是搜索引擎中进行作弊最有效最迅速的方法之一,在暴利行业使用尤多,例如游戏、waigua、彩铃等业务的行业。现有的heilian检测方法主要包括以下几种:

       其一、网站管理人员通过经常查看网页源代码的方式,检查网页是否被挂上heilian。其二、查看网页中的链接是否可访问,如果存在未知链接,则怀疑被挂上heilian,删除该未知链接。其三、通过FTP工具查看网页文件的修改时间,如果存在修改时间异于大多数文件修改时间的文件,则该文件就可能被修改了文件源代码,挂了heilian。上述几种heilian检测方法都需要大量的人工操作,一方面浪费人力资源,对网站管理人员的heilian知识提出较高要求,无法实现heilian的自动检测;另一方面,对于新出现的heilian作弊方式,很难及时有效地发现。

       百度搜素引擎提供了一种检测heilian的算法处理装置,以便于实现heilian的自动检测。具体技术方案如下:

       S 1、提取待检测网页的超链接,逐一对获取的超链接执行heilian检测流程.heilian检测流程包括:Al、判断超链接的视觉特征参数是否满足预设的不可见特征要求,如果是,则确定该超链接为heilian。百度heilian检测算法的测试案例中在heilian检测流程的步骤Al中,如果判断结果为否,则进一步执行步骤A2;A2、判断该超链接的外链引用次数是否超过预设的次数阀值,如果是,则确定该超链接为heilian。

       百度heilian检测算法的测试案例中如果所述A2的判断结果为否,则将该超链接加入白名单数据库,结束对该超链接的heilian检测流程。百度heilian检测算法的测试案例中在所述步骤Sl之前还包括:SO、将所述待检测网页的网址与已有的白名单数据库进行匹配,如果匹配得上,则确定所述待检测网页不存在heilian,结束流程;否则继续执行所述步骤Slo百度heilian检测算法的测试案例中所述确定该超链接为heilian进一步包括:获取该超链接的网页内容特征;将获取的内容特征与已挖掘出的恶意特征数据库进行匹配,如果匹配得上,则确定该超链接为heilian。

        百度heilian检测算法的测试案例中所述恶意特征数据库中存储有被识别为heilian的网页的关键词;所述将获取的内容特征与已挖掘出的恶意特征数据库进行匹配具体包括:将获取的该超链接的网页标题title或网页元信息l}Zeta与所述恶意特征数据库中存储的关键词进行匹配。

       百度heilian检测算法的测试案例中在确定出该超链接为heilian后,进一步包括:从该heilian的网页中进一步提取关键词,将该关键词存储于恶意特征数据库。百度heilian检测算法的测试案例中在所述步骤Al中,当所述视觉特征参数为颜色设置参数时,对应的不可见特征要求为该超链接的颜色设置参数与所述待检测网页背景颜色一致;或者当所述视觉特征参数为字体参数时,对应的不可见特征要求为该超链接的字体参数的值小于或等于预设的字体参数阀值;或者当所述视觉特征参数为关键字位置参数时,对应的不可见特征要求为该超链接的关键字位置在所述待检测网页的可见范围之外;或者当所述视觉特征参数为链接展现参数时,对应的不可见特征要求为该超链接以跑马灯形式闪现或者不显示。

       百度heilian检测算法的测试案例中所述恶意特征数据库存储有被确定为heilian的链接;该方法还包括:从网页库中获取超链接中包含了所述恶意特征数据库中链接的网页,对该网页中的其他超链接逐一执行所述heilian检测流程,并将检测出的heilian加入所述恶意特征数据库;或者,从网页库中找出与所述恶意特征数据库中链接的网页相似度满足预设相似度要求的网页,将找出的网页作为待检测网页转至步骤Sl处开始执行,然后将检测出的heilian加入所述恶意特征数据库。一种检测heilian的装置,该装置包括:链接提取模块,用于提取待检测网页的超链接,并将提取的超链接逐一提供给检测模块;检测模块,用于判断超链接的视觉特征参数是否满足预设的不可见特征要求,如果是,则将该超链接发送给heilian确定模块;heilian确定模块,用于将接收到的超链接确定为heilian。

       百度heilian检测算法的测试案例中该装置还包括:引用次数判断模块,用于在所述检测模块的判断结果为否时,判断该超链接的外链引用次数是否超过预设的次数阂值,如果是,则将该超链接发送给所述heilian确定模块。百度heilian检测算法的测试案例中该装置还包括:白名单维护模块,用于在所述引用次数判断模块的判断结果为否时,将该超链接加入白名单数据库。百度heilian检测算法的测试案例中该装置还包括:白名单判断模块,用于将所述待检测网页的网址与已有白名单数据库进行匹配,如果匹配得上,则确定所述待检测网页不存在heilian;否则,触发所述链接提取模块。百度heilian检测算法的测试案例中该装置还包括:恶意特征匹配模块,用于获取发送给所述heilian确定模块的超链接,获取该超链接的网页内容特征,将获取的内容特征与已挖掘出的恶意特征数据库进行匹配,如果匹配得上,则将该超链接发送给所述heilian确定模块。百度heilian检测算法的测试案例中所述恶意特征数据库中存储有被识别为heilian的网页的关键词;所述恶意特征匹配模块在将获取的内容特征与已挖掘出的恶意特征数据库进行匹配时,具体将获取的该超链接的网页标题title或网页元信息Meta与所述恶意特征数据库中存储的关键词进行匹配。

       百度heilian检测算法的测试案例中该装置还包括:恶意特征库维护模块,用于在所述heilian确定模块将该超链接确定heilian后,从该heilian的网页中进一步提取关键词,将该关键词存储于恶意特征数据库。百度heilian检测算法的测试案例中在所述检测模块中,当所述视觉特征参数为颜色设置参数时,采用的不可见特征要求为该超链接的颜色设置参数与所述待检测网页背景颜色一致;或者当所述视觉特征参数为字体参数时,采用的不可见特征要求为该超链接的字体参数的值小于或等于预设的字体参数I-7值;或者当所述视觉特征参数为关键字位置参数时,采用的不可见特征要求为该超链接的关键字位置在所述待检测网页的可见范围之外;或者当所述视觉特征参数为链接展现参数时,采用的不可见特征要求为该超链接以跑马灯形式闪现或者不显示。百度heilian检测算法的测试案例中所述恶意特征数据库存储有被确定为heilian的链接;该装置还包括:恶意特征库挖掘模块,用于从网页库中获取超链接中包含了所述恶意特征数据库中链接的网页,将该网页中的其他超链接逐一提供给所述检测模块,并将所述heilian确定模块确定的heilian加入所述恶意特征数据库;或者,从网页库中找出与所述恶意特征数据库中链接的网页相似度满足预设相似度要求的网页,将找出的网页作为待检测网页提供给所述链接提取模块,然后将所述heilian确定模块确定的heilian加入所述恶意特征数据库。