web2.0不仅给互联网带来了新的生机,也带来了一个新的恶魔时代“SPAM的时代”。写博客的人一般都深有体会,大量垃圾广告充斥评论。搜索引擎的结果也堆满了针对搜索引擎优化过的垃圾网页。虽然这个SPAM并不是新事物,早期的垃圾邮件大家都早已领教过,只不过SPAM搭乘着WEB2.0这趟列车,势头也越来越猛。如今的互联网可以说是搜索引擎控制的互联网,不少人为了自己的网页可以在搜索引擎中获得好的搜索排名,从而获得更多利益,在这种利益的驱使下,利用各种手段来达到这个目的。其中有些手法让人难以接受,甚至感到愤慨,可以说这就是SPAM的大概意思。
那么,对于搜索引擎公司来说,SPAM到底是什么?怎样才算是SPAM呢? Yahoo巴塞罗纳研究中心的网站上有这样的一些定义。”
SPAM可以说是一种无理的利用其他网页的重要性或有利相关性来获得网页自身真正价值的蓄意的行为”,简单的说,判断网页是否属于SPAM,可以根据它的对象来判断,到底是针对人,还是搜索引擎本身 - “anything that would not be done if search engines did not exist”。至于判定SPAM的一些算法,确实比较复杂,有兴趣的可以看看这里:Using Rank Propagation and Probabilistic Counting for Link-Based Spam Detection。