百度搜索引擎使用了高性能的“网络蜘蛛”程序自动在互联网中搜索信息,可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息。百度在中文互联网拥有天然优势,支持搜索1.3亿个中文网页,是现在最大的中文搜索引擎。并且,百度每天都在增加几十万新网页,对重要中文网页实现每天更新。百度除了用超链分析排名外还开展竞价排名。具有网页快照,相关搜索、中文人名识别、简繁体中文自动转换、网页预览等功能,还可以进行专业的MP3搜索、Flash搜索、新闻搜索、图片搜索、信息快递搜索。百度总裁李彦宏就是超链分析专利的唯一持有人。
引入人工智能的慧聪(http://www.huicong.com)行业搜索引擎对于商务人士而言尤为有用。如果在Google上输入“化工”,搜索出相关网页有138万个,里面包罗万象,有用的、无用的混杂在一起,如果用户想找的网站正好排名在上千、上万个以后,无疑面对的是一个茫茫网海,找到这个信息十分困难。而在慧聪行业搜索引擎,弹出的首先是一个分类页面,列有有机化工、石油化工、精细化工、印刷化工等43个行业分类的条目,虽然只有1万多条查询结果,针对性却非常强,用户可以快速找到自己需要的信息,网站与有效用户的见面机会大大增强。模拟人类智慧,更好地使用技术来完成更具智慧的搜索,必然是下一代搜索引攀技术的发展趋势。
用户在搜索关于某些内容的有效信息时,最大的特点是各异性。利用超链分析技术,用户将接受一种根据某种标准进行SEO排名的信息服务,从而演变成为各网站想尽办法追求网页排名的商业活动。
海量的网页被收集回来,用姓名、电话、单位名称或网名都可以搜索到许多含有此关键词的信息,这些信息有不少侵权、侵犯隐私、泄露机密的信息,尤其是大量论坛的贴子被收录,不少贴子言论含有攻击的成分。所以如何及时处理掉这些链接又是百度急需解决的问题。
(推荐阅读:Google优化知识-如何辨别Google爬虫身份)
(推荐阅读:搜索引擎的爬虫)
(推荐阅读:网络蜘蛛的广度优先和深度优先)
(推荐阅读:针对百度新算法的试验)