搜索引擎优化方法总结(最终定稿)

时间:2019-05-14 02:57:50下载本文作者:会员上传
简介:写写帮文库小编为你整理了多篇相关的《搜索引擎优化方法总结》,但愿对你工作学习有帮助,当然你在写写帮文库还可以找到更多《搜索引擎优化方法总结》。

第一篇:搜索引擎优化方法总结

搜索引擎优化方法总结

有了做搜索引擎优化的正确思想认识,接着就是探讨搜索引擎优化的方法了。搜索引擎优化可以从站内优化与站外优化两个方面去考虑。下面文军信息给大家详细介绍一下从网站源代码入手该如何优化和其他一些优化方法总结。

从网站源代码做优化主要从以下八个方面去考虑。

1、尽可能少地使用javascript来做与内容相关的事情。

尽可能少地使用javascript来做与内容相关的事情。例如用document.write去显示正文。这样会影响搜索引擎对页面内容的搜索。

2、千万不要去javascript来实现你网站的导航。

Javascript脚本导航,方便了你但很可能会将搜索引擎拒之门外。那样会让搜索引擎迷失方向。

3、每个页面的关键字尽可能出现在页面的标题,也就是头部的Title标签中。

当然,要合理应用,不要太长,更别用大量与页面内容无关的网络热门关键字。因为那就不是优化而是在作弊。

4、将css与javascript全部用下边的方法分离到外部文件中去。

让html代码最大可能的只是用来显示实际内容。

5、采用xhtml代码编写页面,抛弃传统Table布局模式,去掉页面中的例如font/bgcolor等格式化控制标签。

用符合web标准的代码来制作页面。这样能够让xhtml代码结构化、语义化。提高页面代码的可读性。

6、让页面代码体积变得更小。

采用了上边的方法你会发现你的html代码会变得非常小,当然如果可以的话。让它变得更小。

太大的页面会影响搜索引擎的处理速度。一般通过xhtml+css设计的网页,html代码应该可以控制在50K以内。大家可以去看一下用web标准重构得比较好的网站。

7、用好图片的alt标签,合理的使用页面关键字去描述图片,这样能增加页面的关键字密度。

搜索引擎毕竟不是人脑,它不能读懂图片内容然后生成概要。因此alt属性的加入非常重要。使得合理的页面关键字来描述图片,会使得你的页面对搜索引擎更友好。

8、合理使用恰当标签,体现文档结构。

尽量在每个页面代码中合理使用标签并让你的关键字出现在标签中,让页面的文档结构更清晰。这里只是将在页面制作的过程中涉及到的一些细节问题拿出来和大家探讨一下。由此也可以说明为什么基于web标准设计的网站会更有利于SEO了。文军信息建议如果您不打算花钱去请专业的SEOER来为您的网站做优化,那么可以让页面制作人员在制作上注意一些细节。相信这样免费的一些细节也能达到一个比较好的效果。

下面文军信息给大家介绍其他一些SEO优化的技巧:

1、使用位置导航图: 一个让浏览者进入后不知东西的页面很难留住人,浏览者可能马上离开,提供一项位置导航图不仅可以让用户体验更好,同时可以让搜索引擎的支柱程序更正确更快速的载入并记录网站相关内容,这样有助于提升网页PR值。

2、了解搜索引擎到底要什么: 搜索引擎对于收录页面并如何判定页面的PR值有一套规则,应该阅读它们,使优化向着搜索引擎的知道原则方向去做使使网站被收录的最快最有效的方法。

3、使用关键字语句: 关键字没必要只限于一个单词或字符,事实上,并不是这样的.使用关键字语句可以让你更好的将内容集中面向目标客户群体。

4、使用合适的关键字: 使用最能概括您网站内容的关键词,而这个关键词一般也应该是普通的浏览者平常在搜索某一类产品像您的网站所列的一类产品所习惯使用的.直接使用不同的索引擎来试验一下,看下您所设置的关键词在搜索引擎下得到的结果,并改善。

5、将关键字置于最前面。当构建页面内容时,确保您所使用的引导浏览者登录到您网站的关键词出现在第一个句子当中,而这点正是搜索引擎在搜索结果中显示出来的。

6、雇佣专业人士.并非所有的人都有非常专业的文字表达能力.雇佣专业人士进行网站内容的编排可以有助于使网站页面看上去条例清晰,简洁,内容集中,这样的网站用户感觉更舒服,更愿意回头再浏览。

7、使用容易记的网址.对于一个容易吸引人,容易记的网址是无可替代的.务必使网址简短,好记.,这就是为何谷歌搜索这个字眼引擎进入我们的日常语言的重要原因。

8、在整个网页中都使用关键词: 一旦发现关键字的数量降下来了,一定要毫不吝惜的在页面内容中多加入些关键词.关键词是页面内容当中非常吸引浏览者的一个方面,努力确保关键词所指向的内容为受众所认可.9、更新内容: 一旦完成了相应的优化内容并获得了较好的PR值后,还必须做到网站内容的及时更新,一定要记住竞争者随时都在想一些更能吸引您现在顾客的方法,您的顾客可能会被挖走.如果网站内容很旧而且又很久都没有更新的网站很难带来回头浏览客,更别谈留住浏览者,即便是您的网站在搜索引擎的搜索结果中非常靠前。

10、链接到其它的网站: 使网站链接到其它相关联的网站对于提升PR值是至关重要的.不要使用垃圾信息的方式(通过博客链接或者链接到一些根本就没有内容的“链接工厂”),而是使一些内容关联的,高质量的网站链接到您的网站。一系列的互惠的链接对于对于突出网页并提升PR值是非常重要的一个环节。

第二篇:搜索引擎优化思路与方法总结

上海开成网络营销策划公司熊俞强:

搜索引擎优化思路与方法总结 1

搜索引擎优化如何去优化,我们首先得从思想上开始,正确认识搜索引擎营销是第一步,接着才是探讨搜索引擎营销有哪些方法。

搜索引擎营销思路一般从以下四个面去认识:

第一、搜索引擎优化是一个循序渐进的过程

不要指望今天做下优化,明天就排名靠前。搜索引擎优化是一项慢工出细活的工作,是一个循序渐进的过程。切忌心浮气躁,做优化的人要有良好的心理素质,遇事急躁是不行的。其见效周期一般是2个周到3个月左右,对于新站来讲,优化效果是会很慢的,一方面是由于网站内容的限制。另一方面也是爬行蜘蛛的造访频率的影响。刚建立起来的网站,哪个方面都不强,所以只能在时间上慢慢等待,要做的就是每天做优化,静待效果出现的那一天。

第二、搜索引擎优化需要坚持不懈的努力

做优化切不可三天打渔,两天晒网,要做到每天更新内容,每天为网页提供一些必要的技术处理,包含增加外链,访问率等。优化的方式可简可繁,一般来说,新站优化需逐步加强,老站可适当增加强度。我们要做的,就是每天坚持做一些事情,经过一段时间后,只要网站没用一些作弊手段,效果肯定也是会很明显的。

第三、搜索引擎优化同时需要相互帮助

搜索引擎优化切不可独立存在,所有的优化,不是一个网站自己关起门就可以做好的。准确来讲,SEO有两个方面的内容:一是站内优化,另一个就是站外优化。站内优化容易理解,无非就是为网站设置好关键字,对标题等进行恰当的处理,网站描述也要详情反应出网页的真实内容。但站外优化,不是可以靠自己就能够解决的,这需要联合网络上的朋友,大家相互帮助和照顾,其中主要是为网站增加外链和加强宣传。中国有句俗话:朋友多了路好走。

第四、搜索引擎优化需要不断创新的思想

技术要不断提高,思想要不断创新。SEO虽然只有那么多的方法,但是各种方法是否能够结合完好,运用娴熟,则是需要一些失败的经验做参考的。从而也需要大家不断汲取教训,多阅读他人的成功经验,做些适合自己网站的合理性优化,要不断的突破固定思维,利用一些必要的营销手段进行相关推广宣传。

有了做搜索引擎优化的正确思想认识,接着就是探讨搜索引擎优化的方法了。搜索引擎优化可以从站内优化与站外优化两个方面去考虑。下面详细介绍一下从网站源代码入手该如何优化和其他一些优化方法总结。

上海开成网络营销策划公司熊俞强

上海开成网络营销策划公司熊俞强:

从网站源代码做优化主要从以下八个方面去考虑。

1、尽可能少地使用javascript来做与内容相关的事情。

尽可能少地使用javascript来做与内容相关的事情。例如用document.write去显示正文。这样会影响搜索引擎对页面内容的搜索。

2、千万不要去javascript来实现你网站的导航。

Javascript脚本导航,方便了你但很可能会将搜索引擎拒之门外。那样会让搜索引擎迷失方向。

3、每个页面的关键字尽可能出现在页面的标题,也就是头部的Title标签中。

当然,要合理应用,不要太长,更别用大量与页面内容无关的网络热门关键字。因为那就不是优化而是在作弊。

4、将css与javascript全部用下边的方法分离到外部文件中去。

让html代码最大可能的只是用来显示实际内容。

5、采用xhtml代码编写页面,抛弃传统Table布局模式,去掉页面中的例如font/bgcolor等格式化控制标签。

用符合web标准的代码来制作页面。这样能够让xhtml代码结构化、语义化。提高页面代码的可读性。

6、让页面代码体积变得更小。

采用了上边的方法你会发现你的html代码会变得非常小,当然如果可以的话。让它变得更小。

太大的页面会影响搜索引擎的处理速度。一般通过xhtml+css设计的网页,html代码应该可以控制在50K以内。大家可以去看一下用web标准重构得比较好的网站。

7、用好图片的alt标签,合理的使用页面关键字去描述图片,这样能增加页面的关键字密度。

搜索引擎毕竟不是人脑,它不能读懂图片内容然后生成概要。因此alt属性的加入非常重要。使得合理的页面关键字来描述图片,会使得你的页面对搜索引擎更友好。

8、合理使用恰当标签,体现文档结构。

尽量在每个页面代码中合理使用标签并让你的关键字出现在标签中,让页面的文档结构更清晰。这里只是将在页面制作的过程中涉及到的一些细节问题拿出来和大家探讨一下。由此也可以说明为什么基于web标准设计的网站会更有利于SEO了。如果您不打算花钱去请专业的SEOer来为您的网站做优化,那么可以让页面制作人员在制作上注意一些细节。相信这样免费的一些细节也能达到一个比较好的效果。

其他一些SEO优化的技巧主要体现在以下十个方面:

1、使用位置导航图: 一个让浏览者进入后不知东西的页面很难留住人,浏览者可能马上离开,提供一项位置导航图不仅可以让用户体验更好,同时可以让搜索引擎的支柱程序更正确更快速的载入并记录网站相关内容,这样有助于提升网页PR值。

2、了解搜索引擎到底要什么: 搜索引擎对于收录页面并如何判定页面的PR值有一套规则,应该阅读它们,使优化向着搜索引擎的知道原则方向去做使使网站被收录的最快最有效的方法。

3、使用关键字语句: 关键字没必要只限于一个单词或字符,事实上,并不是这样的.使用关键字语句可以让你更好的将内容集中面向目标客户群体。

4、使用合适的关键字: 使用最能概括您网站内容的关键词,而这个关键词一般也应该是普通的浏览者平常在搜索某一类产品像您的网站所列的一类产品所习惯使用的.直接使用不同的索引擎来试验一下,看下您所设置的关键词在搜索引擎下得到的结果,并改善。

5、将关键字置于最前面。当构建页面内容时,确保您所使用的引导浏览者登录到您网站的关键词出现在第一个句子当中,而这点正是搜索引擎在搜索结果中显示出来的。

6、雇佣专业人士.并非所有的人都有非常专业的文字表达能力.雇佣专业人士进行网站内容的编排可以有助于使网站页面看上去条例清晰,简洁,内容集中,这样的网站用户感觉更舒服,更愿意回头再浏览。

7、使用容易记的网址.对于一个容易吸引人,容易记的网址是无可替代的.务必使网址简短,好记.,这就是为何谷歌搜索这个字眼引擎进入我们的日常语言的重要原因。

8、在整个网页中都使用关键词: 一旦发现关键字的数量降下来了,一定要毫不吝惜的在页面内容中多加入些关键词.关键词是页面内容当中非常吸引浏览者的一个方面,努力确保关键词所指向的内容为受众所认可.9、更新内容: 一旦完成了相应的优化内容并获得了较好的PR值后,还必须做到网站内容的及时更新,一定要记住竞争者随时都在想一些更能吸引您现在顾客的方法,您的顾客可能会被挖走.如果网站内容很旧而且又很久都没有更新的网站很难带来回头浏览客,更别谈留住浏览者,即便是您的网站在搜索引擎的搜索结果中非常靠前。

10、链接到其它的网站: 使网站链接到其它相关联的网站对于提升PR值是至关重要的.不要使用垃圾信息的方式(通过博客链接或者链接到一些根本就没有内容的“链接工厂”),而是使一些内容关联的,高质量的网站链接到您的网站。一系列的互惠的链接对于对于突出网页并提升PR值是非常重要的一个环节。

如果你想做搜索引擎优化,可以联系QQ:1020488267,联系人:熊先生邮箱:xiongyuqiang00789@163.com

第三篇:搜索引擎优化专员

什么是搜索引擎优化专员

岗位职责:

1、长期跟踪并深入研究Alexa、Google、Baidu和Yahoo的排名机制和优化规则。熟悉各大搜索引擎蜘蛛爬行的规律规则及原理。对SEO有独到的认知与见解。

2、能够根据公司战略发展要求,通过对网站的分析,制定前台页面和系统架构等全面的搜索引擎排名及优化的整体解决方案。

3、分析网站及各频道的关键词解决方案,监控网站关键字,监控和研究竞争对手及其他网站相关做法,并围绕优化提出合理的网站调整建议。

4、通过第三方平台或网站进行流量、数据或服务交换,或战略合作联盟,增加网站的流量和知名度。

5、撰写相关部门的SEO操作文档,对相关部门人员进行培训,有效地推动其他部门的配合,完成网站的SEO工作。

6、找出避免被各大搜索引擎惩罚的方法,并且作好相应的补救措施。

岗位要求:

1、大专以上学历,一年以上工作经验,拥有广泛的网络营销资源,熟悉SEO。

2、精通各大搜索引擎的搜索排名原理,掌握搜索引擎优化技术,熟悉各类网站推广技术。

3、有广泛的互联网知识,对于Web服务器、MySQL、域名、Linux等名词不陌生,并了解其工作原理。

4、有过编程经验,了解HTML、Javascript、ASP、PHP、CSS等页面语言,精通HTML者为佳。

5、对于搜索引擎的原理有深入的了解,精通排名原理、PR规则、网站收录、网站流量、Alexa排名等概念及方法。熟悉各个品牌蜘蛛、爬虫的口味和喜好。

6、具有极强的分析能力,能从看似杂乱的数据中分析出合理的原因并制定应对方案,有市场洞察和分析调研能力。

7、有激情,工作积极主动有效,富有进取心,能够胜任高强度的工作。

8.有丰富Google英文SEO实践经验者优先;能效提高网站整体流量者优先。

竞价专员: 岗位职责:1.负责百度关键词投放和日常维护,提升投放有效性,控制性价比;

2.负责关键词投放表、投放文案的规划和优化,以及展示定位的规划和优化;

3.完成日常SEM广告投放工作,对网站广告投放Traffics,CTR等各项业务KPI负责;

4.负责相关数据分析挖掘,不断优化投放方式和页面;

5.负责分析关键词及网站内容的数据整合,向其他部门提供数据支持。

任职资格:1.大专以上学历,1年以上SEM工作经验;

2.丰富的百度、Google等搜索引擎在线广告运营经验;

3.深入了解百度、GOOGLE的搜索引擎推广产品,擅长搜索引擎营销;

4.较强的数据分析和挖掘经验;

5.良好的语言沟通和文档沟通能力;

6.思维敏捷,富有创新精神,对数据变化敏感,具备良好的分析判断能力;

7.能有效应对压力,自主工作能力,具备百度及谷歌工作经验者优先。

岗位职责

1、负责微信公众号运营推广,负责策划并执行微信营销线日常活动及跟踪、维护;

2、提高粉丝活跃度,与微信的粉丝做好互动,对微信粉丝的网络行为进行分析与总结;

3、挖掘和分析网友使用习惯、情感及体验感受,即时掌握新闻热点,能够完成专题策划、活动;

4、深入了解互联网,尤其是微信特点及资源,有效运用相关资源;

5、分析微信运营效果,线上线下内容活动的策划与运营,提升影响力。

微信营销主管/微博推广专员

任职资格

1、大专以上学历,有一年以上企业官方微信运营经验;

2、酷爱玩微信,对微信有浓厚的兴趣;

3、具备一定的文字功底,文笔较好,善于揣摩网民的阅读喜好,找出他们喜欢关注的各种内容;

4、对互联网传播有较深的认识和看法;

5、有服装、饰品、礼品等营销经验优先考虑

第四篇:搜索引擎优化战略合作协议书

新势力网络营销策划 电话:0379-63367515手机:***董耀北

搜索引擎优化战略合作协议书

甲方:

乙方:

甲乙双方本着精诚合作,双赢,平等互利互惠的原则,经友好协商,就相关合作事宜,结成战略合作伙伴,达成如下协议:

3、按合同约定的关键词,进行网站优化;

4、乙方的优化手段必须规范、合理,如因采用作弊优化手段而导致甲方的网站被屏蔽,乙方

须退回甲方已付的全部基础服务费;

5、在优化期间,如未征得甲方同意,乙方不得擅自改变网站外观;

6、乙方针对甲方约定的关键词优化达标时应及时通知甲方,甲方也应即时通过互联网查看效

果确认,如甲方未能即时确认,则该关键词的合同生效日以乙方发出通知的第3日为准;

7、乙方提供按月效果付费服务,当月如果甲方没有提出举证(异议),则乙方在下一个付款周期内按合同约定全款收取当月服务费;

8、如甲方在协议约定的付款日未付款,并且有意拖欠超过3天以上,乙方有权立即终止协议

且不退回已付任何款项,同时可采用反优化手段将优化效果封锁,甲方不得追究责任。

第七条 验收

1、乙方应以电子邮件方式向甲方提供网站优化结果。

2、网站优化达到约定效果即为验收合格。

第八条 违约责任

1、甲方如违反国家有关政策法规,乙方有权中止合同,并由甲方承担相应的责任;

2、任何一方有证据表明对方已经、正在或将要违约,可以提出中止履行本合同,但应及时通

知对方。若对方继续不履行、履行不当或者违反本合同,该方可以解除本合同并要求对方以合同额

赔偿损失;

3、因地震、火灾等自然灾害、战争、罢工、大规模停电、政府行为等造成双方不能履行本合同义务,双方通过书面的形式通知对方,本合同即告中止。

第九条 保密条款

双方应严格保守在合作过程中所了解的对方的商业及技术机密,否则应对因此造成的损失承担

赔偿和刑事责任。

第十条 以上条款如有未尽事宜,经甲、乙双方协商后加以补充,附件有效。

第十一条 本合同及附件签订期限为一年,自到,双方各执

一份,具有同等法律效力。

甲方(盖章或签字):

授权人代表签字:

身份证号:

日期:年月日 乙方(盖章或签字): 授权人代表签字:身份证号:日期:年月日

附件一:网站优化工作进度与安排、价款、交付和验收方式

第一条 项目工作内容

1、甲方提出优化的网站网址为:

2、需要优化的关键词和价格列表、以及双方约定的效果及实现平台:

关键词1:,价格:(元),效果:百度左侧搜索结果前十位

关键词2:,价格:(元),效果:

关键词3:,价格:(元),效果:

关键词4:,价格:(元),效果:

关键词5:,价格:(元),效果:

关键词6:,价格:(元),效果:

关键词7:,价格:(元),效果:

补充:本条注明:“关键词”是指乙方为甲方需要进行网站优化的已确定关键词,“价格”为该关键词出现

效果后每月需要支付的费用,“效果要求”是经过甲乙双方约定的该关键词最终实现的效果平台及

效果位置,所有的效果要求是指搜索引擎自然搜索结果的排名,即除其本身广告以外的位置。

3、网站优化结果与双方约定的有出入,乙方将按下面比例向甲方收费或退还费用:

 到达第2页按照原价格的60%收费;

 到达第3页按照原价格的30%收费;

 排名未达到前3页的视同失败,将退还客户30%的基础服务费;

 如果出现在前5位,乙方也将只收取原价,不再增加收费。

4、实现结果以搜索引擎自由查询,即通过约定搜索引擎搜索约定的关键词的查询结果在指定页出

现为准。

第二条 付款方式

1、费用:本合同基础服务费元,全部关键词效果费元/月。费用共计:元。

2、付款方式:基础服务费在合同签订后三个工作日内一次性支付给乙方,关键词效果费在出现效

果后,每个自然月的第日向乙方支付上一个自然月的关键词效果费,该关键词出现效果的当月,计费方式以天计算。计算方式为该关键词月总费用除以三十天,得出每天平均的费用。

第三条 合同期限

本合同及附件签订期限为一年,自到,双方各执一份,具有同等法律效力。

第五篇:搜索引擎优化技术及发展趋势

搜索引擎优化技术及发展趋势

一、引言

“搜索引擎”作为互联网上提供信息服务的一种工具,现在几乎已经是一个妇孺皆知的事物。按照中国互联网络信息中心在2006年7月19日发布的报告[1],中国网民中有66。3%经常使用搜索引擎,比半年前又提高了近1个百分点。

互联网上的第一代搜索引擎出现于1994年前后,以AltaVista、Yahoo和Infoseek为代表,搜索结果的好坏通常用反馈结果的数量来衡量,或者说是“求全”。然而研究表明,当时的搜索引擎性能并没有想象中那么优秀,根据SteveLawrence和C。LeeGiles在1999年2月的实验[2],全球11个主要的搜索引擎中,每个搜索引擎仅能搜索到互联网上全部页面的16%,甚至更低(图1)。造成这种情况的原因,主要是这些搜索引擎的处理能力和网络带宽等方面的限制。

1998年,以Google为代表的第二代搜索引擎出现在互联网上,其主要特点是提高了查准率,或者说“求精”。当时传统的搜索引擎如Lycos等主要使用网页中的关键词进行搜索,而Google则使用了一种综合页面排名算法:它不仅考虑搜索关键词,还考虑页面间的链接关系,然后对整个网络的链接结构进行分析和迭代计算,从而对页面进行区分[3]。

第二代搜索引擎在技术和商业上都获得了巨大成功,然而商业竞争和信息环境的变化仍在推动着它们不断创新和发展。当前所谓的第三代搜索引擎主要增加了互动性和个性化等技术,为用户使用搜索引擎获取信息提供更好的体验。至于互动性的评价标准是什么,以及第三代搜索引擎到底比第二代增加了多少价值,目前并没有非常令人信服的研究结论。在以下的论述中,我们不对产品概念进行太多讨论,而是就搜索引擎目前所面临的挑战,以及它们的应对方略和发展趋势进行梳理和阐述。

二、搜索引擎面临的挑战

面对瞬息万变的环境,搜索引擎如果在技术上不创新进取,从信息服务质量的角度讲,现在看来不错的技术,将来很可能会落伍。不进则退,在搜索引擎领域体现得很明显。关于搜索引擎的基础技术,读者可参见文献[23],那么目前有些什么变化在影响着搜索引擎呢?

(一)Web的发展

1。信息大量增加

Web自产生以来,其信息量一直以几何级数的形式递增,近两年来尤其如此。这主要有两方面原因:首先是Web2。0[16]的用户和以前有所不同,他们正在由单纯的信息消费者向生产者与消费者双重身份转变;其次是DeepWeb[4]的发展。

如果说Web1。0是单纯的网页浏览模式,那么Web2。0则是通过了真正的个性化、去中心化和信息自主权,向着内容更丰富、联系性更强、工具性更强而努力。尽管一切都还在探索中,但毋庸置疑,Web2。0已经成为互联网新的发展趋势。这种转变,从模式上可以概括为是从单纯的“读”向“写”和“共同建设”发展。这也更体现了互联网的第一规则,“用户需要表达”。只要有机会和便利,网民就不会满足于只是被动的信息接受者,他们需要表达,希望驾驭自己的传媒,而不是受其掣肘。在Web2。0实际应用中,除了原先的IM(InstantMessenger,即时通讯)、P2P(PeertoPeer,对等网络)等得到新的发展,更是涌现出了很多社会化的新事物,比如Blog(Weblog,网络日记)、RSS(RDFSiteSummary,站点摘要)、WIKI(网络百科)、WB(WebBookmarks,Web文摘)、SNS(SocialNetworkSoftware,社交网络)等。

这些新事物发展得非常快。以RSS为例,美国提供RSS内容的网站数目从2001年9月的1000余家激增至2004年9月的195000余家,短短的3年中增长了近150倍,市场的飞速发展令人瞩目。而Blog站点的大量涌现,更是为每一位用户都提供了畅所欲言的场所——据计世资讯(CCWResearch)的统计,2006年第二季度,中国注册博客的总数量达到6800万,比第一季度增长51。1%;中国博客用户则达到2100万人,比第一季度增加40。0%。这些无疑都在刺激着Web信息生产和消费的繁荣。

根据AlexandrosNtoulas等人的研究结果[5-6],每星期Web上新产生的页面数大约为8%。而这个数字是非常保守的:他们的实验是针对154个“popular”网站进行的,而实际上,那些大量涌现的新网站,如Blog网站,它们的成长速度远远超过这些所谓的流行网站。

关于DeepWeb的研究最近几年也受到越来越多的关注,DeepWeb又被称为InvisibleWeb或者HiddenWeb。JillEllsworth于1994年首次提出的InvisibleWeb概念,是指那些常规搜索引擎难以发现的内容。美国互联网专家ChrisSherman和GaryPrice在他们著作《TheInvisibleWeb》中将InvisibleWeb定义为:“在互联网上可获得的,但传统的搜索引擎由于技术限制不能或者经过慎重考虑后不愿意作索引的那些文本网页、文件或其他高质量、权威的信息。”InvisibleWeb分为四种类型:不透明网络(theOpaqueWeb)、私人网络(thePrivateWeb)、专有网络(theProprietaryWeb)和真正的隐形网络(theTrulyInvisibleWeb)。我们认为使用“deep”更为合适,因为这些内容不是真的Invisible,只是藏在Web中较深的位置。

根据BrightPlanet公司的调查[4],2001年的DeepWeb大概是SurfaceWeb的500倍左右,而且还在快速发展。ChrisSherman和GaryPrice的估算则保守些,他们认为InvisibleWeb只有SurfaceWeb的2~50倍。但不论如何,DeepWeb在数量上都不容小觑。更为重要的是,DeepWeb通常都组织良好、信息权威、质量很高,而且时新性强。正因为这样,国内外许多研究者都在克服重重困难,探索如何有效地发现这些有价值的信息,提供给更多用户使用。各大搜索引擎要想巩固和强化在搜索市场的地位,就必须重视DeepWeb,发展搜索技术,提高竞争力。对于垂直搜索而言,DeepWeb的作用更为突出。

Web信息的大量增加,使得搜索引擎面临严峻的挑战。任何技术都有它的适用范围,超出这个范围,其性能将严重下滑。以搜索引擎的检索页面集为例,粗略地说,当页面总数没有超过某个阈值时,搜索引擎工作良好,一旦页面总数超过这个阈值,搜索引擎的查询结果质量将急剧下降,用户往往在查询返回结果的前10位、前20位甚至前50位都找不到一个自己想要的结果。这一点在目前的几大搜索引擎上都已经初现端倪,相信他们已经为此绞尽脑汁。

2。信息更新加快

Web上不但新信息涌现速度很快,信息变化速度也非常快。以网页中的链接为例,根据AlexandrosNtoulas等人的研究结果[5],每星期将有25%的新链接产生,1年之后,将只有24%的原有链接仍然存在。Google等搜索引擎的成功在于正确地分析了页面间的链接关系,为了保持这种成功,搜索引擎必须不断地跟踪链接结构的变化,或者说不断地刷新自己所保存的相关信息。就以每周25%的新链接为例,这样的链接更新速度要求搜索引擎至少每周重新计算一次所有页面的Ranking值,否则便不能及时地、恰如其分地反映RealWeb上的当前状况,失去搜索引擎所必需的时效性(timeliness)和时新性(freshness)。

3。信息表现形式多种多样

随着网络速度的提高,Web上的多媒体信息也急剧增加,因此人们对多媒体信息的检索需求也就随之而来。传统的信息检索主要集中于文本的检索,在多媒体方面的研究并不是很多。需求的发展使得目前各大搜索引擎都不断推出自己的多媒体素材搜索产品,让用户可以在庞大的素材库中进行检索,如AltaVista可以让用户在5。5亿个素材(包括5。4亿个图片、1100万个视频/音频文件)中进行检索,Google的素材库也达到了4。4亿的量级。然而,目前对这些多媒体素材库的使用,大多还是标注、分类等方法,缺乏对图像、音视频内容的直接检索。搜索引擎如何自动分析音视频的内容,允许用户按内容进行检索,甚至在抓取音视频素材时就按内容进行,这些问题将在今后较长一段时间内构成挑战,成为搜索引擎所要迫切解决的问题。

4。SEO正在蓬勃发展

自古有矛便有盾,有盾便有矛。SEO目前已经成为一个新兴的互联网行业。SEO是SearchEngineOptimization的缩写,即搜索引擎优化。从事这方面工作的就是SearchEngineOptimizer——搜索引擎优化师。他们利用工具或其他手段使目标网站符合搜索引擎的搜索规则从而获得较好的网站排名。无止境地追求更高排名是搜索引擎优化师们的目标,因为他们知道,如果想让用户在烟波浩渺的Web中发现自己,获得一个很高的排名无疑是非常有效的一种方法。

客观地说,SEO的这种追求是很自然的,因为经济利益的诱惑实在是太大了。根据USCensusBureau的调查,2004年美国的电子商务销售额就达到692亿美元,并以7。8%的年增长率在发展,远远超过美国的GDP增长。而根据ForresterResearch的预测,美国B2C的销售额将于2010年达到3290亿美元,占全部零售额的13%。如果不能让用户认识自己,何谈电子商务呢?“搜索引擎优化”正是让大量用户认识自己的一种有效手段。

搜索引擎优化师们并不等于垃圾页面制造者,但他们中的一部分的确为Web和搜索引擎制造着麻烦,为搜索引擎用户制造着垃圾。虽然有良好素养和道德观念的搜索引擎优化师们仍然通过网站结构的优化、页面质量的提高等方法进行他们的工作,但那些不道德的搜索引擎优化师们发现有一些“捷径”更加有效,如在页面上堆砌大量关键词、使用重定位手段欺骗WebCrawler程序、构造LinkFarm来提高目标页面的排名,等等[7,8]。他们运用这些手段欺骗搜索引擎,浪费了搜索引擎大量带宽和时间,污染了搜索引擎的页面集合,歪曲了排名结果,浪费了用户的时间和精力,最后带给用户的只是大量垃圾。

这些垃圾制造者通常被称为WebSpammer。他们所运用的手段有Boosting技术和Hiding技术两大类:Boosting技术是指使用不道德的页面排名提升技术,而Hiding技术是指对使用的Boosting技术进行隐藏,尽量不让用户和WebCrawler发现。

Boosting技术包括TermSpamming和LinkSpamming。TermSpamming是较早出现的技术,是指Spammer操纵Web页面的正文,使其内容和众多的用户查询尽可能地相关,方法是在Body、Title和AnchorText等处插入大量毫无关联但用户经常使用的关键词。由于技术简单,只需要把别人已有的内容进行重复、编织和黏合,所以至今很多Spammer还在采用这些TermSpamming技术,而且已经发展到自动化和智能化的程度。LinkSpamming则更具隐蔽性,WebSpammer通常使用HoneyPot或构造强有力的LinkFarm来提高目标页面的排名。一个典型的LinkFarm可能包括几千个支持页面,而LinkFarm之间还可以构成威力更大的联盟[7]。由于隐蔽性很强,对于LinkSpamming的探测非常具有挑战性。

Hiding技术主要包括ContentHiding、Cloaking和Redirection。ContentHiding是指正文和页面背景使用相同的颜色,从而掩盖大量的无关正文,使得WebCrawler能够发现而对用户进行屏蔽。Cloaking是指对WebCrawler返回一个不同的页面,从而欺骗搜索引擎。Redirection本质上和Cloaking一样,但它是对浏览器而非Crawler返回不同的页面。Hiding技术也是Spammer所常用的,有时利益如此诱人,以至于一些著名大公司也跃跃欲试,如2006年初的时候,宝马德国公司网站(bmw。com。de)就曾因为使用了该欺骗技术而遭到Google的惩罚。

(二)用户需求的发展

1。更准、更全、更新、更快

经过十几年的技术发展和市场成熟,搜索引擎正日益渗透到人们日常生活的方方面面,人们对信息的获取越来越依赖搜索引擎。在全世界网民中,搜索引擎的使用率仅次于电子邮件而位居第二。随着对搜索引擎的使用不断走向深入,网民的要求也在提高。从产品层面来看,准、全、新、快仍然是用户对搜索引擎最基本的四个要求,而且用户希望搜索引擎在这些方面能做得更好。

目前而言,围绕这几个问题,各大搜索引擎服务商都在做许多细致的工作,以力求趋向完美解决。比如“准”,需要更准确地理解用户需求,不断更新Ranking算法,同时又要严格控制垃圾网页的干扰;“全”指的是全面,尽可能地把互联网中“有价值”的网页都索引下来,满足最大用户群的需要;“新”要求搜索引擎的抓取非常高效,能够把最新的东西及时提取出来,同时还要不断更新已抓取信息;第四点是“快”,不仅要让用户感觉速度很快,还要保持最大的系统稳定性。“搜得准、搜得全、搜得新、搜得快”,这是一个综合的服务过程,任何一个环节出了问题,都有可能导致用户满意度的下降。

2。使用更加方便和容易

随着技术的发展,人们希望搜索引擎无处不在,在任何时间任何地点,要寻找信息时都可以使用搜索引擎。而随着搜索引擎的逐步普及,越来越多的使用者(他们中很大一部分对计算机和网络了解不多)希望搜索引擎的工具性进一步加强,最好在不觉察的情况下使用搜索引擎服务。人们甚至期望搜索引擎的使用如微波炉和洗衣机一样方便和容易。

3。搜索个性化

搜索引擎的一个经验就是,用户很多时候并不确切地知道自己想要什么样的结果,除非你把结果放在他的面前。所以用户在使用搜索引擎时,很多时候相同表象的内容却意味着不同的需要。比如对于同一个查询词,不同的用户所需要的查询结果可能是不同的。即使是同一个用户输入同一个查询词,他在不同的时间、不同的地点和不同的查询背景下,希望得到的查询结果也可能是不一样的。

搜索引擎必须理解用户的意图和需求,才能非常到位地提供相关、准确的信息。要理解用户的意图,首先要理解用户的行为和习惯,对不同人的查询做不同的处理,反馈给用户个性化的内容;其次要理解用户查询时的上下文背景,包括时间、地点、语义等。个性化的搜索,意味着向更加精确搜索结果的方向又迈进了一步。

(三)网络的发展

1。网络终端形式更加丰富

目前各种客户端搜索工具的发展,使得用户可以不到搜索引擎的网站,而是直接在工具终端搜索所要查询的信息。手机、PDA等终端设备的不断发展,将最终帮助人们摆脱电脑的制约,而各种嵌入式智能装备的推广普及,正在印证着这一趋势。随着网络终端形式越来越丰富,很多应用找到了自己的位置,如手机电影;也有一些应用随着网络终端形式的发展而不断拓展,如Gmail的手机版。那么作为网络第二大应用的搜索引擎,也应该与时俱进,不断拓宽应用之路。

实际上很多搜索引擎已经这么做了。如Nokia和Yahoo在2006年9月7日发布了面向Nokia便携式终端的应用软件“NokiaMobileSearch”。该软件面向NokiaNseriesS60终端,用Yahoo的网页、图像搜索功能可向用户提供10种语言的搜索结果。但问题的关键是,只在新的网络终端上发布搜索产品还远远不够,应该挖掘各种网络终端的最佳应用模式,更好更方便地、个性化地服务用户,用户才可能喜爱这些新生事物。例如使用手机进行搜索时,完全可以根据时间和地点进行个性化服务。可以想象,如果快吃饭的时候使用手机查询饭店,那么把手机持有者附近的知名饭店作为查询结果返回,将会是一个很好的选择。

2。网络速度的提高

随着基础建设的发展和技术水平的提高,网络速度一直在不断提高。网速的提高对于搜索引擎的影响主要在两个方面:首先极大地促进了页面搜集的速度,能够使搜集的页面集合更全,覆盖率更高,同时使页面集合的更新更快,信息时效性更强;另一方面是在搜索结果的使用上,可以使用户更快地打开页面,下载自己需要的信息,包括pdf文件、图像文件、音视频文件等,给用户更好的应用体验。

网络速度的提高提供了以上的可能性,而搜索引擎必须把这种可能变为现实。另外,搜索引擎还要抓住机会,比如随着IPv6的发展,大力推进多媒体信息的搜索和使用。

3。无线网络的发展

互联网有从有线网络向无线网络发展的趋势,随着无线通讯技术的发展,无线传输速率、覆盖面和稳定性得到很大提高,3G的应用将进一步扩大这个趋势。摩根斯坦利(MorganStanley)2006年4月初发布了一份106页的名为“全球互联网趋势(GlobalInternetTrends)”的调查报告[9],这个报告包含了互联网的调查和市场数据,从金融市场的角度分析了互联网市场的风险和机遇。摩根斯坦利在这份报告中,试图说明互联网的发展趋势已经从PC互联网转向移动互联网;而规模远超过PC用户群,并且没有经过深度发掘的手机和消费电子设备,已经成为了主导互联网发展的主角。摩根斯坦利认为移动互联网将带来新的商机,在未来的数年内,移动互联网很可能会出现类似于Google那样的大服务商。

(四)来自非技术方面的挑战

1。知识产权问题

Web上的知识产权保护是一个很复杂的问题——不仅搜索引擎公司觉得麻烦,用户也很矛盾:一方面认为合法的知识产权理所当然应该受到保护,另一方面也希望自己能够更方便地获得更多权威的、有价值的信息。

事实上,Google公司不止一次地受到侵权起诉,Google使出浑然解数,也不过与原告们打个平手而已。国内的百度公司也因为提供MP3下载而屡屡为人诟病。知识产权的问题虽然最终要靠通过相应的法律解决,但某种程度上的技术处理,可以减轻侵权的压力。

2。所在国法律

搜索引擎庞大的搜罗万象的能力并非总是它的优势,有时正是因为在这一点上违反了所在国的相关规定而遭到封锁。比如“网页快照”是Google非常好的一项功能,但在中国内地因为与相关法规抵触而被封锁,而该项功能的封锁,使得它的不少用户不得不转向其竞争对手的产品。类似这种问题,是搜索引擎本地化时首要考虑的问题。

3。网络诚信问题

网络诚信不只是搜索引擎发展中所遇到的难题,而且也是整个互联网发展中的一个非技术瓶颈。这里以“点击欺诈”为例来说明问题的严重性。

“点击计费”是目前主流搜索引擎商普遍采用的广告收费模式,他们通过广告点击率向广告主收取费用,其广告收费=有效点击次数×广告投放价格,其中有效点击次数是指排除点击欺诈后的次数。点击欺诈自互联网诞生之际就出现了,成为全球搜索引擎商们的一大心病。虽然几乎每个搜索引擎商都有自己的反欺诈系统,但判断某个点击是“有效”还是“恶意”其实是非常困难的一件事。点击欺诈在中国更是泛滥到无法收拾的地步:靠点击广告挣钱甚至已经成为一个行业!点击欺诈的泛滥告诉我们,网络诚信远远没有我们预期的那么好。

2006年3月,网络搜索巨头Google宣布,公司同意支付最高9000万美元费用与点击欺诈案的原告达成和解。虽然Google这位行业老大终于愿意率先和广告主们握手言和了,但我们担心,Google能够独自承担整个行业的重责吗?恐怕这由非技术因素引起的挑战,最终还要靠技术手段把它们控制在搜索引擎公司能够承受的范围内。

三、搜索引擎应对方略

针对以上各种挑战,搜索引擎如何应对呢?我们对搜索引擎所采用的方略和相关的成型研究进行梳理,归纳为以下几点予以介绍。这几点和上面介绍的挑战并没有一一对应的关系。

(一)多元化

针对形形色色的用户,针对用户各种各样的需求,搜索引擎已经到了细分市场的时候,多元化是搜索引擎的必然之路。一方面,针对大量的普通用户,搜索引擎仍然致力于最广泛、最全面的信息检索;另一方面,针对检索目的明确、查询要求精准的用户,搜索引擎在特定领域和行业中发展,推出更有针对性的垂直搜索系统,为这些专业人士更好地服务。

1。通用系统:其定位是一个好的推荐系统

在通用系统层面,搜索引擎的定位更加清晰:它只是一个好的推荐系统,对于它的返回结果,用户必须经过自己的过滤和选择,而不是把排在前一二位的结果直接拿来使用。

作为一个好的推荐系统,搜索引擎着力做好这样几件事情:①信息尽量全而有价值;②信息具有良好的时效性和时新性;③信息查询尽量准确,或者说通过尽可能少的交互,引导用户找到其所需要的结果;④用户界面友好;⑤查询速度快。后面几个小节中,我们会有针对性地讨论这些方面。

2。专业系统:要求非常精准,有专业特色

专业搜索系统又称垂直搜索(verticalsearching)系统,它是搜索引擎的细化和延伸,在最近几年发展得如火如荼。垂直搜索引擎和通用搜索引擎的最大区别,是对网页信息进行了一定程度的结构化提取,然后将提取的数据进行深度加工处理,为用户提供针对性更强、精确性更高的服务。

垂直搜索引擎的应用方向很多,比如地图搜索、音乐搜索、图片搜索、文献搜索、企业信息搜索、求职信息搜索、购物搜索、房产搜索、天气搜索……几乎各行各业各类信息都可以细化成相应的垂直搜索对象。垂直搜索引擎一般在规模上比通用搜索引擎要小,因为它只涉及某个特定的领域。垂直搜索引擎在技术上也需要信息搜集程序(但只在一些特定站点活动,并且不是对所有的链接都感兴趣)、中间处理(分词、信息提取和索引等)程序以及为用户提供查询服务。在信息搜集方面,Crawler除了使用各种技术在限定领域内面向主题抓取尽可能全的信息外,从领域内的各种系统和数据库中获得信息更为重要,因为这些信息更为权威、也更有价值。在中间处理上,最大的挑战是如何利用模版、规则或Ontology技术,整理所抓取的纷繁芜杂的数据,从中提取结构化信息,然后使用关系模型或XML等半结构化模型进行组织。只有经过有效组织,才能提供有针对性的、更为精准的查询服务。

CiteSeer、GoogleEarth、YahooShopping、Shopping。com等都是代表性的垂直搜索引擎。计算机论文搜索引擎CiteSeer(http://citeseer。ist。psu。edu/cs)是NEC研究院建立的一个学术论文数字图书馆,它提供了一种通过引文链接检索文献的方式。GoogleEarth使用了公共领域的图片、受许可的航空照相图片、KeyHole间谍卫星的图片和很多其他卫星所拍摄的城镇照片,并将它们和GIS布置在一个地球的三维模型上,使人足不出户就可以在名川大山间翱翔,在摩天楼群中俯瞰。YahooShopping和Shopping。com是美国最大的购物搜索引擎,其中Shopping。com创建于1999年,每月可输送2000万个有效销售给商家,2005年8月被eBay以6。2亿美元收购。

至于国内,垂直搜索市场更是群雄纷争,令人眼花缭乱。然而问题是,大家在纷纷寻找好的赢利模式的时候,往往忽略了应该有一个好的技术作为支持。这是一个很可悲的现象。

(二)搜索质量提高

1。过滤垃圾页面

Web垃圾信息泛滥,不仅浪费了搜索引擎的带宽和时间等宝贵资源,更重要的是,它们的存在大大降低了搜索引擎的查询质量和查询效率,极大地影响了用户对Web信息的有效使用。搜索引擎主要在两个步骤上进行反击:①在Crawler抓取阶段即进行过滤,滤去那些质量极低、毫无内容可言的“高纯度垃圾”,这样可以节省网络带宽、费用、抓取时间、存储空间等,并且大大减轻了下一步在信息分类、信息组织和查询匹配时的负担;②在信息分类和组织阶段,计算网页信息的可信度,在用户查询信息时,把可信度作为一个重要因子对查询结果集进行排序,从而提高查询结果的信息质量,满足用户的实际需要。

搜索引擎公司传统上的做法是,聘请专业人员,不断地搜查探测那些恶意欺骗者。当确认了一个Web垃圾网站后,搜索引擎停止对它的搜索和索引。然而这个探测过程非常昂贵而且缓慢,鉴于此,搜索引擎公司、国内外知名大学和研究机构近几年开始从不同的角度研究和寻找更好的方法,其中有代表性的研究成果如下:

(1)Google在2002年就注意到Web垃圾信息日渐泛滥的问题,提出要在自己的排名算法中,加大页面质量的权重[10]。

(2)Microsoft对近6亿个页面进行了研究,从URL属性、HostName的解析、链接关系、内容特点等几方面分析了Web垃圾页面的特点,并试图按照这些统计属性来确认Web垃圾页面[8]。

(3)Stanford的Gyongyi等人受Haveliwala的“Topic-SensitivePageRank”思想的启发,认为好的页面所指向的链接页面通常也是好的,于是他们提出了TrustRank的概念,依靠一个人工选取的好种子页面集,计算他们的传播结果,从而对Web站点按可信度排序,进而把所有站点分为“好”和“坏”两种[11]。他们还对Webspam进行了分类研究[12],并对Linkspam联盟技术做了分析[13]。Gyongyi等人提出TrustRank的概念后,受到了广泛关注,陆续有很多研究者进行类似的研究,如匈牙利科学院的AndrásA。Benczúr等人,以及美国LehighUniversity的BaoningWu和BrianD。Davison等。

虽然很难见到Google、Yahoo等搜索引擎关于如何去除垃圾页面的技术报告,但他们一直在做着这样的工作,并且已经有所应用。这一点从相关产品的使用体验中可间接地验证。

2。提高查询准确度

对于一个查询,搜索引擎动辄返回几十万、几百万篇文档。面对大量的返回结果,用户只能在其中浏览筛选。实际上,用户大多数时间都没有足够的耐心去浏览多屏结果。根据Silverstein等人的研究结果,有85%的查询只需要给出前10个结果[14]。

如何使用户想要的查询结果出现在返回集合的前列(最好是第一屏),这个本来就具有挑战性的问题随着搜索引擎检索页面集的增大而越来越急迫。目前解决这个问题的主要几种方法是:

(1)通过各种方法获得用户没有在查询语句中表达出来的真正用途,包括:①相关度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关的程度),哪些不相关,通过多次交互逐步求精;②智能代理跟踪用户检索行为,分析用户模型;③用户注册使用,以便更好地分析用户的使用特点和喜好。

(2)使用正文分类技术将查询结果分类,使用可视化技术显示分类结构,用户可以有选择性地浏览自己感兴趣的类别(GoogleNews就采用了这种方法)。

(3)使用链接结构分析进行站点聚类或页面聚类,然后将信息推荐给用户(Vivisimo公司就是采用对搜索结果自动聚类的办法来满足不同类型用户的需要)。

我们认为最有力的方法是改进排名算法。Google的排名规则一直在变化中,2001年基于HillTop算法进行的优化是比较明显的变化(HillTop认为来自相同主题的相关文档链接对权重计算的贡献更大),现在又到了迫切需要算法更新的时候了。据说Google正在研究“多倍索引信息获取系统(MIBIRS)”,可以使搜索引擎的网页索引数量达到惊人的1000亿幅甚至更多,我们翘首以盼。

(三)搜索能力加强

1。对多媒体搜索的支持

随着多媒体信息在网络上的大量涌现和人们对多媒体信息需求的高涨,知名搜索引擎如Google、Yahoo、AltaVista、Lycos、AllTheWeb等对于多媒体搜索的能力也在不断加强。它们或在一个统一的用户界面上提供资料类型选择,或直接提供独立的多媒体搜索引擎。另外,各种图像搜索引擎和各种娱乐搜索引擎也不断涌现。这些系统可以说在很大程度上满足了用户的需要,然而它们对多媒体搜索的支持都还在初级阶段,基本上是基于文本关键词和自动标注进行多媒体信息检索,缺乏基于图像和音视频内容进行比对检索的功能。

一般的说,多媒体信息的内容表示可分为物理层(如信号样本、像素等)、特征层(如图像的颜色和纹理、语音频谱)、语义层内容(如语音的脚本、音乐的音符、图像中的物体形状和人脸)等三个层次。基于内容的检索一般针对后两个层次。基于特征层次的内容检索主要应用于以媒体实例为输入的查询方式。检索时,首先对输入的实例提取特征模板,再与检索源中的数据相匹配。相关研究主要围绕着检索的快速性和准确性问题展开,具体涉及特征选取、匹配策略、算法优化等。

关于图像处理和检索的专利较多,根据美国专利网的检索结果,与图像检索相关的专利达186项,但是很少见它们应用于实际系统,而用于网络多媒体搜索引擎的专利,则更是罕有。2004年Lowe提出了SIFT(Scale-InvariantFeatureTransform)[15]特征,该特征具有旋转、缩放不变性,并且对光照、仿射变换以及视角变化等都具有相当程度的鲁棒性。除此之外,每一个SIFT特征都具有很强的描述和区分能力,因此非常适用于图像实例检索。但在对海量数据的检索中,如何降低其复杂度需要进一步的深入研究。

在音频检索方面,常用的特征包括:短时能量、频谱、过零率、美标度倒谱等。针对大数据量检索问题,很多工作集中在特征匹配的策略优化上。基于内容的视频检索可以看做图像和音频检索的扩展,所用特征除图像和音频中的常用特征以外,还包括一些专有特征:如物体运动、镜头切换等。关于音视频检索的专利也不少,根据美国专利网的检索结果,与音频和视频检索相关的分别为28项和80项,但是应用于网络多媒体搜索引擎的专利却很少。

语义层次上的内容检索研究相对更为困难一些,下面几个方面是最近几年进展较快的:场景分类技术、语音数据识别、语音说话人分割、视频数据中精彩片段提取等。然而这些技术距离大规模检索应用还有相当的距离。

在这里值得一提的是,面对咄咄逼人的Google和Yahoo,法国总统雅克·希拉克在2006年新年讲话时宣布,法国决定联手德国,抓住多媒体搜索这个机会,开发“真正的多媒体搜索引擎Quaero,以应对Google和Yahoo带来的全球挑战”。

Quaero的拉丁语意是“我搜”,该项目的目标是,搜索时无须借助文字描述就能“读懂”音频、图像和视频的内容。目前,这样的图片识别程序已经存在。法国中型软件公司、Quaero项目成员LTUTechnologies向美国联邦调查局(FBI)提供电脑取证分析工具,用于分析被扣押的硬盘中的图片,并将其与已知的恋童癖罪犯的照片相比对。另外他们还有一些可将语音转化为文字的音频解析程序。Quaero项目组面临的挑战是,如何改进这些工具以提高搜索准确度,同时提高速度,适应大数据量的检索。

目前参与Quaero研发的主要公司和机构包括法国电信、汤姆逊公司、法国视听研究所、德国电信、贝塔斯曼集团和西门子公司等。Quaero项目预计在未来5年内需要投入10亿~20亿欧元,所需资金将由法、德两国政府以及两国企业共同承担,其中法国政府已计划5年内投资2。5亿欧元。这个项目究竟走势如何,我们将拭目以待。

2。对DeepWeb的搜索

DeepWeb已经拥有不少研究者,如Stanford和UIUC的学者们,他们分别搭建了HiWE[16]和MetaQuerier[17]两个很好的原型系统。也有一些搜索引擎能够搜索DeepWeb信息,如www.xiexiebang.com、www.xiexiebang.com。com、www.xiexiebang.com等。然而它们或者太小,或者搜索Invisible信息的能力太弱,所以使用起来很多时候不能得心应手。

几大主流搜索引擎尚未提供DeepWeb搜索功能,主要原因是技术上还不够成熟。然而“需求是创新之母”,我们期待在不久的将来能使用Google、Yahoo等查询DeepWeb信息,或者是基于DeepWeb查询的搜索引擎迅速发展起来,为我们提供更好的服务。

3。ArchiveSearch

搜索引擎通常能够提供的信息通常只是最近在网上有的信息,而很多情况下我们需要了解网上曾有的历史信息,甚至需要将不同时间的信息进行归纳、比较和综合。另外,对于搜索引擎来说,把自己辛辛苦苦搜集来的信息轻易抛弃也是很可惜的事。

这方面的研究国内国外都曾开展过,如InternetArchive、UCLA的WebArchive[18]和北京大学的WebInfoMall(http://www.xiexiebang.com/)作为搜索引擎的领袖公司,一直在进行着前沿研究,并不断推出新的产品。就在不久前,Google专门为中小企业推出了集成了Gmail、Gtalk、GoogleCalendar和GooglePageCreator等免费服务的GoogleAppsforYourDomain项目。接着Google又跟LitCam和UNESCO(教科文组织)合作,推出了一个专为教育和文化事业而设置的集成服务——Google知识工程。Google还推出了新搜索服务——SearchMash。com作为Google的子搜索网站,SearchMash采用了图文结合的方式显示搜索结果,左边为文字搜索结果,右边为符合度最高的图像搜索结果。另外,Google正在研究“多倍索引信息获取系统(MIBIRS)”,据说通过该项技术,可以使Google搜索引擎的网页索引数量达到惊人的1000亿幅或更多。Google对于语义搜索的研究也在进行中。

(2)Microsoft(http://research。microsoft。com/)对于搜索引擎这个庞大的市场当然不肯放过。微软亚洲研究院(http://research。microsoft。com/asia/)早在2001年底,便开始了有关互联网信息检索技术的研究,几年来发表了很多高水平的论文,并不断把这些研究成果转化为技术。他们的代表性成果包括对网页细分的“数据模块化的Web检索方法”、搜索动态网页数据的“深层网络数据发掘技术”,等等。对于分散于互联网上的图像资源,他们开发出的智能化图片搜索技术,已可自动识别与分类搜索结果。在2006年微软创新日上,微软亚洲研究院集中展示的38项技术中,搜索类技术就多达11种,包括对文字、图像、新闻事件等进行搜索,应用涵盖了手机移动、IPTV等多个方面。微软亚洲研究院院长沈向洋博士于2006年9月在北京宣布,微软亚洲研究院将在原有四大研究方向:新一代多媒体、新一代用户界面、无线及网络技术和数字娱乐的基础上,增加互联网搜索和挖掘为该机构的第五大研究方向。

(3)Yahoo!(http://www.xiexiebang.com)……就是例子。前面提到的法国和德国联手开发Quaero搜索引擎的计划也能给我们启示。在上述包罗万象数据(信息)的大搜索的概念下,本土努力将更有天然的优势,而一定的国家行为可以使这种优势发挥出最好的效益来。

本文www.xiexiebang.com www.xiexiebang.com A5首发,转载请保留。

下载搜索引擎优化方法总结(最终定稿)word格式文档
下载搜索引擎优化方法总结(最终定稿).doc
将本文档下载到自己电脑,方便修改和收藏,请勿使用迅雷等下载。
点此处下载文档

文档为doc格式


声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。

相关范文推荐

    Google+1的搜索引擎优化分析

    Google+1的搜索引擎优化分析自从GOOGLE新CEO上任之后,推出了很多的关于社交领域的产品,例如Google+,也有关于运用社交领域评价网页的Google+1。Google+1按钮实际上是给用户对网......

    国内搜索引擎优化的发展趋势

    国内搜索引擎优化的发展趋势 一、搜索引擎优化的行业发展趋势 1、单纯的seo技巧、跟踪搜索引擎算法变化的意义越来越小。 seo本身的技术性越来越低,但它对相关从业人员的综合......

    搜索引擎优化seo与信息流动

    搜索引擎优化seo与信息流动 不可否认,搜索引擎优化的出现是互联网的一种进步。 据文军信息的技术人员说,搜索引擎毕竟是一套程序,只能根据预先的设定工作。由于互联网上的信息......

    网站搜索引擎优化(SEO)服务合同书

    网站搜索引擎优化(SEO)服务合同书 甲方: 乙方:常州市姚沅网络科技有限公司 经甲、乙双方友好协商达成以下共识。 第一条:网站搜索引擎优化服务是指乙方通过针对甲方网站的网页内......

    把微信当搜索引擎来优化

    把微信当搜索引擎来优化 微信营销时代的到来,不少企业争先恐后的进入微信公众账号平台,打造自身企业的微信营销平台,可企业微信应该如何去运营呢?应该注重哪些事情、避免哪些误......

    E团购网搜索引擎优化(评估、分析)报告

    E团购网搜索引擎优化(评估、分析)报告 一、关于SEO SEO 是英文 Search Engine Optimization 的缩写,中文的意思就是搜索引擎优化。在网络营销中,搜索引擎优化对于网站排名是一种......

    网站进行SEO搜索引擎优化的规则

    网站进行SEO搜索引擎优化的规则 中国纺织品网门户发布时间:2012年04月08日 再根据本人这些年在网络推广公司查看过很多网站的资讯和网站搜索引擎优化方法, 混过的经验总结出网......

    晒晒我总结的有利于搜索引擎收录的十个方法

    晒晒我总结的有利于搜索引擎收录的十个方法 每天更新你的网站页面,尽量原创,如:每天发布一些商品信息。在产品知识或者热点新闻里放一些文章,当然涉及到自己想优化的关键词或......