第一篇:Unity3D技术之角色的创建及优化
Unity3D技术之角色建模优化
1、模型
(1)合并模型,渲染静态窗口比较有用。
(2)100个三角形的MESH,在渲染时与1500个面数的物体是没太大差别的,所以最佳的渲染设置应该在每个模型大约1500-4000个三角面。
(3)一个Mesh 一个材质(按材质合并)。
(4)合并时可以将灯光附近的物体合并,加快渲染。
(5)实时灯光数量限制。
2、实时灯光
(1)每个被灯光照射到的GameObject都会在每一帧被渲染一次。经常被灯光照射的物体最好合并他。以免多次渲染,文章出处【狗刨学习网】。
(2)每一个灯光都会有一个Render Mode设置,Force Pixel 或者 Force Vertex。
夜晚打开车灯,前面的车灯就是游戏中最重要的灯光。因此,前大灯的渲染模式将会被设置为Force Pixel比较好。
如果灯光不是很重要,就可以选用“Force Vertex”的渲染模式。
3、阴影
阴影运算量比较大。如果不是做光照分析建议使用 Lighting Map。
4、角色建模优化
(1)角色应该只被用于一个蒙皮模型渲染器。当然有时候可能需要多个蒙皮的模型,但是如果你同时用两个蒙皮来作为一个角色,它就相当于你进行了两个角色的运算量。
(2)要保持MESH的材质数量尽可能低。一般建议身体的材质数量为2-3个,当然如果你有武器的材质,也是需要单独一个的,因为你需要换武器。
(3)一般来说游戏中的骨骼数量为15-60个。骨骼越少运行速度越快,一般来说30块骨骼就可以让角色动的很舒服了。如果你不是有特殊的设置,强烈建议每个角色30个骨骼。
(4)面数主要是看游戏的质量要求,500-6000个三角面是比较推荐的。如果你的游戏场景中将会出现多个角色,那么就要适当的减面。如果你想要在比较老的 机器上运行,需要更少的面。比如,半条命2游戏的角色通常是2500-5000个三角面。达到AAA标准的次时代游戏比如像是ps3或者XBOX360上 的游戏角色通常有5000-7000个三角面。(5)把IK控制器和FK控制器分离,当动画导入以后,IK的节点将会烘焙到FK上,其实unity并不需要IK节点,你可以删除它们。
(6)创建一个公共的骨架,这样就可以让你让不同的角色之间共享动作了。
(7)给每一个骨骼正确的命名,方便团队工作,也方便类似于Motionbuilder的动作软件,不然你得每次指定骨骼。
(8)UV接缝的数量尽可能少
第二篇:多媒体技术下的课堂教学之优化
多媒体技术下的课堂教学之优化
韩伟 赵建国
中国石油管道学院 河北 廊坊 065000
摘 要:多媒体技术为现代课堂教学改革和创新提供了重要的技术支持。要用好多媒体技术,就必须提高对现代教学理论的认识,更新教学观念,优化课堂教学设计和教学过程,将教师、学生、教学内容和多媒体等教学因素进行有效融合、和谐统一,努力实现教学效果优化。
关键词:多媒体;课堂教学;优化
现代教育教学技术的应用使课堂教学发生了重大变革,它对转变教学方式、优化课堂教学、提高教学质量产生了巨大影响。同时,也对课堂教学提出了更高的要求。它要求教育者必须熟悉现代教学理论,掌握现代教育技术,通过现代教学媒体与技术对教学过程和教学资源进行研究、设计、开发和利用,在理论和实践两方面均实现课堂教学的优化。
一、优化理论认识 重视媒体作用
何为课堂教学优化?一种认识是把优化视为一种活动,一个过程,对教学进行优化,使教学变得更完美;另一种认识则把优化视为教学的一种状态,一种境界,即优良的教学、成功的教学。如
【】果把这两方面结合起来,则更能全面把握现代优化教学的含义1:在充分利用现代多媒体技术的条件下,通过不断改革创新,寻求合理的教学结构,达到最佳的教学状态,争取最好的教学效果的过程。
按照原苏联教育家巴班斯基的最优化教学理论。优化教学就是在一定的条件下,使当前教学任务的解决花费最少的时间,达到最佳的效果。这一理论,要求从整体上探讨教学过程的最优化模式,从而推动教学现代化的进程。现代多媒体技术在课堂教学中具有开放性、交互性、共享性和协作性等优势,合理使用多媒体技术不仅能够收到优良的课堂效果,而且还会提高课堂教学的效率,促使课堂教学的行为和结果达到最优,显示出多媒体技术在教学最优化中有着重要的地位和作用。因此,优化教学理论为多媒体技术深入课堂教学提供了理论基础。
建构主义学习理论强调以学生为中心,不仅要求学生由外部刺激的被动接受者和知识的灌输对象转变为信息加工的主体、知识意义的主动建构者,而且要求教师要由知识的传授者、灌输者转变为学生主动建构意义的指导者、帮助者和促进者。因此,在教学过程中应关注动机的激发与维持以及提供学生自主学习的工具性支持。多媒体技术为这种主动的构建创造了环境,它可以激发学生的学习兴趣,调动其学习的主动性、积极性;它不是帮助教师传授知识的手段、方法,而是用来创设情境、进行协作学习和交流,即把多媒体作为学生主动学习、协作式探索的认知工具,使自身认知结构得到发展,以此达到优化教学的目的。
从系统科学理论的角度出发,课堂教学作为一个系统,现代多媒体教学手段是教学系统中的重要要素之一。系统中各要素不可分割、相互协调、平衡、互为作用。利用现代教学媒体,激发和强化这个系统的构成要素,实现各要素的优化组合,使教学系统的整体功能得以加强。从信息论的角度看,现代教育媒体有丰富的表现力,在规定时间内可以比传统媒体承载更多的信息,可以将传统媒体不易表述清楚的信息表述得清晰、明确,可以优化信息储存形态,使某些教学难点迎刃而解,可以拓宽信息传输通道、调动学生的多种感官接受信息。
教育传播理论已成为现代教育技术重要的理论基础。教育作为一种信息传播活动,它是按照确定的教学目标,选择合适的信息内容,通过教学媒体把知识、技能、思想、观念等传送给特定对象的一种活动。在课堂教学这个信息传递与反馈、双向或多向的动态过程中,教师与学生是传播主体;媒体是教学信息的载体,又是教学的信息来源渠道。现代多媒体教育技术不仅为我们提供了优化传输的先进技术,同时也为我们提供了反馈的媒体技术和教学反馈测评系统。多媒体的介入,会营造一个学生得以参与教学过程的具体环境,沟通了师生之间的信息通道,使以学生为主体和面向全体形式的要求得以落到实处。
现代教学理论为课堂教学多媒体技术应用提供了可靠的理论依据。所以,要十分重视现代多媒体技术的作用,充分发挥多媒体的功能。首先,对多媒体的作用要有正确的认识:多媒体教学技术是一种先进的教学手段,是传统教学手段无法比拟的;第二,课堂教学中要把多媒体技术的先进性发挥出来,但如果利用不好,则适得其反;第三,优化教学设计:运用教育技术去分析、研究教学问题和需求,确定解决它们的方法和途径;第四,加强课堂教学过程的组织,把握好学生、教师、多媒体三者之间的关系,达到三方面的和谐,实现课堂教学的最优化。
二、优化教学设计 科学利用媒体
多媒体课堂教学设计是以传播理论和学习理论为基础,应用系统理论和现代教育技术理论的观点和方法,分析研究教学中的问题和需求, 从而确定教学目标、制定教学策略,进行合理的教学结构和教学评价的设计过程[2]。教学设计的目的就是为了优化课堂教学,提高课堂教学效率和质量。有专家称“没有优化的教学设计就没有优化的教学过程,没有优化的教学过程也就没有优良的教学效果”。要优化教学设计,必须改变教学设计的观念,以现代教育技术下的教学观念进行教学设计[3]。
1、教学设计要以学生为中心
现代多媒体教育技术不仅仅是一先进的教学技术,同时也体现了现代教育的观念,是现代教育思想在教育技术上的直接体现。按照现代教育思想和观念,教育教学的核心是促进学生素质全面发展,要以学生为中心,也就是说我们的一切教育教学活动都必须服务于学生的学习,有利于教师的教学。在教学设计中,对教学内容的分析,对教学目标的确定,对教学媒体的选择和组合运用,对教学方法的使用等,都必须考虑学生的接受心理和接受能力,而不能脱离学生实际。我们在设计教学中必须深刻思考:一是教师是为谁服务的,搞教学设计的最终目的是什么,搞教学设计是写教师怎么教,还是写学生怎么学;二是应用哪些现代教学媒体来促进师生合作,达到教学过程的和谐;三是师生运用媒体的共同指向是什么,应该达到何种目的等。所以,教学设计绝非教师与教学内容的简单结合,也不是教师与媒体技术的简单组合,而是以学生为中心的教师、教学内容、教学媒体技术,在一定时空中的最优整合。
2、教学设计要包含多媒体组合
课堂教学作为一个系统,多媒体技术手段是这个系统重要组成部分。因此,进行教学设计时,必须考虑多媒体的教学特征和功能,处理知识信息时必须从整体出发,合理选择,并优化组合,从而增加教学的信度和效度。传统的教学设计中往往侧重对单个知识点和对教学层次划分,并在此基础上确立教学重难点,没有把对教学媒体的选择和组合运用纳入教学设计的范围,无法形成完整的教学设计系统。现代教育技术融入教学设计后,教师能够从更高层次对教学内容进行全面分析,并结合教学对象和教学媒体的实际情况,确定教学目标和重难点,选择系统的教学策略。例如,过去用传统手段难以讲清的抽象内容,是教学难点,现在通过多媒体手段,可使之具体、生动、形象,那它就不是难点了。就单个知识看是重点,但多媒体纳入之后,或许是非重点。
3、教学设计要体现人机和谐
教学设计除确立恰当的教学目标、教学重难点之外,必须考虑教学活动中师生之间、师生与媒体之间的和谐。现代多媒体教育技术介入课堂教学,教师首先必须思考如何通过现代教学媒体的利用,去点拨、启发、指导学生积极主动地学习;必须思考怎样才能让学生主动掌握和运用教学媒体开展人机对话,生动活泼地获取知识等。这里当然还包括如何创设教学情境,如何激发学习兴趣,如何强化学生注意,如何启发学生质疑思考,如何组织学生讨论等,这一系列活动都必须让现代教学媒体有所作为,一定到达人机合作,人机互动。
教学设计中的另一重要问题是如何运用现代媒体来建立一个良好的导学机制。如媒体运用的可行性问题,媒体介入的适宜性问题和师生与媒体的整合性问题。教师设计教学时必须了解各类媒体的优势,尤其是组合优势,还要联系所教学科的特点,使多媒体能发挥其优化作用。其次要考虑在教学过程中媒体的介入契机,即在什么时空、情境和知识出现程序中介入哪种媒体更利于教师指导学生学习。另外要知道教学媒体是教育技术的硬件,不能自发地发挥作用,它必须和人的主观能力相结合才能真正发挥现代教育技术的优势。因此,我们必须考虑“机与人”的智能整合,架起师与
生、导与学的信息桥梁,让师生双方在教学过程中达到交互共鸣、互相升华的境界。这就是现代课堂教学设计所追求的目标。
4、课件设计要科学合理
课堂教学设计为课堂教学提供了精细的教学方案,为多媒体课件的设计和制作奠定了基础。在多媒体课件教学的过程中,教师主要是通过多媒体课件和学生发生关系,故课件的优劣将直接影响教学的效果和质量。课件设计和制作要坚持教育性和科学性原则,要目标明确,结构合理,突出重点和难点,同时要注意以启发式的教学原则为指导,提高课件的应用价值,使其能从各个方面、各个角度启发学生的智慧和想象力,打开思维空间。多媒体课件还要具备技术性和艺术性,使得课件既操作方便,使用安全、可靠,又激发学习兴趣、吸引力强。具体在课件设计和制作中,课件结构上应采用超媒体结构;文字内容要简明扼要、以提纲式为主;在课件中,声音、图形、图像、动画、视频等要恰到好处,合理运用,设计和运用得好,可以起到事半功倍的效果。
三、优化教学过程 注重课堂效果
课堂教学是教学工作的主要形式,课堂教学过程是学生在教师指导下,有目的、有组织、有计划地进行“教”和“学”的过程。多媒体课堂教学过程的实施,就是教师、学生、多媒体课件三者在课堂上如何进行活动,怎样调节关系,优化教学过程,从而达到最佳的教学效果。
1、教师态度端正 呈现教学艺术
课堂教学是一门艺术性工作,教师要有亲和力。教师要站姿端正,亲切自然,仪表大方,精神饱满,要激发兴趣和美感,引发学习激情。教师要做课堂上的“主持人”,不要做多媒体的“播音员”。
教师在课堂上的语言要精练、生动形象、通俗易懂、规范准确、清晰流畅。教师应精心锤炼自己的教学语言,在备课上,反复斟酌,精心打磨,不能出现语病。课堂上,教师还应该还要注意语音、语调、语速、节奏的把握,通过表情、手势等身态语来传情达意。
2、师生互动交流 课堂气氛活跃
课堂教学中要加强课堂上师生的交互作用。教学过程是教师与学生之间、学生与学生间的交流互动与传递信息的学习过程。教学互动是一种知识的传递、更是一种情感的交流。教师要恰当把握师生互动时机和学生的情感需要,鼓励学生质疑、自主探究,激发兴趣,调动学生的积极性和学习兴趣,切忌教师一言堂。要增强学生的活动性与参与性,构建相互信任,相互尊重、和谐民主的教学环境。
3、强化重点难点 结合传统手段
对于教学中的重点或难点内容,要进行强化,注意学生的反应,要激发出学生的情绪和兴趣,引发学生高度关注,有时还要进行重复,穿插提问、评价等方式,注意结合使用语言、表情或体态语进行强调,方式方法可以多样。
在多媒体体教学技术使用当中,要适当使用传统手段,如黑板、实物或模型等。要善于发挥黑板板书具有灵活、方便的特点,对一些重点或难点内容,可以通过一定的黑板板书进行再强调、再说明,对一些课堂上的突发问题,更能够通过板书进行评说、学习。
4、教学组织得当 把握环节到位
课堂上往往有些不可预知的学情,要灵活调整教学设计时各环节的时间分配,或做出取舍。大体按照教学设计的思路,控制课堂内容的走向,不因偶发事件或枝蔓错误地偏离主航道。还要注意控制信息量达到合适,不应太多或太少,信息量太多是多媒体教学一个常犯的错误,教学进度要和学生的接受能力一致,不能只按照预先设置好的进度按部就班,不考虑具体实际。
在班级授课制条件下,教师是面向全体学生的。但是,要尽量关注每一个学生,对于优秀、一般、较差的学生都要照顾到,不能满足于少数积极学生烘托的课堂气氛,对沉默和边缘的学生予以特别关注。学习较好的学生,适当增加任务,让他们吃得饱;学习较差的,经常给予鼓励,利用提问、交流、个别指点,进行感情和智力的支持,以提高班级的整体水平。
课件放映时间、速度、方式,教师的讲解、板书要与学生视觉、听觉、思考进行恰到好处的衔接,不能违背学生的生理、认知规律。多媒体课切不可“以读代讲”,不能“满堂看”,也不宜“满
堂讲”。对于字数或图表信息量较大的页面,要注意给学生留有辨认、记录和思考的时间,让学生在教学过程中能够将自主学习理念真正体现出来。
教师备课阶段就要熟悉上课思路,课件的放映顺序与细节需默记于心。将使用多媒体的时间进行有效控制,精心地准备在一节课中必须通过多媒体展现的部分,如:导课环节、帮助渲染的重点环节、帮助突破难于理解的难点环节、知识拓展环节等。
5、熟练技术操作 应对突发故障
教师要熟练现代教学媒体操作,并掌握一定的维修和管理技术。如电脑的使用与操作,课件的使用,投影机使用和功放机、录像机等设备的操作以及简单维护与维修。一方面可以使我们在利用多媒体时得心应手,另一方面可以应对一些突发的机械故障,保证课堂教学的正常进行。
参考文献
[1]王本陆.优化教学:概念·标准·策略[J].课程·教材·教法,2004.(1)[2]李克东,谢幼如.多媒体组合教学设计[M].北京:科学出版社,2000,第二版
[3]陈龙泉,张长辉.应用现代教育技术 改变教学设计观念[J].成都教育学院学报, 2001(3)
作者简介:韩伟(1980~),男,中国石油管道学院管道运输系讲师
通讯地址:河北省廊坊市爱民西道90号;单位:中国石油管道学院管道运输系;邮编:065000;联系电话:***;E-mail: hblfzhaojg@163.com
第三篇:浅谈教师角色之“引导者”
浅谈教师角色之“引导者”
【摘要】要使课堂教学适应素质教育的要求,充分发挥教师的主导作用,是促进学生学习的关键。为此,教注重于引导,致力于指导;导着眼于学,服务于提高,真正使学生在学习活动中掌握学习的方法,把“学会”转化为“会学”。
【关键词】引导者;发现;探索
实施素质教育,课堂教学是主要阵地。联合国教科文组织在《学会生存——教育世界的今天和明天》中指出:“教师要成为一个顾问,一位交换意见的参加者,一位帮助发现矛盾论点而不是拿出现成真理的人。”也就是新《数学课程标准》中所说的:“学生是数学学习的主人,教师是数学学习的组织者、引导者与合作者。”在这里我想针对目前以素质教育为核心的课堂教学改革中关于教师在课堂教学中的主导性,提出一点自己肤浅的看法。
要使课堂教学适应素质教育的要求,我认为:课堂教学是教师的教与学生的学的一种双边活动,教师是这一活动的设计者与组织者,主导着这一活动的全过程,担负着带领全班学生去达成教学目标的任务,充分发挥教师的主导作用,是促进学生学习的关键。为此,教注重于引导,致力于指导;导着眼于学,服务于提高,真正使学生在学习活动中掌握学习的方法,把“学会”转化为“会学”,素质教育才能落到实处。
一、注重引导
引导不仅是老师在教学过程中的简单提问,更重要的是要引而得法。
(一)诱发兴趣
“良好的开端,是成功的一半”。如何诱发学生产生与学习内容、学习活动本身相联系的直接学习兴趣,使学生从新课伊始就产生强烈的求知欲望是至关重要的。尤其是一年级的小学生,激发学习兴趣更加显得尤为重要。例如:在上人教版实验教材一年级上册“连加、连减”这一内容时,我用动画片《西游记》来导入新课,学生的注意力一下子就被吸引过来,从而产生了浓厚的学习兴趣。
(二)引导学生注意力的方向
用动画片引起学生的兴趣并非图一时之乐,更主要的是为本节课将要学习的内容服务,因此,教师要引导学生注意力的方向,使学生明确自己的任务。例如:在教学“连加、连减”时,教师在播放动画片前先提出要求:“观察动画片中人物的变化。”在教师的引导下,学生会有目标的去观察,搜集信息,为解决后面的学习目标奠定基础。
(三)引导学生学会思考
由于是一年级的小学生,还没有养成良好的学习习惯,因此在课堂教学中教师不仅要引导学生掌握知识内容,更重要的是引导学生养成良好学习习惯,而学会思考是完成学习目标的重要保证。例如:在上人教版实验教材一年级下册《摆一摆,想一想》时,教师首先组织学生用1、2、3、4、5、6个圆片分别摆出了2、3、4、5、6、7个100以内不同的数,学生已经初步获得这些数的排列规律,接着教师引导学生探究用圆片摆数的规律:“同学们,用
7个圆片能摆出的数是哪几个呢?为什么?你来验证一下,可以摆圆片,也可以不摆,把数写出来。”也许是出于对摆圆片的好玩,也许是受到定势的影响,同学们纷纷拿出圆片摆了起来,课堂纪律也乱了起来,如果任其发展,教学目标就无法达成,学生的问题意识也得不到培养,课堂效率就更无从谈起,于是我赶紧引导:“我看到郑文韬同学没有摆圆片,而是在安静的思考,老师支持你!”在我的引导下,许多同学放下手中的圆片,向郑文韬同学一样,开始思考规律性的问题,我的课堂教学得以有效的继续,同时也培养了学生思考的习惯。
(四)引导学生自主探索
在探究性学习中,教师引导什么呢?归结起来为:探究思路的指导、探究方法的指导和信息资料来源的指导。教师在课堂上巡视,当学生研究“碰壁”之后,困惑之时需要教师“指点迷津”,但只能“点到为止”“拨正思路”,不能扶着走路,需要充分发挥学生的主观能动性。
教师要在学生已有的信息基础上,引导其整理信息,提炼信息,并根据关键信息提出数学问题,最后引导学生探索解决问题的方法,从而培养学生自主学习的能力。例如:在上人教版实验教材一年级上册“连加、连减”时,引导学生从找到的众多信息中提炼出和人物数量相关的三个信息:“先来了唐僧师徒四人”,“又遇到了两个小朋友”,“最后小朋友的爸爸妈妈回来了”。学生根据这三个关键信息自主提出数学问题:“一共有多少人?”再进一步引导学生运用已有的加法知识解决提出的问题。在这时教师已不再是传统的讲授者,而变成一位引导者,学生也不再是被动的接受者,而是主动的求学者。
(五)引导学生评价与交流
在课堂上引导学生参与评价,可以激发学生自主学习的兴趣,启发学生主动探索,尝试学习,培养学生的创新能力,从而优化课堂教学。因此要让学生参与评价,教师就必须发挥“引导”作用,帮助学生掌握评价的方向,点拨他们评价的方法和要领,重点不在于发表“个人意见”,而在于引导学生交流,促进有效沟通,帮助学生学会倾听,学会宽容,学会尊重。例如:班上有一个说话很慢而且发音不准的孩子,他很少发言。在教学“11~20各数的认识”时,教师提出“用你自己喜欢的方法记住它们”,他小心翼翼的举了手,我立刻想到该给他这次锻炼的机会,可他刚一开口说话就有学生发出嘲笑的声音,为了不打击这位学生的信心和积极性我立即引导:“老师从他的眼神里看出他有一个奇妙的想法,你们想知道吗?”所有学生立刻安静下来,当他说完“16的邻居是15和17”时,教师再次引导:“谁来说一说他今天值得大家学习的地方在哪里?”其他学生争先恐后的举手评价“他能勇敢的说出自己的想法”“他给数也找到邻居了,数就不孤单了”“他的方法很好懂,我们容易记住”„„渐渐的,这个学生自信心增强了,学习兴趣也提高了,其他学生也愿意和他交往了。
(六)引导学生发现身边的数学
荷兰著名学者弗赖登塔尔明确指出:“学习数学的唯一正确方法是由学生本人把要学的东西自己去发现或创造出来,教师的任务是引导和帮助学生去进行这种再创造的工作。”小学数学知识,在生活中都能找到其原型,教师只有把数学的符号、概念还原到学生的生活实际中去,变成学生看得见的“数学事实”,让学生去探索,去“再创造”。要完成这种再创
造的工作关键就要求教师做好引导者。
例如:在上人教版实验教材一年级下册“位置”时,教师引导学生观察教室并说说各种事物的位置关系,学生很快说出灯在我们的上面,椅子在桌子的下面,××在××的前面,××在××的后面,在生活中找到原型后,再来学习书上的内容就容易多了。通过找生活中的事实,学生深切感受到我们的身边处处有数学,数学知识就在我们的生活中,从而明白学习数学的意义及重要性。
二、致力于指导
指导与引导是相辅相成的。所谓致力于指导,是说指导要得力,要从学生的认识能力出发,尽可能运用直观的教具学具,让学生在课堂上动起来,摆一摆,挪一挪,首先建立感性认识,再逐渐向理性认识过渡升华。例如:在教学连加、连减的算法时,先引导学生用小棒摆一摆,首先建立感性认识,初步理解连加连减的算理,继而抽象出连加连减的算法。同时教师运用多媒体课件展示事物的合与分,学生直观的感受到数量的变化、整体与部分的关系,从而突破本节课的难点。
课堂教学的过程不仅是学生认识新知识的过程,也是学生的感性认识向理性认识的升华过程,更是教师教学艺术不断更新的过程,在这个过程中不论学生的素质还是教师的素质都得到完善和提高,这正是素质教育的落脚点。
“振兴民族的希望在教育,振兴教育的希望在教师。”在课堂教学中离不开教师这一主导者,在教师的引导下,学生才能更快更准的达成学习目标,更重要的是学生逐步从“学会”实现了“会学”。
参考文献:
1.埃德加·富尔 1996年6月 《学会生存——教育世界的今天和明天》 教育科学出版社
2.袁振国 2002年3月 《教育新理念》 教育科学出版社
3.常汝吉 2001年7月 《数学课程标准》 北京师范大学出版社
第四篇:SEO网站优化之链接分析技术
http:// 速贷114贷款导航网
SEO网站优化之链接分析技术
对SEO稍有了解的人都知道链接是网站排名的重要因素,但不一定完整理解链接链接分析的内容。下面就简单总结链接以哪些方式影响排名。
链接分析技术的含义比Google PR要广泛得多。因为google的光环和对PR的宣传,很多人把PR看的异常重,其实搜索引擎对链接的分析要广泛得多。链接分析包括所有反向链接,不仅限于外部链接。
除了大家耳熟能详的权重传递、锚文字作用,搜索引擎还会分析链接的以下特征。 反向链接数目。显然,数目越大,投票越多,对排名越有利。
反向链接页面本身的重要性。并不是所有链接都有相同的投票能力,高权重网页的链接对排名影响更大。质量比数量更重要。 反向链接增加的速度。增加速度过快,可能引起作弊嫌疑,或进入沙盒。反向链接所在网站的内容主题。来自相关内容网站的链接对排名帮助更大。来自SEO博客的链接对美食网站排名不会有什么影响。 反向链接所在页的内容是否相关。也属于内容的相关性。SEO博客里也可能有专门谈美食的一篇帖子,从这篇帖子来的链接对美食网站排名帮助就打一些。 反向链接的链接文字,也就是锚文字,是影响网页排名的重要因素之一。反向链接锚文字前后临近的文字。有时候链接文字没有什么意义,比如常见的“点击这里”,链接文字前后的文字可以帮助判断链接目标页的内容。这里所说的“前后”,指的是HTML代码中的距离,而不一定是页面显示出来的视觉距离。 链接在页面的位置。搜索引擎通过算法可以辨别导航、广告区、页面底部版权声明等区块。链接出现在页面不同位置意味着不同目的。通常出现在正文中的链接才是最有投票意义的链接。
http:// 速贷114贷款导航网
外部链接所在域名年龄。历史越长的域名越被信任,来自老域名的链接也更被信任。
外部链接所在的域名是否曾经转手。域名所有人一直没有变化,说明网站能持续经营。域名转手后,原来积累的信任度可能会受影响,因为无法保证网站转手后还保持高质量,需要重新考验。
反向链接所在页第一次被收录的日期。发出反向链接的页面越老,收录的越早,越被信任。如果这个页面已经存在十几年,比搜索引擎还老,上面的链接显然没有操纵排名的意图,很可能被高度重视。
反向链接所在页页面内容是否曾经变化?有什么样的变化?大部分资料性的网页不会随时间产生明显内容变化,最多是增加更多资料。如果页面内容发生主题方面的重大变化,页面上的链接投票力也会变化,很有可能变得不再内容相关。
反向链接第一次出现在页面上是什么时候。一个很老的页面上很早就出现的链接显然有比较高的可信度。最近才出现的链接则需要过一段时间才能走出试用期。链接越老,作用越大,很多做SEO的人对此都深有体会。
反向链接所在页还链接像那些其他网站?这些其他网站内容是否相关?质量怎么样?页面上所有链接都指向高质量网站,那么每一个链接投票力都相应增强,被链接的网站获益也最大。被链接的网站如果内容不相关,整体质量也很低,从这样的页面得到链接,效用不会高到哪里去。
外部链接是否有垃圾链接嫌疑?查看一些网站的外部链接,经常能发现绝大部分是来自论坛签名、博客评论,缺少页面正文或博客帖子里的有意义的推荐链接,这绝不是一个健康的链接构成。
链接点击率。在搜索引擎能够监测用户行为时,链接的点击率也说明链接的重要
http:// 速贷114贷款导航网
性及投票能力。用户的观感更说明问题,用户点击越多,说明对用户帮助越大。 用户点击链接后在目标网站停留多长时间。同样也是通过用户行为方式判断网站质量,看到底是否对用户有用。
第五篇:搜索引擎优化技术及发展趋势
搜索引擎优化技术及发展趋势
一、引言
“搜索引擎”作为互联网上提供信息服务的一种工具,现在几乎已经是一个妇孺皆知的事物。按照中国互联网络信息中心在2006年7月19日发布的报告[1],中国网民中有66。3%经常使用搜索引擎,比半年前又提高了近1个百分点。
互联网上的第一代搜索引擎出现于1994年前后,以AltaVista、Yahoo和Infoseek为代表,搜索结果的好坏通常用反馈结果的数量来衡量,或者说是“求全”。然而研究表明,当时的搜索引擎性能并没有想象中那么优秀,根据SteveLawrence和C。LeeGiles在1999年2月的实验[2],全球11个主要的搜索引擎中,每个搜索引擎仅能搜索到互联网上全部页面的16%,甚至更低(图1)。造成这种情况的原因,主要是这些搜索引擎的处理能力和网络带宽等方面的限制。
1998年,以Google为代表的第二代搜索引擎出现在互联网上,其主要特点是提高了查准率,或者说“求精”。当时传统的搜索引擎如Lycos等主要使用网页中的关键词进行搜索,而Google则使用了一种综合页面排名算法:它不仅考虑搜索关键词,还考虑页面间的链接关系,然后对整个网络的链接结构进行分析和迭代计算,从而对页面进行区分[3]。
第二代搜索引擎在技术和商业上都获得了巨大成功,然而商业竞争和信息环境的变化仍在推动着它们不断创新和发展。当前所谓的第三代搜索引擎主要增加了互动性和个性化等技术,为用户使用搜索引擎获取信息提供更好的体验。至于互动性的评价标准是什么,以及第三代搜索引擎到底比第二代增加了多少价值,目前并没有非常令人信服的研究结论。在以下的论述中,我们不对产品概念进行太多讨论,而是就搜索引擎目前所面临的挑战,以及它们的应对方略和发展趋势进行梳理和阐述。
二、搜索引擎面临的挑战
面对瞬息万变的环境,搜索引擎如果在技术上不创新进取,从信息服务质量的角度讲,现在看来不错的技术,将来很可能会落伍。不进则退,在搜索引擎领域体现得很明显。关于搜索引擎的基础技术,读者可参见文献[23],那么目前有些什么变化在影响着搜索引擎呢?
(一)Web的发展
1。信息大量增加
Web自产生以来,其信息量一直以几何级数的形式递增,近两年来尤其如此。这主要有两方面原因:首先是Web2。0[16]的用户和以前有所不同,他们正在由单纯的信息消费者向生产者与消费者双重身份转变;其次是DeepWeb[4]的发展。
如果说Web1。0是单纯的网页浏览模式,那么Web2。0则是通过了真正的个性化、去中心化和信息自主权,向着内容更丰富、联系性更强、工具性更强而努力。尽管一切都还在探索中,但毋庸置疑,Web2。0已经成为互联网新的发展趋势。这种转变,从模式上可以概括为是从单纯的“读”向“写”和“共同建设”发展。这也更体现了互联网的第一规则,“用户需要表达”。只要有机会和便利,网民就不会满足于只是被动的信息接受者,他们需要表达,希望驾驭自己的传媒,而不是受其掣肘。在Web2。0实际应用中,除了原先的IM(InstantMessenger,即时通讯)、P2P(PeertoPeer,对等网络)等得到新的发展,更是涌现出了很多社会化的新事物,比如Blog(Weblog,网络日记)、RSS(RDFSiteSummary,站点摘要)、WIKI(网络百科)、WB(WebBookmarks,Web文摘)、SNS(SocialNetworkSoftware,社交网络)等。
这些新事物发展得非常快。以RSS为例,美国提供RSS内容的网站数目从2001年9月的1000余家激增至2004年9月的195000余家,短短的3年中增长了近150倍,市场的飞速发展令人瞩目。而Blog站点的大量涌现,更是为每一位用户都提供了畅所欲言的场所——据计世资讯(CCWResearch)的统计,2006年第二季度,中国注册博客的总数量达到6800万,比第一季度增长51。1%;中国博客用户则达到2100万人,比第一季度增加40。0%。这些无疑都在刺激着Web信息生产和消费的繁荣。
根据AlexandrosNtoulas等人的研究结果[5-6],每星期Web上新产生的页面数大约为8%。而这个数字是非常保守的:他们的实验是针对154个“popular”网站进行的,而实际上,那些大量涌现的新网站,如Blog网站,它们的成长速度远远超过这些所谓的流行网站。
关于DeepWeb的研究最近几年也受到越来越多的关注,DeepWeb又被称为InvisibleWeb或者HiddenWeb。JillEllsworth于1994年首次提出的InvisibleWeb概念,是指那些常规搜索引擎难以发现的内容。美国互联网专家ChrisSherman和GaryPrice在他们著作《TheInvisibleWeb》中将InvisibleWeb定义为:“在互联网上可获得的,但传统的搜索引擎由于技术限制不能或者经过慎重考虑后不愿意作索引的那些文本网页、文件或其他高质量、权威的信息。”InvisibleWeb分为四种类型:不透明网络(theOpaqueWeb)、私人网络(thePrivateWeb)、专有网络(theProprietaryWeb)和真正的隐形网络(theTrulyInvisibleWeb)。我们认为使用“deep”更为合适,因为这些内容不是真的Invisible,只是藏在Web中较深的位置。
根据BrightPlanet公司的调查[4],2001年的DeepWeb大概是SurfaceWeb的500倍左右,而且还在快速发展。ChrisSherman和GaryPrice的估算则保守些,他们认为InvisibleWeb只有SurfaceWeb的2~50倍。但不论如何,DeepWeb在数量上都不容小觑。更为重要的是,DeepWeb通常都组织良好、信息权威、质量很高,而且时新性强。正因为这样,国内外许多研究者都在克服重重困难,探索如何有效地发现这些有价值的信息,提供给更多用户使用。各大搜索引擎要想巩固和强化在搜索市场的地位,就必须重视DeepWeb,发展搜索技术,提高竞争力。对于垂直搜索而言,DeepWeb的作用更为突出。
Web信息的大量增加,使得搜索引擎面临严峻的挑战。任何技术都有它的适用范围,超出这个范围,其性能将严重下滑。以搜索引擎的检索页面集为例,粗略地说,当页面总数没有超过某个阈值时,搜索引擎工作良好,一旦页面总数超过这个阈值,搜索引擎的查询结果质量将急剧下降,用户往往在查询返回结果的前10位、前20位甚至前50位都找不到一个自己想要的结果。这一点在目前的几大搜索引擎上都已经初现端倪,相信他们已经为此绞尽脑汁。
2。信息更新加快
Web上不但新信息涌现速度很快,信息变化速度也非常快。以网页中的链接为例,根据AlexandrosNtoulas等人的研究结果[5],每星期将有25%的新链接产生,1年之后,将只有24%的原有链接仍然存在。Google等搜索引擎的成功在于正确地分析了页面间的链接关系,为了保持这种成功,搜索引擎必须不断地跟踪链接结构的变化,或者说不断地刷新自己所保存的相关信息。就以每周25%的新链接为例,这样的链接更新速度要求搜索引擎至少每周重新计算一次所有页面的Ranking值,否则便不能及时地、恰如其分地反映RealWeb上的当前状况,失去搜索引擎所必需的时效性(timeliness)和时新性(freshness)。
3。信息表现形式多种多样
随着网络速度的提高,Web上的多媒体信息也急剧增加,因此人们对多媒体信息的检索需求也就随之而来。传统的信息检索主要集中于文本的检索,在多媒体方面的研究并不是很多。需求的发展使得目前各大搜索引擎都不断推出自己的多媒体素材搜索产品,让用户可以在庞大的素材库中进行检索,如AltaVista可以让用户在5。5亿个素材(包括5。4亿个图片、1100万个视频/音频文件)中进行检索,Google的素材库也达到了4。4亿的量级。然而,目前对这些多媒体素材库的使用,大多还是标注、分类等方法,缺乏对图像、音视频内容的直接检索。搜索引擎如何自动分析音视频的内容,允许用户按内容进行检索,甚至在抓取音视频素材时就按内容进行,这些问题将在今后较长一段时间内构成挑战,成为搜索引擎所要迫切解决的问题。
4。SEO正在蓬勃发展
自古有矛便有盾,有盾便有矛。SEO目前已经成为一个新兴的互联网行业。SEO是SearchEngineOptimization的缩写,即搜索引擎优化。从事这方面工作的就是SearchEngineOptimizer——搜索引擎优化师。他们利用工具或其他手段使目标网站符合搜索引擎的搜索规则从而获得较好的网站排名。无止境地追求更高排名是搜索引擎优化师们的目标,因为他们知道,如果想让用户在烟波浩渺的Web中发现自己,获得一个很高的排名无疑是非常有效的一种方法。
客观地说,SEO的这种追求是很自然的,因为经济利益的诱惑实在是太大了。根据USCensusBureau的调查,2004年美国的电子商务销售额就达到692亿美元,并以7。8%的年增长率在发展,远远超过美国的GDP增长。而根据ForresterResearch的预测,美国B2C的销售额将于2010年达到3290亿美元,占全部零售额的13%。如果不能让用户认识自己,何谈电子商务呢?“搜索引擎优化”正是让大量用户认识自己的一种有效手段。
搜索引擎优化师们并不等于垃圾页面制造者,但他们中的一部分的确为Web和搜索引擎制造着麻烦,为搜索引擎用户制造着垃圾。虽然有良好素养和道德观念的搜索引擎优化师们仍然通过网站结构的优化、页面质量的提高等方法进行他们的工作,但那些不道德的搜索引擎优化师们发现有一些“捷径”更加有效,如在页面上堆砌大量关键词、使用重定位手段欺骗WebCrawler程序、构造LinkFarm来提高目标页面的排名,等等[7,8]。他们运用这些手段欺骗搜索引擎,浪费了搜索引擎大量带宽和时间,污染了搜索引擎的页面集合,歪曲了排名结果,浪费了用户的时间和精力,最后带给用户的只是大量垃圾。
这些垃圾制造者通常被称为WebSpammer。他们所运用的手段有Boosting技术和Hiding技术两大类:Boosting技术是指使用不道德的页面排名提升技术,而Hiding技术是指对使用的Boosting技术进行隐藏,尽量不让用户和WebCrawler发现。
Boosting技术包括TermSpamming和LinkSpamming。TermSpamming是较早出现的技术,是指Spammer操纵Web页面的正文,使其内容和众多的用户查询尽可能地相关,方法是在Body、Title和AnchorText等处插入大量毫无关联但用户经常使用的关键词。由于技术简单,只需要把别人已有的内容进行重复、编织和黏合,所以至今很多Spammer还在采用这些TermSpamming技术,而且已经发展到自动化和智能化的程度。LinkSpamming则更具隐蔽性,WebSpammer通常使用HoneyPot或构造强有力的LinkFarm来提高目标页面的排名。一个典型的LinkFarm可能包括几千个支持页面,而LinkFarm之间还可以构成威力更大的联盟[7]。由于隐蔽性很强,对于LinkSpamming的探测非常具有挑战性。
Hiding技术主要包括ContentHiding、Cloaking和Redirection。ContentHiding是指正文和页面背景使用相同的颜色,从而掩盖大量的无关正文,使得WebCrawler能够发现而对用户进行屏蔽。Cloaking是指对WebCrawler返回一个不同的页面,从而欺骗搜索引擎。Redirection本质上和Cloaking一样,但它是对浏览器而非Crawler返回不同的页面。Hiding技术也是Spammer所常用的,有时利益如此诱人,以至于一些著名大公司也跃跃欲试,如2006年初的时候,宝马德国公司网站(bmw。com。de)就曾因为使用了该欺骗技术而遭到Google的惩罚。
(二)用户需求的发展
1。更准、更全、更新、更快
经过十几年的技术发展和市场成熟,搜索引擎正日益渗透到人们日常生活的方方面面,人们对信息的获取越来越依赖搜索引擎。在全世界网民中,搜索引擎的使用率仅次于电子邮件而位居第二。随着对搜索引擎的使用不断走向深入,网民的要求也在提高。从产品层面来看,准、全、新、快仍然是用户对搜索引擎最基本的四个要求,而且用户希望搜索引擎在这些方面能做得更好。
目前而言,围绕这几个问题,各大搜索引擎服务商都在做许多细致的工作,以力求趋向完美解决。比如“准”,需要更准确地理解用户需求,不断更新Ranking算法,同时又要严格控制垃圾网页的干扰;“全”指的是全面,尽可能地把互联网中“有价值”的网页都索引下来,满足最大用户群的需要;“新”要求搜索引擎的抓取非常高效,能够把最新的东西及时提取出来,同时还要不断更新已抓取信息;第四点是“快”,不仅要让用户感觉速度很快,还要保持最大的系统稳定性。“搜得准、搜得全、搜得新、搜得快”,这是一个综合的服务过程,任何一个环节出了问题,都有可能导致用户满意度的下降。
2。使用更加方便和容易
随着技术的发展,人们希望搜索引擎无处不在,在任何时间任何地点,要寻找信息时都可以使用搜索引擎。而随着搜索引擎的逐步普及,越来越多的使用者(他们中很大一部分对计算机和网络了解不多)希望搜索引擎的工具性进一步加强,最好在不觉察的情况下使用搜索引擎服务。人们甚至期望搜索引擎的使用如微波炉和洗衣机一样方便和容易。
3。搜索个性化
搜索引擎的一个经验就是,用户很多时候并不确切地知道自己想要什么样的结果,除非你把结果放在他的面前。所以用户在使用搜索引擎时,很多时候相同表象的内容却意味着不同的需要。比如对于同一个查询词,不同的用户所需要的查询结果可能是不同的。即使是同一个用户输入同一个查询词,他在不同的时间、不同的地点和不同的查询背景下,希望得到的查询结果也可能是不一样的。
搜索引擎必须理解用户的意图和需求,才能非常到位地提供相关、准确的信息。要理解用户的意图,首先要理解用户的行为和习惯,对不同人的查询做不同的处理,反馈给用户个性化的内容;其次要理解用户查询时的上下文背景,包括时间、地点、语义等。个性化的搜索,意味着向更加精确搜索结果的方向又迈进了一步。
(三)网络的发展
1。网络终端形式更加丰富
目前各种客户端搜索工具的发展,使得用户可以不到搜索引擎的网站,而是直接在工具终端搜索所要查询的信息。手机、PDA等终端设备的不断发展,将最终帮助人们摆脱电脑的制约,而各种嵌入式智能装备的推广普及,正在印证着这一趋势。随着网络终端形式越来越丰富,很多应用找到了自己的位置,如手机电影;也有一些应用随着网络终端形式的发展而不断拓展,如Gmail的手机版。那么作为网络第二大应用的搜索引擎,也应该与时俱进,不断拓宽应用之路。
实际上很多搜索引擎已经这么做了。如Nokia和Yahoo在2006年9月7日发布了面向Nokia便携式终端的应用软件“NokiaMobileSearch”。该软件面向NokiaNseriesS60终端,用Yahoo的网页、图像搜索功能可向用户提供10种语言的搜索结果。但问题的关键是,只在新的网络终端上发布搜索产品还远远不够,应该挖掘各种网络终端的最佳应用模式,更好更方便地、个性化地服务用户,用户才可能喜爱这些新生事物。例如使用手机进行搜索时,完全可以根据时间和地点进行个性化服务。可以想象,如果快吃饭的时候使用手机查询饭店,那么把手机持有者附近的知名饭店作为查询结果返回,将会是一个很好的选择。
2。网络速度的提高
随着基础建设的发展和技术水平的提高,网络速度一直在不断提高。网速的提高对于搜索引擎的影响主要在两个方面:首先极大地促进了页面搜集的速度,能够使搜集的页面集合更全,覆盖率更高,同时使页面集合的更新更快,信息时效性更强;另一方面是在搜索结果的使用上,可以使用户更快地打开页面,下载自己需要的信息,包括pdf文件、图像文件、音视频文件等,给用户更好的应用体验。
网络速度的提高提供了以上的可能性,而搜索引擎必须把这种可能变为现实。另外,搜索引擎还要抓住机会,比如随着IPv6的发展,大力推进多媒体信息的搜索和使用。
3。无线网络的发展
互联网有从有线网络向无线网络发展的趋势,随着无线通讯技术的发展,无线传输速率、覆盖面和稳定性得到很大提高,3G的应用将进一步扩大这个趋势。摩根斯坦利(MorganStanley)2006年4月初发布了一份106页的名为“全球互联网趋势(GlobalInternetTrends)”的调查报告[9],这个报告包含了互联网的调查和市场数据,从金融市场的角度分析了互联网市场的风险和机遇。摩根斯坦利在这份报告中,试图说明互联网的发展趋势已经从PC互联网转向移动互联网;而规模远超过PC用户群,并且没有经过深度发掘的手机和消费电子设备,已经成为了主导互联网发展的主角。摩根斯坦利认为移动互联网将带来新的商机,在未来的数年内,移动互联网很可能会出现类似于Google那样的大服务商。
(四)来自非技术方面的挑战
1。知识产权问题
Web上的知识产权保护是一个很复杂的问题——不仅搜索引擎公司觉得麻烦,用户也很矛盾:一方面认为合法的知识产权理所当然应该受到保护,另一方面也希望自己能够更方便地获得更多权威的、有价值的信息。
事实上,Google公司不止一次地受到侵权起诉,Google使出浑然解数,也不过与原告们打个平手而已。国内的百度公司也因为提供MP3下载而屡屡为人诟病。知识产权的问题虽然最终要靠通过相应的法律解决,但某种程度上的技术处理,可以减轻侵权的压力。
2。所在国法律
搜索引擎庞大的搜罗万象的能力并非总是它的优势,有时正是因为在这一点上违反了所在国的相关规定而遭到封锁。比如“网页快照”是Google非常好的一项功能,但在中国内地因为与相关法规抵触而被封锁,而该项功能的封锁,使得它的不少用户不得不转向其竞争对手的产品。类似这种问题,是搜索引擎本地化时首要考虑的问题。
3。网络诚信问题
网络诚信不只是搜索引擎发展中所遇到的难题,而且也是整个互联网发展中的一个非技术瓶颈。这里以“点击欺诈”为例来说明问题的严重性。
“点击计费”是目前主流搜索引擎商普遍采用的广告收费模式,他们通过广告点击率向广告主收取费用,其广告收费=有效点击次数×广告投放价格,其中有效点击次数是指排除点击欺诈后的次数。点击欺诈自互联网诞生之际就出现了,成为全球搜索引擎商们的一大心病。虽然几乎每个搜索引擎商都有自己的反欺诈系统,但判断某个点击是“有效”还是“恶意”其实是非常困难的一件事。点击欺诈在中国更是泛滥到无法收拾的地步:靠点击广告挣钱甚至已经成为一个行业!点击欺诈的泛滥告诉我们,网络诚信远远没有我们预期的那么好。
2006年3月,网络搜索巨头Google宣布,公司同意支付最高9000万美元费用与点击欺诈案的原告达成和解。虽然Google这位行业老大终于愿意率先和广告主们握手言和了,但我们担心,Google能够独自承担整个行业的重责吗?恐怕这由非技术因素引起的挑战,最终还要靠技术手段把它们控制在搜索引擎公司能够承受的范围内。
三、搜索引擎应对方略
针对以上各种挑战,搜索引擎如何应对呢?我们对搜索引擎所采用的方略和相关的成型研究进行梳理,归纳为以下几点予以介绍。这几点和上面介绍的挑战并没有一一对应的关系。
(一)多元化
针对形形色色的用户,针对用户各种各样的需求,搜索引擎已经到了细分市场的时候,多元化是搜索引擎的必然之路。一方面,针对大量的普通用户,搜索引擎仍然致力于最广泛、最全面的信息检索;另一方面,针对检索目的明确、查询要求精准的用户,搜索引擎在特定领域和行业中发展,推出更有针对性的垂直搜索系统,为这些专业人士更好地服务。
1。通用系统:其定位是一个好的推荐系统
在通用系统层面,搜索引擎的定位更加清晰:它只是一个好的推荐系统,对于它的返回结果,用户必须经过自己的过滤和选择,而不是把排在前一二位的结果直接拿来使用。
作为一个好的推荐系统,搜索引擎着力做好这样几件事情:①信息尽量全而有价值;②信息具有良好的时效性和时新性;③信息查询尽量准确,或者说通过尽可能少的交互,引导用户找到其所需要的结果;④用户界面友好;⑤查询速度快。后面几个小节中,我们会有针对性地讨论这些方面。
2。专业系统:要求非常精准,有专业特色
专业搜索系统又称垂直搜索(verticalsearching)系统,它是搜索引擎的细化和延伸,在最近几年发展得如火如荼。垂直搜索引擎和通用搜索引擎的最大区别,是对网页信息进行了一定程度的结构化提取,然后将提取的数据进行深度加工处理,为用户提供针对性更强、精确性更高的服务。
垂直搜索引擎的应用方向很多,比如地图搜索、音乐搜索、图片搜索、文献搜索、企业信息搜索、求职信息搜索、购物搜索、房产搜索、天气搜索……几乎各行各业各类信息都可以细化成相应的垂直搜索对象。垂直搜索引擎一般在规模上比通用搜索引擎要小,因为它只涉及某个特定的领域。垂直搜索引擎在技术上也需要信息搜集程序(但只在一些特定站点活动,并且不是对所有的链接都感兴趣)、中间处理(分词、信息提取和索引等)程序以及为用户提供查询服务。在信息搜集方面,Crawler除了使用各种技术在限定领域内面向主题抓取尽可能全的信息外,从领域内的各种系统和数据库中获得信息更为重要,因为这些信息更为权威、也更有价值。在中间处理上,最大的挑战是如何利用模版、规则或Ontology技术,整理所抓取的纷繁芜杂的数据,从中提取结构化信息,然后使用关系模型或XML等半结构化模型进行组织。只有经过有效组织,才能提供有针对性的、更为精准的查询服务。
CiteSeer、GoogleEarth、YahooShopping、Shopping。com等都是代表性的垂直搜索引擎。计算机论文搜索引擎CiteSeer(http://citeseer。ist。psu。edu/cs)是NEC研究院建立的一个学术论文数字图书馆,它提供了一种通过引文链接检索文献的方式。GoogleEarth使用了公共领域的图片、受许可的航空照相图片、KeyHole间谍卫星的图片和很多其他卫星所拍摄的城镇照片,并将它们和GIS布置在一个地球的三维模型上,使人足不出户就可以在名川大山间翱翔,在摩天楼群中俯瞰。YahooShopping和Shopping。com是美国最大的购物搜索引擎,其中Shopping。com创建于1999年,每月可输送2000万个有效销售给商家,2005年8月被eBay以6。2亿美元收购。
至于国内,垂直搜索市场更是群雄纷争,令人眼花缭乱。然而问题是,大家在纷纷寻找好的赢利模式的时候,往往忽略了应该有一个好的技术作为支持。这是一个很可悲的现象。
(二)搜索质量提高
1。过滤垃圾页面
Web垃圾信息泛滥,不仅浪费了搜索引擎的带宽和时间等宝贵资源,更重要的是,它们的存在大大降低了搜索引擎的查询质量和查询效率,极大地影响了用户对Web信息的有效使用。搜索引擎主要在两个步骤上进行反击:①在Crawler抓取阶段即进行过滤,滤去那些质量极低、毫无内容可言的“高纯度垃圾”,这样可以节省网络带宽、费用、抓取时间、存储空间等,并且大大减轻了下一步在信息分类、信息组织和查询匹配时的负担;②在信息分类和组织阶段,计算网页信息的可信度,在用户查询信息时,把可信度作为一个重要因子对查询结果集进行排序,从而提高查询结果的信息质量,满足用户的实际需要。
搜索引擎公司传统上的做法是,聘请专业人员,不断地搜查探测那些恶意欺骗者。当确认了一个Web垃圾网站后,搜索引擎停止对它的搜索和索引。然而这个探测过程非常昂贵而且缓慢,鉴于此,搜索引擎公司、国内外知名大学和研究机构近几年开始从不同的角度研究和寻找更好的方法,其中有代表性的研究成果如下:
(1)Google在2002年就注意到Web垃圾信息日渐泛滥的问题,提出要在自己的排名算法中,加大页面质量的权重[10]。
(2)Microsoft对近6亿个页面进行了研究,从URL属性、HostName的解析、链接关系、内容特点等几方面分析了Web垃圾页面的特点,并试图按照这些统计属性来确认Web垃圾页面[8]。
(3)Stanford的Gyongyi等人受Haveliwala的“Topic-SensitivePageRank”思想的启发,认为好的页面所指向的链接页面通常也是好的,于是他们提出了TrustRank的概念,依靠一个人工选取的好种子页面集,计算他们的传播结果,从而对Web站点按可信度排序,进而把所有站点分为“好”和“坏”两种[11]。他们还对Webspam进行了分类研究[12],并对Linkspam联盟技术做了分析[13]。Gyongyi等人提出TrustRank的概念后,受到了广泛关注,陆续有很多研究者进行类似的研究,如匈牙利科学院的AndrásA。Benczúr等人,以及美国LehighUniversity的BaoningWu和BrianD。Davison等。
虽然很难见到Google、Yahoo等搜索引擎关于如何去除垃圾页面的技术报告,但他们一直在做着这样的工作,并且已经有所应用。这一点从相关产品的使用体验中可间接地验证。
2。提高查询准确度
对于一个查询,搜索引擎动辄返回几十万、几百万篇文档。面对大量的返回结果,用户只能在其中浏览筛选。实际上,用户大多数时间都没有足够的耐心去浏览多屏结果。根据Silverstein等人的研究结果,有85%的查询只需要给出前10个结果[14]。
如何使用户想要的查询结果出现在返回集合的前列(最好是第一屏),这个本来就具有挑战性的问题随着搜索引擎检索页面集的增大而越来越急迫。目前解决这个问题的主要几种方法是:
(1)通过各种方法获得用户没有在查询语句中表达出来的真正用途,包括:①相关度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关的程度),哪些不相关,通过多次交互逐步求精;②智能代理跟踪用户检索行为,分析用户模型;③用户注册使用,以便更好地分析用户的使用特点和喜好。
(2)使用正文分类技术将查询结果分类,使用可视化技术显示分类结构,用户可以有选择性地浏览自己感兴趣的类别(GoogleNews就采用了这种方法)。
(3)使用链接结构分析进行站点聚类或页面聚类,然后将信息推荐给用户(Vivisimo公司就是采用对搜索结果自动聚类的办法来满足不同类型用户的需要)。
我们认为最有力的方法是改进排名算法。Google的排名规则一直在变化中,2001年基于HillTop算法进行的优化是比较明显的变化(HillTop认为来自相同主题的相关文档链接对权重计算的贡献更大),现在又到了迫切需要算法更新的时候了。据说Google正在研究“多倍索引信息获取系统(MIBIRS)”,可以使搜索引擎的网页索引数量达到惊人的1000亿幅甚至更多,我们翘首以盼。
(三)搜索能力加强
1。对多媒体搜索的支持
随着多媒体信息在网络上的大量涌现和人们对多媒体信息需求的高涨,知名搜索引擎如Google、Yahoo、AltaVista、Lycos、AllTheWeb等对于多媒体搜索的能力也在不断加强。它们或在一个统一的用户界面上提供资料类型选择,或直接提供独立的多媒体搜索引擎。另外,各种图像搜索引擎和各种娱乐搜索引擎也不断涌现。这些系统可以说在很大程度上满足了用户的需要,然而它们对多媒体搜索的支持都还在初级阶段,基本上是基于文本关键词和自动标注进行多媒体信息检索,缺乏基于图像和音视频内容进行比对检索的功能。
一般的说,多媒体信息的内容表示可分为物理层(如信号样本、像素等)、特征层(如图像的颜色和纹理、语音频谱)、语义层内容(如语音的脚本、音乐的音符、图像中的物体形状和人脸)等三个层次。基于内容的检索一般针对后两个层次。基于特征层次的内容检索主要应用于以媒体实例为输入的查询方式。检索时,首先对输入的实例提取特征模板,再与检索源中的数据相匹配。相关研究主要围绕着检索的快速性和准确性问题展开,具体涉及特征选取、匹配策略、算法优化等。
关于图像处理和检索的专利较多,根据美国专利网的检索结果,与图像检索相关的专利达186项,但是很少见它们应用于实际系统,而用于网络多媒体搜索引擎的专利,则更是罕有。2004年Lowe提出了SIFT(Scale-InvariantFeatureTransform)[15]特征,该特征具有旋转、缩放不变性,并且对光照、仿射变换以及视角变化等都具有相当程度的鲁棒性。除此之外,每一个SIFT特征都具有很强的描述和区分能力,因此非常适用于图像实例检索。但在对海量数据的检索中,如何降低其复杂度需要进一步的深入研究。
在音频检索方面,常用的特征包括:短时能量、频谱、过零率、美标度倒谱等。针对大数据量检索问题,很多工作集中在特征匹配的策略优化上。基于内容的视频检索可以看做图像和音频检索的扩展,所用特征除图像和音频中的常用特征以外,还包括一些专有特征:如物体运动、镜头切换等。关于音视频检索的专利也不少,根据美国专利网的检索结果,与音频和视频检索相关的分别为28项和80项,但是应用于网络多媒体搜索引擎的专利却很少。
语义层次上的内容检索研究相对更为困难一些,下面几个方面是最近几年进展较快的:场景分类技术、语音数据识别、语音说话人分割、视频数据中精彩片段提取等。然而这些技术距离大规模检索应用还有相当的距离。
在这里值得一提的是,面对咄咄逼人的Google和Yahoo,法国总统雅克·希拉克在2006年新年讲话时宣布,法国决定联手德国,抓住多媒体搜索这个机会,开发“真正的多媒体搜索引擎Quaero,以应对Google和Yahoo带来的全球挑战”。
Quaero的拉丁语意是“我搜”,该项目的目标是,搜索时无须借助文字描述就能“读懂”音频、图像和视频的内容。目前,这样的图片识别程序已经存在。法国中型软件公司、Quaero项目成员LTUTechnologies向美国联邦调查局(FBI)提供电脑取证分析工具,用于分析被扣押的硬盘中的图片,并将其与已知的恋童癖罪犯的照片相比对。另外他们还有一些可将语音转化为文字的音频解析程序。Quaero项目组面临的挑战是,如何改进这些工具以提高搜索准确度,同时提高速度,适应大数据量的检索。
目前参与Quaero研发的主要公司和机构包括法国电信、汤姆逊公司、法国视听研究所、德国电信、贝塔斯曼集团和西门子公司等。Quaero项目预计在未来5年内需要投入10亿~20亿欧元,所需资金将由法、德两国政府以及两国企业共同承担,其中法国政府已计划5年内投资2。5亿欧元。这个项目究竟走势如何,我们将拭目以待。
2。对DeepWeb的搜索
DeepWeb已经拥有不少研究者,如Stanford和UIUC的学者们,他们分别搭建了HiWE[16]和MetaQuerier[17]两个很好的原型系统。也有一些搜索引擎能够搜索DeepWeb信息,如www.xiexiebang.com、www.xiexiebang.com。com、www.xiexiebang.com等。然而它们或者太小,或者搜索Invisible信息的能力太弱,所以使用起来很多时候不能得心应手。
几大主流搜索引擎尚未提供DeepWeb搜索功能,主要原因是技术上还不够成熟。然而“需求是创新之母”,我们期待在不久的将来能使用Google、Yahoo等查询DeepWeb信息,或者是基于DeepWeb查询的搜索引擎迅速发展起来,为我们提供更好的服务。
3。ArchiveSearch
搜索引擎通常能够提供的信息通常只是最近在网上有的信息,而很多情况下我们需要了解网上曾有的历史信息,甚至需要将不同时间的信息进行归纳、比较和综合。另外,对于搜索引擎来说,把自己辛辛苦苦搜集来的信息轻易抛弃也是很可惜的事。
这方面的研究国内国外都曾开展过,如InternetArchive、UCLA的WebArchive[18]和北京大学的WebInfoMall(http://www.xiexiebang.com/)作为搜索引擎的领袖公司,一直在进行着前沿研究,并不断推出新的产品。就在不久前,Google专门为中小企业推出了集成了Gmail、Gtalk、GoogleCalendar和GooglePageCreator等免费服务的GoogleAppsforYourDomain项目。接着Google又跟LitCam和UNESCO(教科文组织)合作,推出了一个专为教育和文化事业而设置的集成服务——Google知识工程。Google还推出了新搜索服务——SearchMash。com作为Google的子搜索网站,SearchMash采用了图文结合的方式显示搜索结果,左边为文字搜索结果,右边为符合度最高的图像搜索结果。另外,Google正在研究“多倍索引信息获取系统(MIBIRS)”,据说通过该项技术,可以使Google搜索引擎的网页索引数量达到惊人的1000亿幅或更多。Google对于语义搜索的研究也在进行中。
(2)Microsoft(http://research。microsoft。com/)对于搜索引擎这个庞大的市场当然不肯放过。微软亚洲研究院(http://research。microsoft。com/asia/)早在2001年底,便开始了有关互联网信息检索技术的研究,几年来发表了很多高水平的论文,并不断把这些研究成果转化为技术。他们的代表性成果包括对网页细分的“数据模块化的Web检索方法”、搜索动态网页数据的“深层网络数据发掘技术”,等等。对于分散于互联网上的图像资源,他们开发出的智能化图片搜索技术,已可自动识别与分类搜索结果。在2006年微软创新日上,微软亚洲研究院集中展示的38项技术中,搜索类技术就多达11种,包括对文字、图像、新闻事件等进行搜索,应用涵盖了手机移动、IPTV等多个方面。微软亚洲研究院院长沈向洋博士于2006年9月在北京宣布,微软亚洲研究院将在原有四大研究方向:新一代多媒体、新一代用户界面、无线及网络技术和数字娱乐的基础上,增加互联网搜索和挖掘为该机构的第五大研究方向。
(3)Yahoo!(http://www.xiexiebang.com)……就是例子。前面提到的法国和德国联手开发Quaero搜索引擎的计划也能给我们启示。在上述包罗万象数据(信息)的大搜索的概念下,本土努力将更有天然的优势,而一定的国家行为可以使这种优势发挥出最好的效益来。
本文www.xiexiebang.com www.xiexiebang.com A5首发,转载请保留。