第一篇:毕业设计(论文)工作暂行规定
一、目的毕业设计(论文)是教学计划中一个重要综合性实践环节,是培养学生理论联系实际的学风
和锻炼学生独立工作能力的有效手段,其目的是培养学生运用所学基础理论、专业知识和基本技能;提高分析和解决工程实际问题及从事科学研究的能力;培养学生为社会主义事业而刻苦钻研、勇于攻坚的精神和认真负责、实事求是的科学态度。
二、学生参加毕业设计(论文)的条件
必须在规定的年限内,学完教学计划规定的全部必修课程和除毕业设计(论文)之外的其他
全部实践环节;按教学计划规定修读完各类选修课,方可参加毕业设计(论文)工作。
三、学生毕业设计(论文)的基本任务
按照毕业设计(论文)任务书的要求,在教师指导下,独立地进行毕业设计中的各项工作。在毕业设计进行中,及时地向指导教师汇报自己毕业设计(论文)进展情况,并听取教师的指导意见。认真完成毕业设计任务书规定的全部工作,撰写毕业论文,经审阅后,参加答辩。
毕业设计(论文)不及格者,不能获得学士学位,不发给毕业证书只发给结业证书。在毕业
后一年内,经个人申请,学校同意,补作毕业设计(论文),答辩通过者,换发毕业证书。
四、毕业设计(论文)的选题
1.毕业设计(论文)的选题必须符合专业培养目标的要求,体现本专业基本训练的内容,对所学知识有综合运用性质,具体题目应多样化,并尽可能反映现代科学技术发展水平,与当前的生产实际、工程实践、经济实践、管理实践和科学研究相结合,也可选择与所学专业有关的模拟题目,但都应使学生受到理论联系实际、设计、科研等较为全面综合的训练。
2.题目的难度要适当,分量要合理,过程要完整,要符合学生的实际水平和现有条件,尽可能做到既有连续性又有阶段性,使学生在教学计划规定时间内完成。题目一旦确定,不得随意改题。
3.提倡不同专业(学科)互相结合,扩大专业面,开阔学生眼界,实现学科之间的相互渗透,可以根据专业培养目标的要求,跨专业(学科)进行选题。
4.贯彻因材施教的原则,对学有余力的优秀学生,在选题和内容上提出较高要求,以充分发挥其才能。
5.毕业设计(论文)题目一般由有关指导教师提出,教研室批准,由学生选定。学生可自愿报名选题,但要由教研室调整、平衡最后确定。优秀生可自行确定题目,但需经教研室批准,并指定指导教师。
五、毕业设计(论文)的组织与管理
1.系主任和专业教研室主任负责组织本系、本专业的毕业设计(论文)工作,并把好质量关。
2.各系应安排政治思想好,教学和科研水平较高,有较丰富经验并具有讲师及以上技术职称的教师(或校外有关企事业及经营、管理部门具有副高职以上的专家)担任毕业设计、论文的指导工作。指导教师与学生的比例一般不超过1:7。
3.各系应在学生进行毕业设计前,按学校要求尽早确定毕业设计(论文)题目,并做好学生的选题工作。毕业设计(论文)开始一周内将参加毕业设计、毕业论文的学生名单、题目、指导
教师情况报教务处实验管理科备案。
4.指导教师要根据题目要求,制定毕业设计(论文)任务书,任务书是学生进行毕业设计
(论文)的重要指导性文件,应写明毕业设计(论文)的题目,明确毕业设计(论文)的主要内容
和要求,分阶段完成时间和最后的工作成果(包括设计说明书、图纸、论文、计算程序等)和主要参考资料、调研计划等。任务书经教研室审批后,于学生毕业设计开始前下发给每个学生。
5.参加毕业设计(论文)的学生原则上做到每人一个题目,如确有个别题目较大,一个学生
难以完成的,可允许有2人或多人做同一个题目,但在内容上要有明确的分工,所做的大部分工
作不能相同。
6.毕业设计(论文)应在教师指导下由学生独立完成。指导教师应在拟定论文提纲、收集、选择和运用资料、理论、方法等方面经常对学生进行全面指导,定期检查和答疑,全面掌握学生毕业设计(论文)的质量和进度。
7.毕业设计(论文)一般在校内进行,也可结合产学研项目、学生毕业分配等在校外进行。各系专业教研室和学校有关部门,必须保证学生进行毕业设计所需的各项条件,如参考书刊、技术资料、加工、实验及使用计算机等。
8.毕业设计(论文)要求有一定字数的文献综述和一定数量的中外文参考文献,一定量的外
文文献翻译。并附有外文摘要。
9.各系应组织有关教研室切实做好学生毕业设计(论文)全过程的管理工作,对学生毕业设
计情况进行检查,及时解决检查中发现的问题。尤其要把好毕业设计(论文)的选题、撰写、审
阅和答辨关。教务处要不定期组织有关专家抽检学生毕业设计(论文)的进行情况。
六、答辩及答辩委员会
1.答辩委员会在系主任领导下,按专业组成。答辩委员会设主任、副主任各一名,委员三至五名,秘书一名(可由委员兼任)。
2.答辩委员会的委员以我校教师为主,委员应具有讲师(或相当于讲师)及以上技术职称。也可聘请校外具有中级以上专业技术职称的专家、工程技术人员担任答辩委员。
3.根据工作需要,答辩委员会可下设若干答辩小组,每组3—5人,设组长一人。
4.答辩委员会名单应在答辩前2周报教务处审核,学校批准后,由各系在答辩开始前张榜公布。
5.答辩前5—7天,学生应将设计成果整理装
订成册,送指导教师评阅,指导教师应对学生的毕业设计(论文)说明书、研究论文或成果进行认真审查,根据毕业设计(论文)的工作量、质量、独立工作能力和态度等写出评语交答辩小组。6.在答辩前2—3天,各有关教研室负责组织各指导教师对学生的答辩资格进行审查,属下列情况之一者,不得参加答辩。
(1)工作量明显不足或未完成规定任务最低限度要求;
(2)成果存在较大错误,经指导教师指出而未修改;
(3)剽窃他人成果或直接照抄他人论文;
&nbs
第二篇:毕业设计(论文)工作暂行规定
一、目的毕业设计(论文)是教学计划中一个重要综合性实践环节,是培养学生理论联系实际的学风和锻炼学生独立工作能力的有效手段,其目的是培养学生运用所学基础理论、专业知识和基本技能;提高分析和解决工程实际问题及从事科学研究的能力;培养学生为社会主义事业而刻苦钻研、勇于攻坚的精神和认真负责、实事求是的科学态度。
二、学生参加毕业设计(论文)的条件必须在规定的年限内,学完教学计划规定的全部必修课程和除毕业设计(论文)之外的其他全部实践环节;按教学计划规定修读完各类选修课,方可参加毕业设计(论文)工作。
三、学生毕业设计(论文)的基本任务按照毕业设计(论文)任务书的要求,在教师指导下,独立地进行毕业设计中的各项工作。在毕业设计进行中,及时地向指导教师汇报自己毕业设计(论文)进展情况,并听取教师的指导意见。认真完成毕业设计任务书规定的全部工作,撰写毕业论文,经审阅后,参加答辩。毕业设计(论文)不及格者,不能获得学士学位,不发给毕业证书只发给结业证书。在毕业后一年内,经个人申请,学校同意,补作毕业设计(论文),答辩通过者,换发毕业证书。
四、毕业设计(论文)的选题1.毕业设计(论文)的选题必须符合专业培养目标的要求,体现本专业基本训练的内容,对所学知识有综合运用性质,具体题目应多样化,并尽可能反映现代科学技术发展水平,与当前的生产实际、工程实践、经济实践、管理实践和科学研究相结合,也可选择与所学专业有关的模拟题目,但都应使学生受到理论联系实际、设计、科研等较为全面综合的训练。2.题目的难度要适当,分量要合理,过程要完整,要符合学生的实际水平和现有条件,尽可能做到既有连续性又有阶段性,使学生在教学计划规定时间内完成。题目一旦确定,不得随意改题。3.提倡不同专业(学科)互相结合,扩大专业面,开阔学生眼界,实现学科之间的相互渗透,可以根据专业培养目标的要求,跨专业(学科)进行选题。4.贯彻因材施教的原则,对学有余力的优秀学生,在选题和内容上提出较高要求,以充分发挥其才能。5.毕业设计(论文)题目一般由有关指导教师提出,教研室批准,由学生选定。学生可自愿报名选题,但要由教研室调整、平衡最后确定。优秀生可自行确定题目,但需经教研室批准,并指定指导教师。
五、毕业设计(论文)的组织与管理1.系主任和专业教研室主任负责组织本系、本专业的毕业设计(论文)工作,并把好质量关。2.各系应安排政治思想好,教学和科研水平较高,有较丰富经验并具有讲师及以上技术职称的教师(或校外有关企事业及经营、管理部门具有副高职以上的专家)担任毕业设计、论文的指导工作。指导教师与学生的比例一般不超过1:7。3.各系应在学生进行毕业设计前,按学校要求尽早确定毕业设计(论文)题目,并做好学生的选题工作。毕业设计(论文)开始一周内将参加毕业设计、毕业论文的学生名单、题目、指导教师情况报教务处实验管理科备案。4.指导教师要根据题目要求,制定毕业设计(论文)任务书,任务书是学生进行毕业设计(论文)的重要指导性文件,应写明毕业设计(论文)的题目,明确毕业设计(论文)的主要内容和要求,分阶段完成时间和最后的工作成果(包括设计说明书、图纸、论文、计算程序等)和主要参考资料、调研计划等。任务书经教研室审批后,于学生毕业设计开始前下发给每个学生。5.参加毕业设计(论文)的学生原则上做到每人一个题目,如确有个别题目较大,一个学生难以完成的,可允许有2人或多人做同一个题目,但在内容上要有明确的分工,所做的大部分工作不能相同。6.毕业设计(论文)应在教师指导下由学生独立完成。指导教师应在拟定论文提纲、收集、选择和运用资料、理论、方法等方面经常对学生进行全面指导,定期检查和答疑,全面掌握学生毕业设计(论文)的质量和进度。7.毕业设计(论文)一般在校内进行,也可结合产学研项目、学生毕业分配等在校外进行。各系专业教研室和学校有关部门,必须保证学生进行毕业设计所需的各项条件,如参考书刊、技术资料、加工、实验及使用计算机等。8.毕业设计(论文)要求有一定字数的文献综述和一定数量的中外文参考文献,一定量的外文文献翻译。并附有外文摘要。9.各系应组织有关教研室切实做好学生毕业设计(论文)全过程的管理工作,对学生毕业设计情况进行检查,及时解决检查中发现的问题。尤其要把好毕业设计(论文)的选题、撰写、审阅和答辨关。教务处要不定期组织有关专家抽检学生毕业设计(论文)的进行情况。
六、答辩及答辩委员会1.答辩委员会在系主任领导下,按专业组成。答辩委员会设主任、副主任各一名,委员三至五名,秘书一名(可由委员兼任)。2.答辩委员会的委员以我校教师为主,委员应具有讲师(或相当于讲师)及以上技术职称。也可聘请校外具有中级以上专业技术职称的专家、工程技术人员担任答辩委员。3.根据工作需要,答辩委员会可下设若干答辩小组,每组3—5人,设组长一人。4.答辩委员会名单应在答辩前2周报教务处审核,学校批准后,由各系在答辩开始前张榜公布。5.答辩前5—7天,学生应将设计成果整理装订成册,送指导教师评阅,指导教师应对学生的毕业设计(论文)说明书、研究论文或成果进行认真审查,根据毕业设计(论文)的工作量、质量、独立工作能力和态度等写出评语交答辩小组。6.在答辩前2—3天,各有关教研室负责组织各指导教师对学生的答辩资格进行审查,属下列情况之一者,不得参加答辩。(1)工作量明显不足或未完成规定任务最低限度要求;(2)成果存在较大错误,经指导教师指出而未修改;(3)剽窃他人成果或直接照抄他人论文;(4)毕业设计(论文)成果在文字上或其他方面未满足任务书规定的最低要求。7.答辩前一天,由教研室公布参加答辩学生名单、出场次序和时间。8.每个学生答辩时间一般为40—50分钟,其中20分钟由学生本人简要汇报设计(论文)内容,另外时间答辩。9,答辩委员会在答辩时,除了对学生毕业设计(论文)内容提出质询外,还应考核有关的基本理论、计算方法、实验方法等。
七、毕业设计(论文)指导教师的职责1.认真选题并拟定毕业设计(论文)任务书。2.对学生进行毕业设计的准备工作、设计方法、方案论证、以及课题方向等设计程序做必要的启发式的指导,但不得包办代替。3.对学生的毕业设计说明书、图纸、论文等要进行认真审查。4.参加对所指导学生的毕业答辩,并结合学生毕业设计的全过程,对学生的基本概念掌握、系统的理论知识情况,解决实际问题能力,对待毕业设计的态度等做出实事求是的评价,写出评语。对不认真进行毕业设计(论文)并屡教不改的学生,有权停止其毕业设计(论文),以毕业设计(论文)不及格论处。
八、毕业设计(论文)成绩评定1.毕业设计(论文)完成后,必须通过答辩委员会(或小组)的答辩,方可获得毕业设计(论文)成绩或学分。2.毕业设计(论文)成绩按优秀、良好、中、及格和不及格五级分制记分。3.答辩小组在答辩完毕后,应根据学生毕业设计(论文)的完成情况、答辩情况和导师给出的评语初步评定毕业设计(论文)成绩。4.答辩委员会负责对各答辩小组的评定成绩进行审定,并按学校规定标准和要求从各小组推荐优秀毕业设计(论文)候选人名单中评选出本专业优秀毕业设计(论文),由系上报教务处。5,答辩委员会要对毕业设计(论文)的成绩进行宏观控制使其符合正态分布规律,指导性比例为:优:15—20%,良:30—35%,中:25—30%,及格及以下:15—30%。各档次成绩须按下列基本要求评定:(1)获“优秀”的要求:毕业设计(论文)的全过程表现积极主动、认真、遵守纪律。能按设计(论文)题目的要求全面、按时完成。毕业设计(论文)成果反映的基本概念(或论据)全部正确,综合运用知识和分析解决问题能力强,论证充分,有自己的独立见解和一定的创新性,文字书写正确、工整。工程绘图图面清洁美观,符合国标,设计的结构或工艺先进。答辩时叙述和回答问题正确流畅,表达能力强。(2)获“良好”的要求:毕业设计(论文)的全过程表现比较主动、认真、遵守纪律。能按时、较好地完成毕业设计(论文)题目的要求。毕业设计(论文)成果反映的基本概念(或论据)正确,论证合理,有一定的见解。文字书写正确、工整。工程绘图图面清洁,符合国标,设计的结构或工艺先进。答辩时叙述和回答问题较流畅正确。(3)获“中等”的要求:毕业设计(论文)的全过程表现较好,能遵守纪律,按时完成毕业设计(论文)题目的要求。毕业设计(论文)成果反映的概念(或论据)基本正确,论证一般,没有较大原则性错误。书写文体清楚通顺。工程绘图图面清洁,符合国标,设计结构或工艺一般。答辩时叙述和回答问题基本正确。(4)获“及格”的要求:毕业设计(论文)的全过程表现一般,能遵守纪律。基本能完成毕业设计(论文)题目的要求。毕业设计(论文)成果中反映的基本概念(或论据)没有原则错误,论证欠充分。文字书写清楚,工程绘图图面一般,基本符合国标,设计结构或工艺欠佳,答辩时能叙述和回答问题。(5)被评为“不及格”的规定:毕业设计(论文)全过程表现差,不遵守纪律。不能按时完成毕业设计(论文)题目的要求。毕业设计(论文)成果中基本概念(或论据)有原则性错误,论证模糊。文字书写零乱。工程绘图图面欠清洁,与国标不完全符合,设计结构工艺有明显缺陷、答辩时基本概念模糊,不能正确叙述和回答问题。
九、资料管理1.答辩结束后,学生应将毕业设计(论文)资料(图纸、参考文献、用毕业设计(论文)经费购买的参考书、试验数据、运算数据、调研记录、程序、磁盘、图片资料及其它有保存价值的资料)交指导教师,由教研室确定保存方式并保存至少五年。对于优秀毕业设计(论文)的保存问题,按学校有关规定处理。2.未经指导教师同意,学生不得将毕业设计(论文)成果公开发表。
第三篇:毕业设计(论文)工作流程
教务处下发毕业设计(论文)工作安排各专业公布课题名称资 格 审 查组织学生选题,汇总,打印选题情况一览表指导教师填写毕业设计(论文)任务书下达开题任务学生调研(实习),收集资料,方案论证,撰写开题报告(或论文提纲)文献翻译和综述,试验,建模,初步设计(论文初稿撰写)院系组织答辩,第四阶段完成情况检查答辩工作安排,答辩日程安排上报教务处第三阶段完成情况检查,答辩资格审查数据分析等,设计(论文)完善学生提交中期检查报告(论文初稿),第二阶段完成情况检查(中期检查)资 料 归 档毕业设计(论文)情况统计,院系上报情况统计表和总结创新优秀毕业设计(论文)评选成 绩 评 定评阅教师评阅(院系指派)导师评分,填写指导教师意见导师审核,论文打印,学生填写情况登记表设计报告整理,论文定稿第一阶段完成情况检查
第四篇:毕业设计(论文)
四川交通学院毕业设计(论文)目录1 VI设计综合概述....................11.1 VI的定义.......................1
1.2 VI基础要素系统设计表....................1
1.3 VI应用要素系统设计表.....................1
1.4 VI设计的基本原则.........................设计软件介绍.........................32.1设计软件介绍.....................43 设计基本的思路......................53.1 牛牛啤酒有限公司VI设计基本思路....................5
3.2 牛牛啤酒有限公司VI设计的详细介绍................5啤酒行业的现状....................17中国啤酒市场的现状..........................20
5.1 总述.............................20
5.2 分述...............................20外国啤酒对于我国啤酒市场的影响.....................23
参考文献...........................26
致谢............................27
四川交通学院毕业设计(论文)VI设计综合概述
1.1 VI的定义
VI即(Visual Identity),通译为视觉识别,是CIS系统中最具传播力和感染力的层面。人们所感知的外部信息,有83%是通过视觉通道到达人们心智的。也就是说,视觉是人们接受外部信息的最重要和最主要的通道。企业形象的视觉识别,即是将CI的非可视内容转化为静态的视觉识别符号,以无比丰富的多样的应用形式,在最为广泛的层面上,进行最直接的传播。设计科学、实施有利的视觉识别,是传播企业经营理念、建立企业知名度、塑造企业形象的快速便捷之途。
1.2 VI基础要素系统设计表
1.企业标识
2.产品商标
3.企业标志释义
4.标志制图法
5.标志的使用规范
6.标志的色彩规范
8.中文标准字
9.英文标准字
10.中文指定印刷字体
11.英文指定印刷字体
12.企业辅助色
13企业象征图案
1.3 VI应用要素系统设计表
1.待客用项目类:洽谈会、会客厅、会议厅家具、烟灰缸、坐垫、招待餐饮具、客户用文具。商品及包装类商品包装设计、包装纸、包装箱、包装盒、各种包装用的徽章、封套、封缄、粘贴商标、胶带、标签等。
2.符号类
公司名称招牌、建筑物外观、招牌、室外照明、霓虹灯、出入口指示、橱窗展示、活 动式招牌、路标、纪念性建筑、各种标示牌、经销商用各类业务招牌、标示。
3.帐票类
订单、货单、帐单、委托单、各类帐单、申请表、通知书、确认信、契约书、支票、收据等。
4.文具类
专用信笺、便条、信封、文件纸、文件袋、介绍信等。
5.服装类
男女职工工作服、制服、工作帽、领带、领结、手帕、领带别针、伞、手提袋
等。
6.印刷类
股票、报告书、公司一览表、调查报告、自办报刊、公司简历、概况、奖状等。
7.大众传播类
报纸广告、杂志广告、电视广告、广播广告、邮寄广告等。
8.SP类
产品说明书、广告传播单、展示会布置、公关杂志、促销宣传物、视听资料、季节问候卡、明信片、各种POP类。
9.交通类
业务用车、宣传广告用车、货车、员工通勤车等外观识别。
10.证件类
徽章、臂章、名片、识别证、公司旗帜。
1.4 VI设计的基本原则
VI的设计不是机械的符号操作,而是以MI为内涵的生动表述。所以,VI设计应多角度、全方位地反映企业的经营理念。VI设计不是设计人员的异想天开而是要求具有较强的可实施性。如果在实施性上过于麻烦,或因成本昂贵而影响实施,再优秀的VI
也会由于难以落实而成为空中楼阁、纸上谈兵。
1.风格的统一性原则
2.强化视觉冲击的原则
3.强调人性化的原则
4.增强民族个性与尊重民族风俗的原则
5.可实施性原则
6.符合审美规律的原则
7.严格管理的原则
VI系统千头万绪,因此,在积年累月的实施过程中,要充分注意各实施部门或人员的随意性,严格按照VI手册的规定执行,保证不走样。企业视觉识别系统中的基本要素与应用要素的内容、形式,需要根据企业经营的内容与服务的性质来决定。其内容、项目的多少,一
般说来,是与企业识别系统开发设计工程的大小和实施程度而成正比;其风格与特色也与企业产品、经营特色及企业识别系统在应用中的展开程度而不同。另外,企业在实行视觉识别系统时,还应考虑到企业费用和时间的问题,逐步改善企业的设计并使之统一化。因此,视觉识别系统的实施、设计,还应该根据企业识别系统逐步实行,只有这样,才能真正发挥视觉识别的功效。为了达成企业形象对外传播的一致性与一贯性,应该运用统一设计和统一大众传播,用完美的视觉一体化设计,将信息与认识个性化、明晰化、有序化,把各种形式传播媒体上的形象统一,创造能储存与传播的统一的企业理念与视觉形象,这样能集中与强化企业形象,使信息传播更为迅速有效,给社会大众留下强烈的印象与影响力对企业识别的各种要素,从企业理念到视觉要素予以标准化,采同一的设计,对外传播均采同一的模式,并坚持长期一贯的运用,不轻易进行变动。要设计的简化:对设计内容进行提炼,使组织系统在满足推广需要前提下尽可能条理清晰,层次简明,优化系统结构。如VI系统中,构成元素的组合结构必须化繁为简,有利于标准的施行。设计软件介绍
2.1设计软件介绍
本组设计主要用了两种平面设计软件,是PhotoshopCS ILLUSTRATOR CS 这是款很经典的平面设计软件,在介绍我们的具体设计之前,首先向大家大致介绍一下它:
PhotoshopCS ILLUSTRATOR CS是Adobe公司开发的,它是一款集图形设计、文字编辑和高品质输出于一体的矢量图形软件,可以保证所绘制的图形任意地放大或是缩小而不影响其质量。它被广泛地应用于海报、包装和排版等平面广告设计、网页图形制作和艺术效果的处理等诸多领域。该软件具有图形绘制、图形优化以及艺术处理等多方面的超强功能,能充分满足设计者的实际工作需要。设计基本的思路
3.1 牛牛啤酒有限公司
VI设计基本思路我们这次是为一家啤酒有限公司做VI设计。首先,我们调查了各类啤酒公司的各种广告、宣传等涉及到VI方面的案例,然后又在网上搜索了大量关于啤酒行业VI设计中所牵涉到的知识、需求;在调查中积累了一定的经验后,我们开始对这家公司的性质进行分析:这是一家以突出青春和活力为主的啤酒公司,而且根据现在的市场需要,又往往都会提到“价格”这个概念,那么,我们就决定围绕着“青春”、“活力”“环保”、“价格中等”这四个中心来思考设计方案;经过讨论,然后考虑到我们的消费对象主要是中下水平家庭,基本这种情况,所以我们基本确定了标志的设计方向:青春、活力、环保、价格中等。我分别设计了各种标志,然后放在一块进行比较、讨论,最后,经过反复讨论、修改,最后确定了“beer jjan”企业标志确定下来以后,我们就开始了整个VIS的基础系统和应用系统部分的定义和设计,以下就是我们最后设计出来的样稿。
第五篇:毕业设计论文
一、综述..........................................................................................................................2
一、信息检索技术.....................................................................................................2
1、信息检索技术的发展.....................................................................................2
2、信息检索技术的简介.....................................................................................3
3、信息检索技术的模型.....................................................................................5
一、综述
一、信息检索技术
由于以因特网为主体的信息高速公路的不断普及和发展,信息技术已经渗透到我们社会生活的各个角落,正以前所未有的速度和能力改变着我们的生活的工作方式,我们真正处于一个“信息爆炸”的时代。一方面,因特网上面蕴含的海量信息远远超过人们的想象;另一方面,面对信息的汪洋大海,人们往往感到束手无策,无所适从,出现所谓的“信息过载”和“信息迷向”的现象。于是一个极富挑战性的课题:如何帮助人们有效地选择和利用所感兴趣的信息,尽量剔除不相关的信息。同时保证人们在信息选择方面的个人隐私权利?成为学术界和企业界所十分关注的焦点。
随着在线文本的日益增多,其中包括新闻、电子杂志、电子邮件、技术报告、文档以及网上图书馆。如此众多的信息,仅仅依靠大脑来收集和整理所需要的信息显然是不够的。所以,自动收集和整理所需要的各类信息成为信息产业面临新的挑战和新的发展契机。根据不同的应用背景和不同的使用目的,信息处理技术已经演化信息检索、信息过滤、信息分类、问题回答等方向。
由于目前网上信息的表现形式大多数为文本,而且文本也是广大用户所习惯接收的形式。因此我们在下面主要讨论中文文本检索和相关的评价方案。
1、信息检索技术的发展
信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程。
信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。1945年,Vannevar Bush的论文《就像我们可能会想的„„》第一次提出了设计自动的,在大规模的存储数据中进行查找的机器的构想。这被认为是现在信息检索技术的开山之作。进入50年代后,研究者们开始为逐步的实现这些设想而努力。在50年代中期,在利用电脑对文本数据进行检索的研究上,研究者取得了一些成果。其中最有代表性的是Luhn在IBM公司的工作,他提出了利用词对文档构建索引并利用检索与文档中词的匹配程度进行检索 的方法,这种方法就是目前常用的倒排文档技术的雏形。
在著名的国际文本检索会议(Text Retrieval Conference,TREC)上,有两个最重 要的研究方向:Routing Task和Ad Hoc Task。其热点问题包括从早期的文本检索、文本过滤到当前的问题回答。
文本信息检索就是根据用户提出的具体查询,在大量相对稳定的文本源中,检索出符合用户查询条件的文本,并按其满足查询的程度排序列出。文本检索技术的发展已经有四十多年的历史,取得了很大的成就,产生了大批实用的检索系统,积累了很多成熟的技术。
1992年,NIST(美国国家标准和技术研究所)与DARPA联合赞助了每年一次的TREC,对于文本检索和文本过滤和问题回答等专题倾注了极大的热忱。
目前随着因特网的迅速发展,需求的不断增加,文本检索以及相关技术方面取得了长足的进展,成为信息产业新的增长点。
2、信息检索技术的简介
信息检索系统流程大致如下图所示:
总体上,系统可分为四个部分:数据预处理,索引生成,查询处理,检索。下面我们分别对各个部分采用的技术加以介绍。
1.数据预处理
目前检索系统的主要数据来源是Web,格式包括网页、WORD 文档、PDF 文档等,这些格式的数据除了正文内容之外,还有大量的标记信息,因此从多种格式的数据中提取正文和其他所需的信息就成为数据预处理的主要任务。此外,众所周知,中文字符存在多种编码,比如GB2312、BIG5、Unicode(CJK 区),而原始数据集往往包含多种编码,因此要正确地检索到结果必须进行统一编码转换。研究者们对预处理部分要提取哪些信息并没有共识,这与后续处理所需的信息密切相关,一般来说,正文、锚文本和链接地址都是要提取出来的。
2.索引生成 对原始数据建索引是为了快速定位查询词所在的位置,为了达到这个目的,索引的结构非常关键。目前主流的方法是以词为单位构造倒排文档表,其结构大致如下图所示:
每个文档都由一串词组成,而用户输入的查询条件通常是若干关键词,因此如果预先记录这些词出现的位置,那么只要在索引文件中找到这些词,也就找到了包含它们的文档。为了进一步提高查询的速度,在组织索引时还可以采用一些更复杂的方法,比如B树、TRIE 树、哈希表等。这个阶段还需要对预处理之后的文档进行词法分析,这是因为很多语言的文本都不宜直接把正文中的字符串用于建立索引。例如,中文里的词与词之间不存在分隔符,因此必须先进行分词,而英文中的词存在很多变形,比如“compute”就存在“computes”、“computing”、“computed”等多种变形,应先进行词根还原。此外,有些词虽然出现频率很高,但对于查询没有任何帮助,比如“的”、“了”等,就无需放入索引,为此需要预备一个停用词表(stop word list)对这类词进行过滤。
3.查询处理
用户输入的查询条件可以有多种形式,包括关键词、布尔表达式、自然语言形式的描述语句甚至是文本,但如果把这些输入仅当作关键词去检索,显然不能准确把握用户的真实信息需求。很多系统采用查询扩展来克服这一问题。各种语言中都会存在很多同义词,比如查“计算机”的时候,包含“电脑”的结果也应一并返回,这种情况通常会采用查词典的方法解决。但完全基于词典所能提供的信息有限,而且很多时候并不适宜简单地以同义词替换方法进行扩展,因此很多研究者还采用相关反馈、关联矩阵等方法对查询条件进行深入挖掘。
4.检索
最简单的检索系统只需要按照查询词之间的逻辑关系返回相应的文档就可以了,但这种做法显然不能表达结果与查询之间的深层关系。为了把最符合用户需求的结果显示在前面,还需要利用各种信息对结果进行重排序。目前有两大主流技术用于分析结果和查询的相关性:链接分析和基于内容的计算。许多研究者 发现,WWW 上超链结构是个非常丰富和重要的资源,如果能够充分利用的话,可以极大地提高检索结果的质量。基于这种链接分析的思想,Sergey Brin 和Larry Page 在1998 年提出了PageRank 算法,同年J.Kleinberg 提出了HITS 算法,其它一些学者也相继提出了另外的链接分析算法,如SALSA,PHITS,Bayesian等算法。这些算法有的已经在实际的系统中实现和使用,并且取得了良好的效果。而基于内容的计算则沿用传统的文本分类方法,多采用向量空间模型、概率模型等方法来逐一计算用户查询和结果的相似度(相关性)。两者各有优缺点,而且恰好互补。链接分析充分利用了Web 上丰富的链接结构信息,但它很少考虑网页本身的内容,而直观上看,基于内容的计算则较为深入地揭示了查询和结果之间的语义关系,但忽略了不同网页之间的指向关系,因此现在很多系统尝试把两者结合起来,以达到更好的性能。
3、信息检索技术的模型
信息检索模型可形式化地表示成为一个四元组< D, Q, F, R(qi,dj)>,D是一个文档集合,Q是一个查询集合,F是一个对文档和查询建模的框架,R(qi,dj)是一个排序函数,它给查询qi和文档 dj 之间的相关度赋予一个排序值。3.1、布尔模型
所谓布尔检索, 就是采用布尔代数的方法, 用布尔表达式表示用户提问, 通过对文本标识与用户给出的检索式进行逻辑比较来检索文本。设文本集D 中某一文本i, 该文本可表示为:Di =(t1 , t2, ⋯, tm),其中, t1 , t 2, ⋯, t m 为标引词, 用以反映i 的内容。另设用户某一检索式如下:Qj =(t1 ∧ t 2)∨(t3 ∧(t4)).对于该检索式, 系统响应并输出的一组文本应为: 它们都含有标引词t1 和t2 , 或者含有标引词t 3, 但不含有标引词t 4。
布尔检索具有简单、易理解、易实现等优点, 故得到广泛的应用。1967年后, 布尔检索模型正式被大型文献检索系统采用, 并渐成为各种商业性联机检索系统的标准检索模式, 服务信息情报界30多年, 直到现在, 大多数商用检索系统仍采用布尔检索。尽管布尔检索有着种种的优点, 但是它的缺点仍然是明显的, 它存在的主要缺陷有以下几点。
(1)布尔逻辑式的构造不易全面反映用户的需求。用标引词的简单组配不能完全反映用户的实际需要, 用户需要那一方面内容的文本, 需要到多大程度, 这是检索式无法表达清楚的, 如对上述检索式, t1 和t2 , 究竟用户希望能得到更多地反映t1 内容的文本还是反映t2 内容的文本, 传统的布尔检索无法 5 解决此问题。
(2)匹配标准存在某些不合理的地方。例如, 在响应某个用“∧”连接的检索时, 系统把只含有其中一个或数个但非全部检索词的文本看作与那些根本不含有其中一个检索词的文本一样差, 同样加以排除;另一方面, 用响应某个用“∨”连接的检索式时, 系统都不能把含有所有这些检索词的文本看作比那些只含有其中一个检索词的文本更好一些。
(3)检索结果不能按照用户定义的重要性排序输出。系统检索输出的文本中, 排在第一位的文本不一定是文本集中最适合用户需要的文本, 用户只能从头到尾浏览才能知道输出文本中那些更适合自己的需要。
针对于标准的布尔模型中文献表达形式过于简单、检索条件过于严格而出现的问题,人们对其采取了扩充和修改,提出了扩展的布尔模型。如Salton 于1983年提出的一种所谓的扩展布尔检索模型, 它是将向量检索模型与布尔检索模型融为一体, 并克服了传统希尔模型的一些缺陷, 下面我们用矢量的方法来讨论布尔检索。设文本集中每篇文本仅由两个标引词t1 和t2 标引, 并且t1、t2允许赋以权值, 其权值范围为[ 0, 1] , 权值越接近1, 说明该词越能反映文本的内容, 反之, 越不能反映文本的内容, 在Salton 模型中, 上述情形用平面坐标系上某点代表某一文本和用户给出的检索式, 如图:
图中的横、纵坐标用t1、t2 表示, 其中A(0, 1)表示词t1 权值为0, 词t 2 权值为1 的文本, B(1, 0)表示词t 1权值为1, 词t 2 权值为0 的文本, C(1, 1)表示词t
1、t 2 的权值均为1 的文本, 文本集D 中凡是可以用t
1、t 2 标引的文本可以用四边形OACB 中某一点表示, 同样, 用户给出检索式后, 也可用四边形OACB 中某一点表示。
下面我们来看看Salton 模型中是如何构造相似度计算式的。对于由t1 和t2 构成的检索式q = t1 ∨ t2 , 在图1中只有A、B、C 3点所代表的各文本才是最理想的文本, 对于某一文本D 来说, 当D 点离A、B、C 3点越接近时说明相似度越大,或者说,当D点离O点越远时,相似度越大。因而D与O的距离
DO =(d10)(d20)22 =
d1d222 可以作为我们衡量一文本与查询q 的相关程度的一个尺度, 显然0 ≤ 2 , 为了使相似度控制在0 与1 之间, 将相似度定义为:
d1d222DO ≤
sim(D, Q(t1 ∨ t2))= 与C 的距离
DO(1)对于由t1 和t 2 构成的查询q = t1 ∧ t 2, 只有C 点才是最理想的文本, 用D =(1d1)(1d2)22
作为我们衡量一文本与查询q 的相关程度的一个尺度, 于是, 把相似度定义为:
(1d1)(1d2)22sim(D, Q(t1 ∧ t2))= 1-(2)(1)、(2)式还可推广到对检索标引词进行加权的情形, 设检索标引词t1、t2 的权值分别为a, b,0 ≤ a, b ≤ 1, 则(1)式、(2)式可进一步推广为:
a(1d1)b(1d2)2222sim(d, Q(t1 , a)∨(t2, b))= 1
在文本信息检索中, 布尔检索不仅具有简单、易理解等特点, 而且易于在计算机中加以实现, 是一种最为常用的检索方法。扩展的布尔模索模型——Salton 模型克服了传统布尔模型的一些缺陷, 更符合了用户的需要。
3.2、向量空间模型 向量空间模型是由Salton及其学生们在六十年代末到七十年代初提出并发展起来的。这一模型将给定的文本(文章、查询或文章中的一段等)转换成一个维数很高,由一系列关键词组成的向量。模型并没有规定关键词如何定义,但是一般来说,关键词可以是字,词或者短语。假设我们用“词”作为Term,那么在词典中的每一个词,都定义向量空间中的一维。如果一篇文档包含这个词,那么表示这个文档的向量在这个词所定义的维度上应该拥有一个非0值。这个模型最大特点是可以方便地计算出任意两个向量的近似程度,即向量所对应的文本间的相似性。用信息检索的术语来说,如果两个向量是相近的,则其对应的文本是语义相关的。将所有文献和查询以向量形式表示,则针对特定的查询向量,比较它与所有文献向量的相似度,并依相似度将文献降序排列,这便是现代信息检索系统中常用的方法。Salton及其学生们还根据向量空间模型实现了Smart系统。该系统在过去的30多年中,对信息检索的研究有非常重要的影响。信息检索的许多理论和技术(如自动索引、加权技术、相关反馈、文献聚类等)都是在Smart上首先实现或测试的。
假设表示文档向量,而
表示查询向量,文档与查询的相关性可以用余弦距离表示如下:
如果我们用进行归一化,即令和表示和中的第i维的值,并且对每个文档矢量,那么上式有可以表示为
在此,究竟如何取值是一个重要的问题,其取值一般被称为关键词i在文档D中的权重。
目前,对关键词权重的确定方法一般都需要获取一些关于关键词的统计量,而后根据这些统计量,应用某种认为规定的计算公式来得到权重。最常用的统计量包括:
tf,Term Frequency的缩写,表示某个关键词在某个文档中出现的频率。
qtf,Query Term Frequency的缩写。表示查询中某关键词的出现频率。
N,集合中的文档总数 df,Document Frequency的缩写,表示文档集合中,出现某个关键词的文档个数。
idf,Inversed Document Frequency的缩写。dl,文档长度 adl,平均文档长度
权重的计算:
在向量空间模型下,构造关键词权重计算公式有三个基本原则:
1.如果一个关键词在某个文档中出现次数越多,那么这个词应该被认为越重要。
2.如果一个关键词在越多的文档中出现,那么这个词区分文档的作用就越低,于是其重要性也应当相应降低。
3.一篇文档越长,那么其出现某个关键词的次数可能越高,而每个关键词对这个文档的区分作用也越低,相应的应该对这些关键词予以一定的折扣。早期的权重往往直接采用tf,但是显然这种权重并没有考虑上述第二条原则,因此在大规模系统中是不适用的。目前,常用的关键词权重计算公式大多基于tf和df进行构建,同时,一些较为复杂的计算公式也考虑了文档长度。现简要列举如下:
TF-IDF得分。严格地说,TF/IDF得分并不特指某个计算公式,而是一个计算公式集合。其中TF与IDF都可以进行各种变换,究竟何种变换较能符合实际需求,需要由实验和应用来验证。常见的变换方法有:
其中,最后一个公式,即:
被大量系统证明是最有效的。
此外,较为常用的关键词权重算法还包括Okapi权重和Pivoted Normalization 权重(PNW)。这些公式综合考虑了查询和文档中的词频,以及文档的长度。Okapi权重需要预设三个参数:
k1,在1.0-2.0之间 b,通常为0.75 k3,在0-1000之间 而PNW则需要预设一个参数s,大部分情况下取0.20。
在经典模型中,假设索引项是独立的,或者说是正交的。这个假设极大地简化了索引项权值的计算过程,尽管这一假设有时不符合自然语言的实际情况,但是在这个假设下,计算权值的过程简单快捷,因而在目前很多实用的信息检索模型中仍被广泛采用。向量空间模型中索引项权重的算法提高了检索的性能,改进了检索效果,同时采用了部分匹配的策略和一定的相似度计算方法,使得模型可以根据结果文档与检索项的相似度进行排序,检索出与用户查询要求接近的文档,从而有效地控制返回文档的数量和质量,检索的结果文档集更接近用户的检索需求。但是事实上,在自然语言中,有些索引项是相互关联的,比如当在一个文档中看到“计算机”时,就非常有可能同时看到“科学”;而当在一个文档中看到“土豆”时,看到“计算机”的可能性就很小。再比如:“王励勤”“乒乓球”的出现不是独立的。同时,该模型丢失了句法信息(如短语结构、词的顺序等),而权重的计算需要利用整个文档集合的信息。
3.3、概率模型
由于信息检索中文本信息的相关判断的不确定性和查询信息表示的模糊性,导致了人们用概率的方法解决这方面的问题。Maron和Kuhns在1960年提出了第一概率检索模型;1976年Robertson和Sparck Jones等在此基础上进行改进提出了第二概率检索模型;之后,Turtle、Fuhr和Roberston又提出了统一化模型,即第三概率检索模型,提高了文档的排序精度。
信息检索的概率模型基于概率排序原则:对于给定的用户查询Q,对所有文本计算概率,并从大到小进行排序,概率公式为:P(R|D,Q)。其中,R表示文本D与用户查询Q相关。另外,用R’表示文本D与用户查询Q不相关,有:
P(R|D,Q)+ P(R’|D,Q)= 1,也就是用二值形式判断相关性。把文本用特征向量表示:x =(x1,x2,,xn)。其中,N为特征项的个数,xi为0或者1,分别表示特征相i在文本中出现或不出现。
在信息检索中,估计参数是困难的,一般地并不直接地计算P,而是把计算P(R|di,qk)换为计算P(R|x,qk),这样处理略去了公式中与文本无关的特征项,计算的结果可能与实际不符。为了容易计算,现在假设包括相同特征项的文本,经过计算后,它们的可能性是相同的。将所有文本按相关概率P进行排序,等价于所有文本按特征向量排序。一个文本D的概率相关性的计算为: