毕业设计(论文)排版样式

时间:2019-05-13 00:14:47下载本文作者:会员上传
简介:写写帮文库小编为你整理了多篇相关的《毕业设计(论文)排版样式》,但愿对你工作学习有帮助,当然你在写写帮文库还可以找到更多《毕业设计(论文)排版样式》。

第一篇:毕业设计(论文)排版样式

沈阳工程学院毕业设计

下列各排版样式中的空行指采用小4号汉字、单倍行距时的空行。文字的字体和字号以排版样式中的为准。

摘要与Abstract排版样式:(空1行)

摘 要(新起一页)

(空1行)

××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××……

(空1行)

关键词 电力系统,×××××,×××××,×××××(关键词3-5个)

(空1行)

Abstract(新起一页)

(空1行)

In this paper ××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××……

(空1行)

Key Words electric power system, ×××××, ×××××

沈阳工程学院毕业设计

正文排版样式:(空1行)××××(各章均新起一页、居中)

(空1行)

2.1 ××××

(空1行)

×××……×××××××××××××××××××××××××××××× ×××……××××××××××××××××××××××××××××××

(空1行)

2.2 ××××

(空1行)

2.2.1 ××××××

(空1行)

×××××××××××××××××××××××××××××××××××××××××××××……

(空1行)

2.2.2 ××××××

(空1行)

××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××……

2.2.2.1 ××××××

(1)××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××……

∶ ∶(空1行)

2.5 ××××

(空1行)

×××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××……

(空1行)

结 论(新起一页)

(空1行)

×××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××……

第二篇:安徽工业大学工商学院毕业设计(论文)用纸样式

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊安徽工业大学工商学院毕业设计(论文)说明书

共页第1页

第三篇:计算机信息管理专科毕业设计论文框架样式

摘要

本文介绍了数据库管理系统的基本设计方法,详细阐述了整个应用系统的设计思路,并对各部分设计周期进行了详尽的分析,最终达成了一个完整的设计方案;在文章的最后,还根据数据库系统的调试结果,提出了可以进一步改进的部分,以便在投入实际应用后系统可以更加稳定可靠的工作。

本文的数据库系统是一个图书管理系统,包括管理员界面和借阅者界面,分别有添加、删除、查阅等功能。

【关键词】图书管理系统图书管理系统的实现数据库系统

I

目录

摘要及关键词 ………………………………………………………………………Ⅰ目录 …………………………………………………………………………………Ⅱ

第一章、概述……………………………………………………………………… 11.1 数据库及其应用……………………………………………………1

1.2 数据库系统…………………………………………………………1

1.3 数据库系统简介……………………………………………………1

第二章、数据库系统设计 ………………………………………………………… 2

2.1数据库设计概述…………………………………………………… 2

2.2数据库设计周期……………………………………………………2

第三章、图书管理系统具体设计 ………………………………………………… 3

3.1 图书管理系统总体规划……………………………………………3

3.2需求分析……………………………………………………………3

3.3概念设计……………………………………………………………5

3.4逻辑设计……………………………………………………………6

3.5物理设计……………………………………………………………7

第四章、数据库实现 ……………………………………………………………… 8

第五章、结束语…………………………………………………………………… 31 参考文献…………………………………………………………………………… 32

(正文):

参考文献:

第四篇:毕业设计(论文)

四川交通学院毕业设计(论文)目录1 VI设计综合概述....................11.1 VI的定义.......................1

1.2 VI基础要素系统设计表....................1

1.3 VI应用要素系统设计表.....................1

1.4 VI设计的基本原则.........................设计软件介绍.........................32.1设计软件介绍.....................43 设计基本的思路......................53.1 牛牛啤酒有限公司VI设计基本思路....................5

3.2 牛牛啤酒有限公司VI设计的详细介绍................5啤酒行业的现状....................17中国啤酒市场的现状..........................20

5.1 总述.............................20

5.2 分述...............................20外国啤酒对于我国啤酒市场的影响.....................23

参考文献...........................26

致谢............................27

四川交通学院毕业设计(论文)VI设计综合概述

1.1 VI的定义

VI即(Visual Identity),通译为视觉识别,是CIS系统中最具传播力和感染力的层面。人们所感知的外部信息,有83%是通过视觉通道到达人们心智的。也就是说,视觉是人们接受外部信息的最重要和最主要的通道。企业形象的视觉识别,即是将CI的非可视内容转化为静态的视觉识别符号,以无比丰富的多样的应用形式,在最为广泛的层面上,进行最直接的传播。设计科学、实施有利的视觉识别,是传播企业经营理念、建立企业知名度、塑造企业形象的快速便捷之途。

1.2 VI基础要素系统设计表

1.企业标识

2.产品商标

3.企业标志释义

4.标志制图法

5.标志的使用规范

6.标志的色彩规范

8.中文标准字

9.英文标准字

10.中文指定印刷字体

11.英文指定印刷字体

12.企业辅助色

13企业象征图案

1.3 VI应用要素系统设计表

1.待客用项目类:洽谈会、会客厅、会议厅家具、烟灰缸、坐垫、招待餐饮具、客户用文具。商品及包装类商品包装设计、包装纸、包装箱、包装盒、各种包装用的徽章、封套、封缄、粘贴商标、胶带、标签等。

2.符号类

公司名称招牌、建筑物外观、招牌、室外照明、霓虹灯、出入口指示、橱窗展示、活 动式招牌、路标、纪念性建筑、各种标示牌、经销商用各类业务招牌、标示。

3.帐票类

订单、货单、帐单、委托单、各类帐单、申请表、通知书、确认信、契约书、支票、收据等。

4.文具类

专用信笺、便条、信封、文件纸、文件袋、介绍信等。

5.服装类

男女职工工作服、制服、工作帽、领带、领结、手帕、领带别针、伞、手提袋

等。

6.印刷类

股票、报告书、公司一览表、调查报告、自办报刊、公司简历、概况、奖状等。

7.大众传播类

报纸广告、杂志广告、电视广告、广播广告、邮寄广告等。

8.SP类

产品说明书、广告传播单、展示会布置、公关杂志、促销宣传物、视听资料、季节问候卡、明信片、各种POP类。

9.交通类

业务用车、宣传广告用车、货车、员工通勤车等外观识别。

10.证件类

徽章、臂章、名片、识别证、公司旗帜。

1.4 VI设计的基本原则

VI的设计不是机械的符号操作,而是以MI为内涵的生动表述。所以,VI设计应多角度、全方位地反映企业的经营理念。VI设计不是设计人员的异想天开而是要求具有较强的可实施性。如果在实施性上过于麻烦,或因成本昂贵而影响实施,再优秀的VI

也会由于难以落实而成为空中楼阁、纸上谈兵。

1.风格的统一性原则

2.强化视觉冲击的原则

3.强调人性化的原则

4.增强民族个性与尊重民族风俗的原则

5.可实施性原则

6.符合审美规律的原则

7.严格管理的原则

VI系统千头万绪,因此,在积年累月的实施过程中,要充分注意各实施部门或人员的随意性,严格按照VI手册的规定执行,保证不走样。企业视觉识别系统中的基本要素与应用要素的内容、形式,需要根据企业经营的内容与服务的性质来决定。其内容、项目的多少,一

般说来,是与企业识别系统开发设计工程的大小和实施程度而成正比;其风格与特色也与企业产品、经营特色及企业识别系统在应用中的展开程度而不同。另外,企业在实行视觉识别系统时,还应考虑到企业费用和时间的问题,逐步改善企业的设计并使之统一化。因此,视觉识别系统的实施、设计,还应该根据企业识别系统逐步实行,只有这样,才能真正发挥视觉识别的功效。为了达成企业形象对外传播的一致性与一贯性,应该运用统一设计和统一大众传播,用完美的视觉一体化设计,将信息与认识个性化、明晰化、有序化,把各种形式传播媒体上的形象统一,创造能储存与传播的统一的企业理念与视觉形象,这样能集中与强化企业形象,使信息传播更为迅速有效,给社会大众留下强烈的印象与影响力对企业识别的各种要素,从企业理念到视觉要素予以标准化,采同一的设计,对外传播均采同一的模式,并坚持长期一贯的运用,不轻易进行变动。要设计的简化:对设计内容进行提炼,使组织系统在满足推广需要前提下尽可能条理清晰,层次简明,优化系统结构。如VI系统中,构成元素的组合结构必须化繁为简,有利于标准的施行。设计软件介绍

2.1设计软件介绍

本组设计主要用了两种平面设计软件,是PhotoshopCS ILLUSTRATOR CS 这是款很经典的平面设计软件,在介绍我们的具体设计之前,首先向大家大致介绍一下它:

PhotoshopCS ILLUSTRATOR CS是Adobe公司开发的,它是一款集图形设计、文字编辑和高品质输出于一体的矢量图形软件,可以保证所绘制的图形任意地放大或是缩小而不影响其质量。它被广泛地应用于海报、包装和排版等平面广告设计、网页图形制作和艺术效果的处理等诸多领域。该软件具有图形绘制、图形优化以及艺术处理等多方面的超强功能,能充分满足设计者的实际工作需要。设计基本的思路

3.1 牛牛啤酒有限公司

VI设计基本思路我们这次是为一家啤酒有限公司做VI设计。首先,我们调查了各类啤酒公司的各种广告、宣传等涉及到VI方面的案例,然后又在网上搜索了大量关于啤酒行业VI设计中所牵涉到的知识、需求;在调查中积累了一定的经验后,我们开始对这家公司的性质进行分析:这是一家以突出青春和活力为主的啤酒公司,而且根据现在的市场需要,又往往都会提到“价格”这个概念,那么,我们就决定围绕着“青春”、“活力”“环保”、“价格中等”这四个中心来思考设计方案;经过讨论,然后考虑到我们的消费对象主要是中下水平家庭,基本这种情况,所以我们基本确定了标志的设计方向:青春、活力、环保、价格中等。我分别设计了各种标志,然后放在一块进行比较、讨论,最后,经过反复讨论、修改,最后确定了“beer jjan”企业标志确定下来以后,我们就开始了整个VIS的基础系统和应用系统部分的定义和设计,以下就是我们最后设计出来的样稿。

第五篇:毕业设计论文

一、综述..........................................................................................................................2

一、信息检索技术.....................................................................................................2

1、信息检索技术的发展.....................................................................................2

2、信息检索技术的简介.....................................................................................3

3、信息检索技术的模型.....................................................................................5

一、综述

一、信息检索技术

由于以因特网为主体的信息高速公路的不断普及和发展,信息技术已经渗透到我们社会生活的各个角落,正以前所未有的速度和能力改变着我们的生活的工作方式,我们真正处于一个“信息爆炸”的时代。一方面,因特网上面蕴含的海量信息远远超过人们的想象;另一方面,面对信息的汪洋大海,人们往往感到束手无策,无所适从,出现所谓的“信息过载”和“信息迷向”的现象。于是一个极富挑战性的课题:如何帮助人们有效地选择和利用所感兴趣的信息,尽量剔除不相关的信息。同时保证人们在信息选择方面的个人隐私权利?成为学术界和企业界所十分关注的焦点。

随着在线文本的日益增多,其中包括新闻、电子杂志、电子邮件、技术报告、文档以及网上图书馆。如此众多的信息,仅仅依靠大脑来收集和整理所需要的信息显然是不够的。所以,自动收集和整理所需要的各类信息成为信息产业面临新的挑战和新的发展契机。根据不同的应用背景和不同的使用目的,信息处理技术已经演化信息检索、信息过滤、信息分类、问题回答等方向。

由于目前网上信息的表现形式大多数为文本,而且文本也是广大用户所习惯接收的形式。因此我们在下面主要讨论中文文本检索和相关的评价方案。

1、信息检索技术的发展

信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程。

信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。1945年,Vannevar Bush的论文《就像我们可能会想的„„》第一次提出了设计自动的,在大规模的存储数据中进行查找的机器的构想。这被认为是现在信息检索技术的开山之作。进入50年代后,研究者们开始为逐步的实现这些设想而努力。在50年代中期,在利用电脑对文本数据进行检索的研究上,研究者取得了一些成果。其中最有代表性的是Luhn在IBM公司的工作,他提出了利用词对文档构建索引并利用检索与文档中词的匹配程度进行检索 的方法,这种方法就是目前常用的倒排文档技术的雏形。

在著名的国际文本检索会议(Text Retrieval Conference,TREC)上,有两个最重 要的研究方向:Routing Task和Ad Hoc Task。其热点问题包括从早期的文本检索、文本过滤到当前的问题回答。

文本信息检索就是根据用户提出的具体查询,在大量相对稳定的文本源中,检索出符合用户查询条件的文本,并按其满足查询的程度排序列出。文本检索技术的发展已经有四十多年的历史,取得了很大的成就,产生了大批实用的检索系统,积累了很多成熟的技术。

1992年,NIST(美国国家标准和技术研究所)与DARPA联合赞助了每年一次的TREC,对于文本检索和文本过滤和问题回答等专题倾注了极大的热忱。

目前随着因特网的迅速发展,需求的不断增加,文本检索以及相关技术方面取得了长足的进展,成为信息产业新的增长点。

2、信息检索技术的简介

信息检索系统流程大致如下图所示:

总体上,系统可分为四个部分:数据预处理,索引生成,查询处理,检索。下面我们分别对各个部分采用的技术加以介绍。

1.数据预处理

目前检索系统的主要数据来源是Web,格式包括网页、WORD 文档、PDF 文档等,这些格式的数据除了正文内容之外,还有大量的标记信息,因此从多种格式的数据中提取正文和其他所需的信息就成为数据预处理的主要任务。此外,众所周知,中文字符存在多种编码,比如GB2312、BIG5、Unicode(CJK 区),而原始数据集往往包含多种编码,因此要正确地检索到结果必须进行统一编码转换。研究者们对预处理部分要提取哪些信息并没有共识,这与后续处理所需的信息密切相关,一般来说,正文、锚文本和链接地址都是要提取出来的。

2.索引生成 对原始数据建索引是为了快速定位查询词所在的位置,为了达到这个目的,索引的结构非常关键。目前主流的方法是以词为单位构造倒排文档表,其结构大致如下图所示:

每个文档都由一串词组成,而用户输入的查询条件通常是若干关键词,因此如果预先记录这些词出现的位置,那么只要在索引文件中找到这些词,也就找到了包含它们的文档。为了进一步提高查询的速度,在组织索引时还可以采用一些更复杂的方法,比如B树、TRIE 树、哈希表等。这个阶段还需要对预处理之后的文档进行词法分析,这是因为很多语言的文本都不宜直接把正文中的字符串用于建立索引。例如,中文里的词与词之间不存在分隔符,因此必须先进行分词,而英文中的词存在很多变形,比如“compute”就存在“computes”、“computing”、“computed”等多种变形,应先进行词根还原。此外,有些词虽然出现频率很高,但对于查询没有任何帮助,比如“的”、“了”等,就无需放入索引,为此需要预备一个停用词表(stop word list)对这类词进行过滤。

3.查询处理

用户输入的查询条件可以有多种形式,包括关键词、布尔表达式、自然语言形式的描述语句甚至是文本,但如果把这些输入仅当作关键词去检索,显然不能准确把握用户的真实信息需求。很多系统采用查询扩展来克服这一问题。各种语言中都会存在很多同义词,比如查“计算机”的时候,包含“电脑”的结果也应一并返回,这种情况通常会采用查词典的方法解决。但完全基于词典所能提供的信息有限,而且很多时候并不适宜简单地以同义词替换方法进行扩展,因此很多研究者还采用相关反馈、关联矩阵等方法对查询条件进行深入挖掘。

4.检索

最简单的检索系统只需要按照查询词之间的逻辑关系返回相应的文档就可以了,但这种做法显然不能表达结果与查询之间的深层关系。为了把最符合用户需求的结果显示在前面,还需要利用各种信息对结果进行重排序。目前有两大主流技术用于分析结果和查询的相关性:链接分析和基于内容的计算。许多研究者 发现,WWW 上超链结构是个非常丰富和重要的资源,如果能够充分利用的话,可以极大地提高检索结果的质量。基于这种链接分析的思想,Sergey Brin 和Larry Page 在1998 年提出了PageRank 算法,同年J.Kleinberg 提出了HITS 算法,其它一些学者也相继提出了另外的链接分析算法,如SALSA,PHITS,Bayesian等算法。这些算法有的已经在实际的系统中实现和使用,并且取得了良好的效果。而基于内容的计算则沿用传统的文本分类方法,多采用向量空间模型、概率模型等方法来逐一计算用户查询和结果的相似度(相关性)。两者各有优缺点,而且恰好互补。链接分析充分利用了Web 上丰富的链接结构信息,但它很少考虑网页本身的内容,而直观上看,基于内容的计算则较为深入地揭示了查询和结果之间的语义关系,但忽略了不同网页之间的指向关系,因此现在很多系统尝试把两者结合起来,以达到更好的性能。

3、信息检索技术的模型

信息检索模型可形式化地表示成为一个四元组< D, Q, F, R(qi,dj)>,D是一个文档集合,Q是一个查询集合,F是一个对文档和查询建模的框架,R(qi,dj)是一个排序函数,它给查询qi和文档 dj 之间的相关度赋予一个排序值。3.1、布尔模型

所谓布尔检索, 就是采用布尔代数的方法, 用布尔表达式表示用户提问, 通过对文本标识与用户给出的检索式进行逻辑比较来检索文本。设文本集D 中某一文本i, 该文本可表示为:Di =(t1 , t2, ⋯, tm),其中, t1 , t 2, ⋯, t m 为标引词, 用以反映i 的内容。另设用户某一检索式如下:Qj =(t1 ∧ t 2)∨(t3 ∧(t4)).对于该检索式, 系统响应并输出的一组文本应为: 它们都含有标引词t1 和t2 , 或者含有标引词t 3, 但不含有标引词t 4。

布尔检索具有简单、易理解、易实现等优点, 故得到广泛的应用。1967年后, 布尔检索模型正式被大型文献检索系统采用, 并渐成为各种商业性联机检索系统的标准检索模式, 服务信息情报界30多年, 直到现在, 大多数商用检索系统仍采用布尔检索。尽管布尔检索有着种种的优点, 但是它的缺点仍然是明显的, 它存在的主要缺陷有以下几点。

(1)布尔逻辑式的构造不易全面反映用户的需求。用标引词的简单组配不能完全反映用户的实际需要, 用户需要那一方面内容的文本, 需要到多大程度, 这是检索式无法表达清楚的, 如对上述检索式, t1 和t2 , 究竟用户希望能得到更多地反映t1 内容的文本还是反映t2 内容的文本, 传统的布尔检索无法 5 解决此问题。

(2)匹配标准存在某些不合理的地方。例如, 在响应某个用“∧”连接的检索时, 系统把只含有其中一个或数个但非全部检索词的文本看作与那些根本不含有其中一个检索词的文本一样差, 同样加以排除;另一方面, 用响应某个用“∨”连接的检索式时, 系统都不能把含有所有这些检索词的文本看作比那些只含有其中一个检索词的文本更好一些。

(3)检索结果不能按照用户定义的重要性排序输出。系统检索输出的文本中, 排在第一位的文本不一定是文本集中最适合用户需要的文本, 用户只能从头到尾浏览才能知道输出文本中那些更适合自己的需要。

针对于标准的布尔模型中文献表达形式过于简单、检索条件过于严格而出现的问题,人们对其采取了扩充和修改,提出了扩展的布尔模型。如Salton 于1983年提出的一种所谓的扩展布尔检索模型, 它是将向量检索模型与布尔检索模型融为一体, 并克服了传统希尔模型的一些缺陷, 下面我们用矢量的方法来讨论布尔检索。设文本集中每篇文本仅由两个标引词t1 和t2 标引, 并且t1、t2允许赋以权值, 其权值范围为[ 0, 1] , 权值越接近1, 说明该词越能反映文本的内容, 反之, 越不能反映文本的内容, 在Salton 模型中, 上述情形用平面坐标系上某点代表某一文本和用户给出的检索式, 如图:

图中的横、纵坐标用t1、t2 表示, 其中A(0, 1)表示词t1 权值为0, 词t 2 权值为1 的文本, B(1, 0)表示词t 1权值为1, 词t 2 权值为0 的文本, C(1, 1)表示词t

1、t 2 的权值均为1 的文本, 文本集D 中凡是可以用t

1、t 2 标引的文本可以用四边形OACB 中某一点表示, 同样, 用户给出检索式后, 也可用四边形OACB 中某一点表示。

下面我们来看看Salton 模型中是如何构造相似度计算式的。对于由t1 和t2 构成的检索式q = t1 ∨ t2 , 在图1中只有A、B、C 3点所代表的各文本才是最理想的文本, 对于某一文本D 来说, 当D 点离A、B、C 3点越接近时说明相似度越大,或者说,当D点离O点越远时,相似度越大。因而D与O的距离

DO =(d10)(d20)22 =

d1d222 可以作为我们衡量一文本与查询q 的相关程度的一个尺度, 显然0 ≤ 2 , 为了使相似度控制在0 与1 之间, 将相似度定义为:

d1d222DO ≤

sim(D, Q(t1 ∨ t2))= 与C 的距离

DO(1)对于由t1 和t 2 构成的查询q = t1 ∧ t 2, 只有C 点才是最理想的文本, 用D =(1d1)(1d2)22

作为我们衡量一文本与查询q 的相关程度的一个尺度, 于是, 把相似度定义为:

(1d1)(1d2)22sim(D, Q(t1 ∧ t2))= 1-(2)(1)、(2)式还可推广到对检索标引词进行加权的情形, 设检索标引词t1、t2 的权值分别为a, b,0 ≤ a, b ≤ 1, 则(1)式、(2)式可进一步推广为:

a(1d1)b(1d2)2222sim(d, Q(t1 , a)∨(t2, b))= 1

在文本信息检索中, 布尔检索不仅具有简单、易理解等特点, 而且易于在计算机中加以实现, 是一种最为常用的检索方法。扩展的布尔模索模型——Salton 模型克服了传统布尔模型的一些缺陷, 更符合了用户的需要。

3.2、向量空间模型 向量空间模型是由Salton及其学生们在六十年代末到七十年代初提出并发展起来的。这一模型将给定的文本(文章、查询或文章中的一段等)转换成一个维数很高,由一系列关键词组成的向量。模型并没有规定关键词如何定义,但是一般来说,关键词可以是字,词或者短语。假设我们用“词”作为Term,那么在词典中的每一个词,都定义向量空间中的一维。如果一篇文档包含这个词,那么表示这个文档的向量在这个词所定义的维度上应该拥有一个非0值。这个模型最大特点是可以方便地计算出任意两个向量的近似程度,即向量所对应的文本间的相似性。用信息检索的术语来说,如果两个向量是相近的,则其对应的文本是语义相关的。将所有文献和查询以向量形式表示,则针对特定的查询向量,比较它与所有文献向量的相似度,并依相似度将文献降序排列,这便是现代信息检索系统中常用的方法。Salton及其学生们还根据向量空间模型实现了Smart系统。该系统在过去的30多年中,对信息检索的研究有非常重要的影响。信息检索的许多理论和技术(如自动索引、加权技术、相关反馈、文献聚类等)都是在Smart上首先实现或测试的。

假设表示文档向量,而

表示查询向量,文档与查询的相关性可以用余弦距离表示如下:

如果我们用进行归一化,即令和表示和中的第i维的值,并且对每个文档矢量,那么上式有可以表示为

在此,究竟如何取值是一个重要的问题,其取值一般被称为关键词i在文档D中的权重。

目前,对关键词权重的确定方法一般都需要获取一些关于关键词的统计量,而后根据这些统计量,应用某种认为规定的计算公式来得到权重。最常用的统计量包括:

  

tf,Term Frequency的缩写,表示某个关键词在某个文档中出现的频率。

qtf,Query Term Frequency的缩写。表示查询中某关键词的出现频率。

N,集合中的文档总数  df,Document Frequency的缩写,表示文档集合中,出现某个关键词的文档个数。

   idf,Inversed Document Frequency的缩写。dl,文档长度 adl,平均文档长度

权重的计算:

在向量空间模型下,构造关键词权重计算公式有三个基本原则:

1.如果一个关键词在某个文档中出现次数越多,那么这个词应该被认为越重要。

2.如果一个关键词在越多的文档中出现,那么这个词区分文档的作用就越低,于是其重要性也应当相应降低。

3.一篇文档越长,那么其出现某个关键词的次数可能越高,而每个关键词对这个文档的区分作用也越低,相应的应该对这些关键词予以一定的折扣。早期的权重往往直接采用tf,但是显然这种权重并没有考虑上述第二条原则,因此在大规模系统中是不适用的。目前,常用的关键词权重计算公式大多基于tf和df进行构建,同时,一些较为复杂的计算公式也考虑了文档长度。现简要列举如下:

TF-IDF得分。严格地说,TF/IDF得分并不特指某个计算公式,而是一个计算公式集合。其中TF与IDF都可以进行各种变换,究竟何种变换较能符合实际需求,需要由实验和应用来验证。常见的变换方法有:

其中,最后一个公式,即:

被大量系统证明是最有效的。

此外,较为常用的关键词权重算法还包括Okapi权重和Pivoted Normalization 权重(PNW)。这些公式综合考虑了查询和文档中的词频,以及文档的长度。Okapi权重需要预设三个参数:

   k1,在1.0-2.0之间 b,通常为0.75 k3,在0-1000之间 而PNW则需要预设一个参数s,大部分情况下取0.20。

在经典模型中,假设索引项是独立的,或者说是正交的。这个假设极大地简化了索引项权值的计算过程,尽管这一假设有时不符合自然语言的实际情况,但是在这个假设下,计算权值的过程简单快捷,因而在目前很多实用的信息检索模型中仍被广泛采用。向量空间模型中索引项权重的算法提高了检索的性能,改进了检索效果,同时采用了部分匹配的策略和一定的相似度计算方法,使得模型可以根据结果文档与检索项的相似度进行排序,检索出与用户查询要求接近的文档,从而有效地控制返回文档的数量和质量,检索的结果文档集更接近用户的检索需求。但是事实上,在自然语言中,有些索引项是相互关联的,比如当在一个文档中看到“计算机”时,就非常有可能同时看到“科学”;而当在一个文档中看到“土豆”时,看到“计算机”的可能性就很小。再比如:“王励勤”“乒乓球”的出现不是独立的。同时,该模型丢失了句法信息(如短语结构、词的顺序等),而权重的计算需要利用整个文档集合的信息。

3.3、概率模型

由于信息检索中文本信息的相关判断的不确定性和查询信息表示的模糊性,导致了人们用概率的方法解决这方面的问题。Maron和Kuhns在1960年提出了第一概率检索模型;1976年Robertson和Sparck Jones等在此基础上进行改进提出了第二概率检索模型;之后,Turtle、Fuhr和Roberston又提出了统一化模型,即第三概率检索模型,提高了文档的排序精度。

信息检索的概率模型基于概率排序原则:对于给定的用户查询Q,对所有文本计算概率,并从大到小进行排序,概率公式为:P(R|D,Q)。其中,R表示文本D与用户查询Q相关。另外,用R’表示文本D与用户查询Q不相关,有:

P(R|D,Q)+ P(R’|D,Q)= 1,也就是用二值形式判断相关性。把文本用特征向量表示:x =(x1,x2,,xn)。其中,N为特征项的个数,xi为0或者1,分别表示特征相i在文本中出现或不出现。

在信息检索中,估计参数是困难的,一般地并不直接地计算P,而是把计算P(R|di,qk)换为计算P(R|x,qk),这样处理略去了公式中与文本无关的特征项,计算的结果可能与实际不符。为了容易计算,现在假设包括相同特征项的文本,经过计算后,它们的可能性是相同的。将所有文本按相关概率P进行排序,等价于所有文本按特征向量排序。一个文本D的概率相关性的计算为:

下载毕业设计(论文)排版样式word格式文档
下载毕业设计(论文)排版样式.doc
将本文档下载到自己电脑,方便修改和收藏,请勿使用迅雷等下载。
点此处下载文档

文档为doc格式


声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。

相关范文推荐

    毕业设计论文

    毕业设计(论文) 软弱土地基处理对策研究 刘建军 ( 建筑工程技术 专业 0730610256 湖北 黄石 435003 ) 摘要:为充分利用土地资源,有必要对软弱土地基进行处理。本文探讨了软弱土......

    毕业设计论文2014 (完整格式)

    完整的论文标题写在这里 摘要: 摘要内容三百字左右。简述课题和论文的主要内容,如:课题提出了什么问题,经过了哪些分析,遇到了哪些困难,解决了什么问题,得出了什么样的结论等等。三......

    毕业设计(论文)

    [在此处键入] 日照职业技术学院毕业设计(论文) php许愿墙系统 学生姓名 院 部电子信息科学与工程学院 专 业计算机应用技术 指导老师 日 期 2015-05-19 目录 一 许愿墙简介 ........

    毕业设计论文

    毕业设计论文-利用本量利方法测评企业效益第一章××乳业公司的企业概况1、自然状况哈尔滨××乳业公司位于黑龙江省呼兰县境内,企业的前身为松花江第二乳品厂,始建于1982年,占......

    毕业设计论文

    公司简介 陕西展屹建设工程有限公司,成立于1989年,坐落于历史悠久的美丽古城西安。公司注册资金2000万元。施工总承包2级资质,可承接总造价亿元以上工程。经营范围;建筑工程、......

    毕业设计论文

    重庆大学城市科技学院本科学生毕业设计(论文)正文摘要 室内设计是指为满足一定的建造目的(包括人们对它的使用功能的要求、对它的视觉感受的要求)而进行的准备工作,对现有的建筑......

    论文封面样式

    泰 山 学 院 本科毕业论文(设计)毕业论文(设计)题名(黑体小二) 毕业论文(设计)副题名(黑体三号) ((说明:该横线标明填写位置,填写完毕后删除该线) (注:指导教师姓名、职称一栏中讲师以上职称......

    节能减排倡议书样式最新(推荐五篇)

    节能减排工作是全面贯彻落实创新、协调、绿色、开放、共享发展理念的基本要求,是建设资源节约型、环境友好型社会的迫切需要。下面是小编给大家整理的节能减排倡议书样式,欢迎......