第一篇:刘挺的搜索引擎信息检索实践总结
说实话,这本书看了好几遍都是看不懂的,虽然说这本书是搜索引擎方面的入门书籍,我还是感觉这本书讲得比较详细,里面涉及到的知识点太多了,短期内很难吃透,所以一般平时我都是看这本书的,当然也攻克了许多难点,从梁斌的那本走进搜索引擎书中学到的比较简单的东西或是方法,然后运用到这本书上时感觉顿时明白了许多。下面就一点一点的总结一下自己看过的内容,或是看了过后有些感触的知识点。全书共分为11章,不算多,大部分内容一般的信息检索书中也有讲到,搜索引擎的参考书中也会介绍部分。这本书叫做实践,说明要求我们参与实践的环节,书中介绍了一种开源的搜索引擎,我也上网找过一些,看了相关的代码,不是看的很懂,或是看不懂。
第二篇:信息检索与搜索引擎课程报告
《信息检索搜索引擎技术》
期末考试报告
学 期:2016-2017学年第一学期
任课教师:毛存礼 专业年级: 计科133 学 号:201310405339、201310405326、201310405330、201310405325 学生姓名:李然、毛子铭、张倩、黄枫
目录
一、系统概述................................................................................................................................3
二、系统需求分析........................................................................................................................3 2.1功能需求分析....................................................................................................................3
三、程序实现................................................................................................................................4 3.1 爬虫的实现.......................................................................................................................4 3.1.1 对网页进行分析...................................................................................................4 3.1.2编写爬虫................................................................................................................5 3.2索引的实现........................................................................................................................7 3.2.1分词的实现............................................................................................................7 3.2.2索引的建立............................................................................................................8 3.2.3检索索引................................................................................................................9 3.3向量空间模型的实现......................................................................................................10 3.3.1向量空间模型概述..............................................................................................10 3.3.2建立向量空间模型..............................................................................................11 3.4利用Lucene打分机制对文档打分................................................................................13
四、测试......................................................................................................................................14
五、心得体会..............................................................................................................................17
一、系统概述
随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找自己所需的信息,就像大海捞针一样,搜索引擎技术恰好解决了这一难题。搜索引擎是指互联网上专门提供检索服务的一类网站,这些站点的服务器通过网络搜索软件或网络登录等方式,将Intenet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库,从而对用户提出的各种检索做出响应,提供用户所需的信息或相关指针。
用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索。本系统基于HTMLUNIT框架,构建爬虫,基于LUCENE框架,构建索引,利用向量空间模型向量化表示文档间的相关性,利用LUCENE给相关文档打分。
二、系统需求分析
2.1功能需求分析
该系统分为四个功能模块:
(1)爬虫模块(2)索引模块(3)向量化表示模块(4)打分模块 具体实现分工如下:
①爬虫模块:该模块采用Htmlunit框架,主要负责爬取网页内容,在本地建立文档库,以便于索引功能模块,将文档库里的文档内容建立成索引。(毛子铭所做)
②索引模块:该模块采用Lucene框架,功能分为两块:一是建立索引,将爬取的内容建立成索引。二是检索索引,即提供给用户检索索引。(张倩所做)
③向量化表示模块:该模块采用向量空间模型,其功能是将查询文本和文档向量化表示,以一种直观的表示方法,展示出文档间的相似度。(李然、黄枫合做)
④打分模块:该模块采用Lucene打分系统,计算查询文本和文档的相似度,并对其文档打分。(李然、黄枫合做)
三、程序实现
3.1 爬虫的实现
3.1.1 对网页进行分析
(1)我们首先,对网页进行分析,昆工新闻上每一则新闻,都有相应的链接,通过点击链接查看相应的新闻。
<1>昆工新闻网页截图
<2>新闻内容截图
(2)在浏览器中,查看新闻网的代码,确定我们所需要的内容并用XPATH表达式定位其内容。
<3>新闻代码截图
3.1.2编写爬虫
(1)在这里,我们使用了HtmlUnit作为我们爬虫的框架,并指定内容,对昆工新闻网进行爬取。
<4> 部分代码展示
(2)编写XPATH表达式,定位所抓取的内容,在爬取过程中,首先要找到新闻的标题,然后,再模拟点击标题的动作,进入新闻页面。
(3)爬取内容,并将其写入文本文档中。
<5> 写入文档
<6>爬取内容
3.2索引的实现
3.2.1分词的实现
(1)在建立索引之前,分词是必不可少的步骤,我们所采用的是基于Lucene框架的IK分词技术分词。
<7> 部分代码展示
(2)对爬取的内容,进行分词测试。
<9>测试
3.2.2索引的建立
(1)索引的建立,我们也是基于Lucene框架建立的倒排索引,分词技术的不同索引的差别也是很大,因此,分词技术的选取一定要合理。
<10> 部分代码展示
3.2.3检索索引
(1)在这里,我们对爬取好的内容,已经建立好了索引,我们分别测试了“宇宙”、“人民”这两关键词进行检索。可以看见,符合“人民”这个关键词的文档有2个,符合“宇宙”这个关键词的文档不存在。
<12> 索引
<13> 索引结果
3.3向量空间模型的实现
3.3.1向量空间模型概述
向量空间模型将文档映射为一个特征向量V(d)=(t1,ω1(d);„;tn, ωn(d)),其中ti(i=1,2, „,n)为一列互不雷同的词条项,ωi(d)为ti在d中的权值, 一般被定义为ti在d中出现频率tfi(d)的函数,即。
在信息检索中常用的词条权值计算方法为 TF-IDF 函数,其中N为所有文档的数目,ni为含有词条ti的文档数目。TF-IDF公式有很多变种,下面是一个常用的TF-IDF公式:
根据TF-IDF公式,文档集中包含某一词条的文档越多,说明它区分文档类别属性的能力越低,其权值越小;另一方面,某一文档中某一词条出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。两文档之间的相似度可以用其对应的向量之间的夹角余弦来表示,即文档di,dj的相似度可以表示为:
进行查询的过程中,先将查询条件Q进行向量化,主要依据布尔模型:当ti在查询条件Q中时,将对应的第i坐标置为1,否则置为0,即:
从而文档d与查询Q的相似度为:
根据文档之间的相似度,结合机器学习的一些算法如神经网络算法,K-近邻算法和贝叶斯分类算法等,可以将文档集分类划分为一些小的文档子集。
在查询过程中,可以计算出每个文档与查询的相似度,进而可以根据相似度的大小,将查询的结果进行排序。
向量空间模型可以实现文档的自动分类和对查询结果的相似度排序,能够有效提高检索效率;它的缺点是相似度的计算量大,当有新文档加入时,则必须重新计算词的权值。
3.3.2建立向量空间模型
(1)将文档的前十五个关键字作为key并将文件的内容作为value存Treemap中
<14> 部分代码展示
(2)求两个词项的并集
<15> 部分代码展示
(3)求两个词项的交集
<15> 部分代码展示
(4)计算文章相似度
<16> 部分代码展示
(5)计算公式:
3.4利用Lucene打分机制对文档打分
(1)在这里,我们是基于Lucene框架,利用其自带打分系统,对查询文本和文档计算它们的相似度,再进行打分。
Lucene打分公式如下:
(2)计算查询文本(TermQuery)与文档的相似度进行打分。
(3)在查找“人民”这两个关键词后出现两个相关文档,它们分别的得分为0.47782254和0.3901917,这说明第一个文档更符合查询
<17> 打分
四、测试
<18> 测试截图1
<19> 测试截图2
<20> 测试截图3
<21> 测试截图4
<22> 测试截图5
<23> 测试截图6
<24> 测试截图7
<25> 测试截图8
<26> 测试截图9
五、心得体会
此次报告要求实现第一个信息检索系统,涉及到多线程编程、排序、网络爬虫等多项技术。多线程是提高效率的一个非常重要的途径,比如计算机并行计算等,本次实验完成了多线程的任务,对网络间通信以及搜索引擎如何实现向海量用户在很短时间内提供服务有了更深刻的认识。通过实验我也认识到了多线程编程的边缘。在下一步的研究学习之中有很大助力。
在此基础之上建立检索,通过对于索引的检索,一方面可以加深对于索引的深层认识,另一方面又可以是我们运用知识与学习知识相结合,可以使我们学的更好,运用的有理可循。
搜索引擎的处理对象是互联网网页,日前网页数量不计其数。所以搜索引擎首先面临的问题就是:如何能够设计出高效的查询以及下载系统。网络爬虫是搜索引擎中很关键也很基础的构建,通过网络爬虫的设计,加深了我对实验原理的理解,同时也加强了自身的实践能力。
第三篇:信息检索总结
1.信息检索方法与步骤
分析检索课题(分析检索课题的主题内容、确定文献类型、确定检索的时间范围、分析已知信息)、选择检索工具、实施检索、策略的修正、检索结果处理 2.检索词的提取
检索课题名称及描述语句不能直接作为检索表达式使用,为了提高查全率和查准率,要对课题名称进行切分、删除、替换、补充、组合等操作。3.信息检索方法
P32 常用法:顺查法、倒查法、抽查法 追溯法——参考文献 分段法 4.检索结果优化:P27 扩检:减少“AND” 或“NOT”、增加“OR”、用截词符、使用上位词、同义词、近义词 缩检:增加“AND” 或“NOT”、减少“OR”、提高检索词专指度、检索词限制在受控词范围内、利用外部特征来限制 5.传统出版模式存在的问题
政府提供基金资助,出版商控制文献的获取 ;图书馆期刊需求没有弹性,投入的经费赶不上期刊价格的增长;商业出版商牟取的利润
6.开放存取是指: 任何地方的任何人在网上可免费获得信息, 而对获取不收取任何费用。7.开放获取一般有两种途径: 金色道路(开放获取期刊):是采用作者付费,读者免费的获取方式; 绿色道路(自动存档发):是作者向传统期刊投稿的同时,将自已的论文以电子档的形式存放在专门的开放获取知识库(知识机构库)中供读者阅读。
8.学术信息的开放存取:开放存取仓储、开放存取期刊、预印本文献 9.教学信息资源的开放存取:国外开放课程、国内开放课程
10.预印本是指科研工作者的研究成果还未在正式出版物上发表,而出于和同行交流目的自愿先在学术会议上或通过互联网发布的科研论文、科技报告等文章。与刊物发表的文章以及网页发布的文章比,预印本具有交流速度快、利于学术争鸣、可靠性高的特点。
11.网上电子报纸信息 P434;网上高等学校信息 P436;网上人物、机构信息资源 P441 12.选择具体一本书关注其图书的基本信息:
1、借阅次数
2、豆瓣评论
3、图书目录
4、馆内流通信息
5、与此书相关的其他图书知识链接
6、是否有书后光盘 13.获取图书:
1、试读:目录可以了解图书具体编排内容
2、纸本:可以本馆借阅,若本馆没有收藏,先可以关注大学城其他成员馆有无收藏
3、电子版:本馆电子书,若无关注是否有文献传递链接
读秀:
1、书的详细信息,包括获取此书各种途径,本馆馆藏纸书、电子书以及由近及远的其他大学收藏情况。如果在获取途径里有“图书馆文献传递”链接,则表示此书读秀已经获得此书版权可以提供电子文献传递。
2、引用图书,揭示图书与图书引证关系 14.图书馆信息资源的获取 利用全文数据库直接获取;根据文献出处项到本单位的图书馆或资料部门去获取(利用馆藏目录);利用联合目录;联系作者获取(要知道作者详细的通迅地址)
15.例:查询北大的王少华老师2000年在首都经济贸易大学学报发表的有关人力资源管理或人才资源管理方面的文献。检索式:作者单位=?北京大学?AND 作者=王少华 AND 刊名=首都经济贸易大学学报 AND 关键词=(人力资源 OR 人才资源)16.例1:2016年发表在期刊,研究小微企业(包括小型企业和微型企业)融资或贷款的文献有哪些?
内容检索词:小微企业、小型企业、微型企业、融资、贷款 内容检索式:(小微企业+小型企业+微型企业)*(融资+贷款)17.Note Express是目前流行的参考文献管理工具软件,其核心功能是帮助读者在整个科研流程中高效利用电子资源:检索并管理得到的文献摘要、全文;在撰写学术论文、学位论文、专著或报告时,可在正文中的指定位置方便地添加文中注释,然后按照不同的期刊,学位论文格式要求自动生成参考文献索引。18.原文的获取-根据文摘查找原文
判断文献来源:期刊论文、会议论文、学位论文、图书
获取原文:1.在本馆馆藏资源查找全文(印刷型、电子型资源)
2.馆际互借/文献传递:向国内外其他单位索取(时间、费用)19.案例:“绿色屋顶”Green Roof 对主概念、相关概念及隐含概念分析后提取关键词,明确概念间逻辑关系
green* roof* OR roof* garden* or vegetative roof* or ecoroof* or roof* plant* or wall plant* 作者分析:发现该领域的高产出研究人员选择导师选择同行审稿专家-选择潜在的合作者 机构分析:发现该领域高产出的大学及研究机构 有利于机构间的合作 发现深造的研究机构 后续进展:可阅读检索得到的文献列表;
最新进展:可利用“排序方式”-出版时间排序; 也可创建跟踪定期发送更新报告:“创建跟踪服务”或“检索历史”中创建跟踪 20.获取全文的建议: 在WOS平台精炼入口中,”开放获取”可直接获得免费文章;与Google Scholar的互通;馆际互借和文献传递;直接E-mail联系文章作者
21.作者的检索 EI数据库的作者有九种写法:
以张靖煊(Zhang Jingxuan)老师为例 建议大家采用截词符
“ * ”,以三种形式来代替,并用其他检索字段来限制 Zhang J* or jingxuan z* or jing-xuan z* 22.文献综述(Literature review):
是在对某一特定学科或专题的文献进行收集、整理、分析与研究的基础上,撰写出的关于学科或某专题的文献报告,它对相关文献群进行分析研究,概括出该学科或专题的研究现状、动态及未来发展趋势。
综:对文献资料进行综合分析、归纳整理
述:对综合整理后的文献进行比较专门的、全面的、深入的、系统的、客观的论述 23.文献综述的目的:
了解相关知识的现状 揭示问题的背景或为研究的假设提供基础 从他人的研究工作中学习和借鉴 弄清以前研究的优点和不足 避免无根据的研究 避免对以前已经做过的研究的过度重复 帮助确定新的前沿课题 为处理特殊和具体问题提供思路和方法
24.写之前需要注意的事项
搜集的文献应尽量全。掌握全面、大量的文献资料是写好综述的前提,否则,随便搜集一点资料就动手撰写是不可能写出高质量的综述的,甚至写出的文章根本不成为综述
注意引用文献的权威性、代表性、可靠性和科学性。在搜集到的文献中可能出现观点雷同,有的文献在可靠性及科学性方面存在着差异,因此在引用文献时应注意选用代表性、可靠性和科学性较好的文献
要围绕主题对文献的各种观点作比较分析,不要教科书式地将有关的理论和学派观点简要地汇总陈述一遍;不能一味告诉别人,我读了什么,反对述而不评,必须说明研究者对研究状况的见解,并使之成为自己更广泛或深入研究的导引。25.写的过程中需要注意的事项 文献综述在逻辑上要合理,即做到由远而近先引用关系较远的文献,最后才是关联最密切的文献。
评述(特别是批评前人不足时)要引用原作者的原文(防止对原作者论点的误解),不要贬低别人抬高自己,不能从二手材料来判定原作者的“错误”。
采用了文献中的观点和内容应注明来源,模型、图表、数据应注明出处,不要含糊不清。所引用的文献应是亲自读过的原著全文,不可只根据摘要即加以引用,更不能引用由文献引用的内容而并末见到被引用的原文,26.文献综述最后要有简要总结,表明前人为该领域研究打下的工作基础;文献综述结果要说清前人工作的不足,衬托出作进一步研究的必要性和理论价值。所有提到的参考文献都应和所研究问题直接相关;文献综述所用的文献,应主要选自学术期刊或学术会议。总之,一篇好的文献综述,应有较完整的文献资料,有评论分析,并能准确地反映主题内容。文献综述的大忌:就是照抄原文而毫无自己的见解。27.课题分析与检索过程:
分析检索课题,明确信息需求;确定信息类型,选择检索工具,确定检索途经,选定检索方法;实施检索策略,浏览初步结果 调整检索策略,获取所需信息
28.对课题概念进行分析、归纳,剖析出主概念、相关概念、隐含概念以确定检索词。
1)切分:基于概念进行切分词 2)删除:删除非核心检索概念的词 3)替换:替换某些文学修饰色彩,非学术规范的词4)补充:补充同义词、近义词、相近概念的检索词
29.当课题比较生疏时,应当首先利用百科全书、图书等弄清楚概念,了解课题的有关专业知识,弄清楚课 题的内容和要解决的问题以及解决该问题的初步设想等,进而确定检索的主题范围。
30.确定信息类型,选择检索工具
若课题属理论探讨性质:会议文献、期刊;了解某一个课题的历史现状及末来:图书
若课题属工艺革新、发明创造等:专利文献;若课题属产品设计、生产造型:标准文献、产品样本;若课题属尖端技术科技报告:科技报告
31.经常提醒自己:是否真的完全知道自己需要什么样的信息?检索是用词去检索,而不是一个句子;检索词的选取和逻辑组配;信息检索是一个多步骤的过程;在检索过程中实时选择和保存合适的文献;关注交叉学科的类似课题研究 撰写论文的文献检索一般方法 从搜索引擎入手到数据库检索; 从综述论文开始到具体研究内容的论文 ;针对要撰写论文大纲中的小标题去检索 ;从中文文献(数据库)到外文文献(数据库)
先检索出较少的经典文献,再扩大检索、阅读、再缩小检索
第四篇:信息检索总结
信息检索总结
通过几天的连续奋战我终于完成了第二次信息检索的具体实践作业。此时此刻我的内心任然无法平静,因为我无法保证我的作业是否正确,是否能达到老师的标准。但我个人觉得收获颇多,我的信息获得能力及技巧再次从整体上有了很大提高。我信息的来源渠道更广泛也更准确与及时了,以前单纯依靠百度等常用搜索引擎来获得我所需要的各种各样的信息简直是弱爆了。
我通过第二次信息检索的具体实践作业更加熟悉和了解了中国知网、超星数字图书馆、重庆维普,万方数据库等一系列信息资源的获取来源及方式。中国知网针对各类期刊、论文数据开辟了跨库高级检索功能及单库检索功能,极大的便利了我搜索各类期刊等信息。超星数字图书馆其中因本校购买了其很多资源使用权,在使用时可以下载,让我在想详细阅读资源时提高了很大便利。学习是成就事业的基石
重庆维普的高级检索功能其丰富的检索项对于我检索详细信息具有很大的帮助。
具体实践过程中,各种数据库也或多或少暴露了一些不足。读秀,检索信息过程中,其信息准确度还不够,较少的检索项无法较为准确的检索我所需要的信息。诸如百度这类搜索引擎,信息来源繁杂,在搜索课题信息时,各种各类的无用信息,并且缺乏准确性。
第五篇:信息检索总结
信息检索总结
现在是一个信息爆炸的时代,我们身边有着成千万上亿的信息,而且这些信息的更新速度是非常快速的。我们如何能准确而快速地找到我们想要查找的信息呢?通过所学习的信息检索就可以达到这个目的。
开始开这门课以为没多大兴趣,也认为不重要,对于第一次演讲联想的IT公司,也只是抱着完成作业的态度,在网上找些资料,做了个简单的PPT。第二次,也那样完成了作业,但学着学着,发现信息检索有很多好处信息检索能帮助人们快捷、准确、全面地获取所需知识,最大限度地节省查找时间,使我们的信息检索过程变得事半功倍,更使信息能够得到充分的利用。在第三次作业,我做的是WLAN的应用,在这次作业,认真的对待,也充分利用信息检索完成了作业,自己也觉得挺舒服的,并不像只是完成作业式的对待,而是在认真的对待。
在学习信息检索课的过程中,我固然对信息检索还不是够了解,把握的也不是很熟悉,但我基本能运用信息检索中的知识来查找到我想要的文章或书籍。在每次的实际课程中,我都能够找到相关的书籍,在实际中有着很好的应用。这对以后我们要写毕业论文有很大的帮助,甚至到了工作岗位上我们也需要用到这方面的知识。
学了现代科技信息检索教程后,我对自己想要把握的知识来源都有了了解,在生活中,我能通过信息检索查到我想要的资料,我觉得这门课对我真实受益匪浅。
一学期下来,不感兴趣的课,到后来想掌握,想充分利用,这种转变,主要是了解到信息检索的重要性,这也得感谢刘老师的教导、带动。这门课也给了我们充分的发挥空间,让我们自己找资料,自己总结,还让我们每人都上台演讲,这也锻炼了我们自己的语言组织能力,锻炼了自己的口才,让我们在以后工作岗位上能应付。所以学校对我们开这门课是对的,对我们是有好处的,也得衷心感谢刘老师对我们的教导。
王健 软件0901