第一篇:Pubmed检索-讲稿
PubMed检索
内容:
PubMed及NCBI相关数据库 PubMed数据范围 认识PubMed PubMed检索方法 PubMed RSS学科跟踪 PubMed及相关数据库
NCBI(National Center for Biotechnology Information,美国国立生物技术信息中心)NCBI是目前国际上几个重要分子生物信息网站之一,其成立的原因是为已故的参议院议员Claude Pepper发现计算信息处理方法对生物医学研究的重要性,因此,在1988年11月4日成立NCBI。NCBI是National Institutes of Health(NIH)底下的National Library of Medicine(NLM)的部门之一。由于NLM具有建立与维护生物医学数据库经验,且因它是NIH的单位,因此可执行计算分子生物计划。NIH目前是全世界最大的生物医学研究单位。
NCBI成立的主要任务为:
(1)提供生物医学的分析与计算工具,协助研究人员了解生物的语言--DNA在健康与疾病中所扮演的角色
(1)发展新技术协助了解调控健康与疾病的基本分子与遗传过程,包括建立储存与分析分子生物、生化与遗传学知识的自动系统;促 进研究与医学社群使用数据库与软件;协调生物技术信息的传递与 管理;执行以计算机为基础的进阶信息分析过程,用以分析生物重要分子的结构与功能。NCBI组织架构:
Computational Biology Branch(CBB)Information Engineering Branch(IEB)Information Resources Branch(IRB)Computational Biology Branch(CBB)
处理运算、数学及分子生物、生物与遗传学理论问题的基础与应用研究,包 括基因体分析、序列比对、序列搜寻方法、巨分子结构、动力学与交互作用、结构/功能预测等。
建立NIH实验室、政府机构、学术单位与产业界之生物学家、化学家、数学家与计算机科学家间的计算分子生物合作研究计划。
提供研究分子生物分析工具的咨询与建议。
与分子生物社群互动,利用计算与理论方法提高实验研究质量。Information Engineering Branch(IEB)
进行数据表现与分析的应用研究,包括在分子生物、遗传学与生物化学的计算机储存、管理与检索系统。
设计各种呈现分子生物信息的数据库架构与规格书,包括核酸、蛋白质与结构信息。
设计与发展分布式软件系统,提供研究人员本机与远程的计算服务。协调公开序列、遗传、结构、目录信息,建立管理与整合数据库或连结至外部数据库。
建立NIH内部与外部学术单位的信息学合作研究计划。提供软件与数据库设计咨询与建议。
发展与提倡数据库、数据交换与生物命名的标准。Information Resources Branch(IRB)
计划、监督与管理NCBI的计算机技术操作,包含用来研究、发展与存取公开数据库的计算机系统。
提供NCBI人员与外来使用者技术支持。提供NCBI服务之网络操作指导。规划使用NCBI资源的教育训练与研讨会。
计划、发展与管理政府合约与合作协议书,已获得支持NCBI信息 功能的设备与服务。
作为基因体计划使用者与服务办事处之联络人。
执行应用研究与发展,提供技术支持与指导,鉴定使用者需求; 管理生物使用社群之问卷调查,以评估NCBI发展的软件使用情形。协调政府其它办事处与生物信息资源,促进NCBI数据储存的发展。
NCBI还有一个跨多学科的基础研究群,组成人员包括计算机科学家、分子生物学家、数学家、生化学家与物理学家,共同致力于计算分子生物的基础与应用研究。他们一起研究利用数学与计算机方法解决分子层面的基本生物医学问题,这些问题包含了基因结构侦测与分析、序列分析、立体结构预测、重复序列类型(Pattern)、建立基因体图谱、HIV感染动力学的数学模型、分析序列错误对数据库搜寻的影响、发展数据库搜寻与多重序列比对的新算法、建立无重复的序列数据库、使用数学模型评估序列相似性在统计学上的重要性、建立文章检索的载体(Vector)模型等。除此之外,这些研究人员尚与NIH的研究单位、学术单位的研究实验室与政府机构的研究实验室间维持合作关系,目前仍有多项研究计划正在进行当中。NCBI资源
NCBI目前提供的生物信息资源主要分为:(1)生物数据库(2)生物信息工具 生物数据库
生物数据库是一个永久数据的大的组织体,通常结合计算机软件执行更新、查询与存取数据的功能。对于研究人员而言,数据库必须符合:容易取得信息以及只取得回答特殊生物问题的信息两项功能。
NCBI的数据库搜寻与存取系统-Entrez,可用来获取单一数据库或许多数据库的整合数据。例如Entrez蛋白质数据库除了可查询蛋白质信息,同时亦可连结到生物分类数据库查询生物分类信息。目前,NCBI提供的公开(Open Access)数据库包括如下: Entrez以及BLAST
Entrez是NCBI的为用户提供整合的访问序列,定位,分类,和结构数据的搜索和检索系统。Entrez同时也提供序列和染色体图谱的图形视图。Entrez是一个用以整合NCBI数据库中信息的搜寻和检索工具。这些数据库包括核酸序列,蛋白序列,大分子结构,全基因组,和通过PubMed检索的MEDLINE。Entrez的一个强大和独特的特点是检索相关的序列,结构和参考文献的能力。PubMed是一个网络搜索界面,可以提供对在MEDLINE上的九百万杂志引用的访问,包含了链接到参与的出版商网络站点的全文文章。
BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。NCBI提供的附加的软件工具有:开放阅读框寻觅器(ORF Finder),电子PCR,和序列提交工具,Sequin和BankIt。所有的NCBI数据库和软件工具可以从HTTP或FTP来获得。Entrez可以检索的数据库
Books
出版社提供之数字生医图书与医生参考书籍数据库
Cancer Chromosomes 美国国立癌症研究所的Mitelman Database of Chromosome Aberrations in Cancer数据库里已经整合好的cytogenetic、临床与文献相关数据
Conserved Domain Database(CDD),蛋白质功能区块保留序列数据库 3D Domains,蛋白质功能区块立体结构数据 Gene,包含许多物种的基因数据库
Genome,包含超过800种物种的基因组数据库 GENSAT,小鼠中枢神经系统基因表现图谱
GEO Datasets,基因表现实验与生物芯片数值结果数据 GEO Profiles,基因表现图谱 HomoloGene,同源基因批注数据库 Journals,期刊文献(包含PubMed)MeSH,医学主题词数据库 NCBI Web Site,所有NCBI网页
NLM Catalog,美国国立医学图书馆馆藏书目、期刊、视听数据目录
Nucleotide sequence database,核酸序列数据库(包含GenBank、RefSeq和PDB等三大序列数据库)Online Mendelian Inheritance in Man(OMIM),人类遗传疾病相关文献数据库 PopSet,族群演化分析相关研究资料
Protein sequence database,蛋白质序列数据库(包含Swiss-Prot、PIR、PRF、PDB等数据库与从GenBank、RefSeq核酸序列转译之蛋白质序列资料)
PubChem BioAssay,化学成分之生物活性筛选资料 PubChem Compound,小分子化学物质结构
PubChem Substance,具生物活性之化学物质筛选数据 PubMed,科学文献报导数据库
PubMed Central,科学文献数字全文数据库 Site Search,可搜寻NCBI的网页与FTP SNP,单点核酸多样性数据库(dbSNP)Structure,分子模型数据(MMDB)
Taxonomy,以核酸或蛋白质为基础的分类学信息 UniGene,人类unique基因序列数据库 UniSTS,unique序列卷标地址数据库
PubMed数据范围
数据类型:期刊论文、综述以及与其他数据资源链接。特点:
免费提供题录和文摘
提供与原文的网址链接(部分免费获取)
提供检索词自动转换匹配 操作简便、快捷 MEDLINE 4800余种生物医学期刊,内容涉及医学、护理、牙科、兽医、健康保健系统、前临床医学等学科。这些期刊来源于美国和世界上70多个国家和地区。
文献量达1千2百多万条记录,并回溯到1966年。记录中用[PubMed-indexed for MEDLINE]标记表示 In process citation 提供MEDLINE尚未经规范处理的数据。
获MeSH词后,再加入MEDLINE。记录中用[PubMed-in process]标记表示。Publisher Supplied Citations 出版商直接向PubMed提供电子记录 包括MEDLINE未收录的部分记录
记录中用[PubMed-as supplied by publisher]标记表示。OldMedline 1950-1965年间发表的200多万篇文献 没有MeSH字段和摘要
记录中用[PubMed-OLDMEDLINE for Pre1966]标记表示。PubMed not Medline PubMed收录Medline不收录的文献。记录中用[PubMed]标记表示。PubMed与MEDLINE的区别
(1)收录范围广:
MEDLINE收录的部分生命科学相关文章的非医学专业期刊(物理、天文、化学等)
(2)收录记录新:
在MEDLINE数据标引前的最新题录(3)文献类型全:
提供电子原文链接(部分免费)认识PubMed
PubMed首页 PubMed检索结果页 PubMed结果显示 PubMed摘要显示
PubMed特色:简洁、清新,检索速度较快 PubMed检索方法
PubMed基本检索
PubMed高级检索 PubMed限定检索 PubMed主题检索 临床查询检索 PubMed全文获取 PubMed基本检索
在检索框中键入一个或多个英文单词(大写或小写均可),点击GO按钮,PubMed系统会自动在主题词表,期刊名表,短语表及作者索引中查询与输入的词相匹配的形式,这就是它特有的“自动词汇匹配功能”。
例如:检索肿瘤(cancer)方面的文章。
在检索框中输入:“cancer”,再点击“Go”按钮。
PubMed将自动地利用它的“自动词汇匹配”功能将重要的词语结合在一起,并将不规范的词语转换成MeSH词表中规范的用词进行检索,比如,检索“cancer” 将自动转换为:“neoplasms”[MeSH Terms] OR “neoplasms”[All Fields] OR “cancer”[All Fields] 自动转换匹配:
PubMed对输入检索框中的检索词进行智能化地校对,将其逐步地与其数据库中的各类术语匹配的原则。
布尔逻辑组合检索,常用的逻辑关系词有AND,OR,NOT等 作者姓名检索
按照姓+名缩写(不用标点)的格式键入作者姓名,如:smith ja或jones k, 系统会自动在作者字段内进行检索。姓名第一个字母可用大写也可用小写,姓前名后,姓用全称,名字一般用缩写。
考虑到作者姓名的不同形式,PubMed采用自动转换功能进行作者姓名检索,如:smith j将检索成smith ja,smith jb,smith jr 等。
精确检索:可以用双引号将作者名引起来,再加作者字段限定[AU],如:“smith j”[au],这样可避免PubMed自动转换,实现精确查找。
期刊检索
在检索框中键入期刊名,如:molecular biology of the cell,系统的“自动词语匹配”功能会将它转换成mol biol cell[journal]进行检索。
也可以直接输入Medline的期刊标准缩写形式,如:mol biol cell,或者是输入刊物的ISSN(国际标准出版物代码)进行检索,如:1059-1524。
如果一个杂志名恰好是主题词或关键词,如:cancer,science,cell等,PubMed会首先将这些词转换成MeSH词表中的主题词进行检索。因此,需要将检索请求进行标准化处理,即在杂志名后面加[TA]。如:“cell”[ta] 期刊数据库(journal database)期刊数据库的作用:
1、可以查看期刊的详细信息,包括出版国家,出版社,出版语言,期刊类目等等;
2、可以根据期刊的主题分类,查看medline收录的各学科的期刊,比如查看medline收录的关于麻醉学(Anesthesiology)方面的期刊;
2、方便检索某本期刊上被PubMed收录的所有文章。
比如:我们想知道期刊Acad Pediatr的全称以及具体的出版社,以方便投稿,如何查?
操作方法:点击导航栏上的Journal database,打开期刊数据库检索界面,在检索框中输入Acad Pediatr,再点击Go按钮即可。截词检索
截词检索的作用:扩大检索范围,提高查全率。
截词符:用*表示,代表多个字符,将*加在检索词后可以表示对所有以该词开头的词进行检索。
如:bacter*,可以检出bacter,bacteria,bacteriophage,bacterium,等最多600个单词。字段限制检索
采用字段限制方式进行检索,其规则是:
检索词1[字段标识] 逻辑运算符 检索词2[字段标识] 如:查找作者为crick在1993年发表的有关DNA方面的文献.检索式:
DNA[mh] AND crick[au] AND 1993[dp] 常用检索字段描述和标识 Title[ti]:篇名字段 Abstract[ab]:摘要字段
Affiliation [ad]:著者地址字段。
Author name[au]:文章的作者,检索格式:姓+名。如:“smith ja”[au] Journal title[ta]:期刊名称。如:cell[ta] Language[la]:论文出版语种。语种检索时可只输入前3个字母,如:chi[la]=chinese[la];English[lang]=eng[la] 比如:检索文章题目中含有高血压的中文文献 检索式:hypertension[ti] AND chi[la] Publication date[dp]:出版日期 指论文所在期刊的出版日期
日期检索的形式为:YYYY/MM/DD[DP] 要检索一段时期内的文章,日期之间可以加冒号,如: 1993/01:1995/06[DP] Publication type[pt]:出版类型。有综述,新闻,传记,临床试验等。如:review[pt] MeSH terms[mh]:主题词字段。如:hypertension[mh] Subheadings[sh]:副主题词。与主题词组配检索.比如:检索1995年到1996年出版的关于高血压方面的综述性文献。hypertension[mh] AND 1995/01:1996/12[DP] AND review[pt] 强制检索功能
PubMed允许使用双引号来强制系统进行短语检索。
如:在PubMed主页的检索提问框中键入“single cell”,并用双引号引起来。点击“GO”按钮,系统会将其作为一个不可分割的词组在数据库的全部字段中进行检索。
如果不使用双引号进行强制检索,系统就会将其分成2个词:single和cell检索,其检索表达式为:single AND cell.很明显这样的检索结果是不符号要求的。
PUBMED 高级检索及限定检索
PubMed主题检索
《医学主题词表》数据库(MeSH Database)
《医学主题词表》是对生物医学文献进行主题分析、标引和检索的权威性词表,它的作用是使医学文献的主题标引和检索达到统一和一致,并指导用户高质量地检索医学文献。它可以指导用户从同义词发现主题词,告诉用户主题词如何使用,显示主题词之间的相互关系。《医学主题词表》数据库(MeSH Database)利用主题词进行检索 方法:
1、点击主页右下角的MeSH Database进入主题词检索界面;
2、输入检索词后,点击go按钮,系统将显示与该词有关主题词;
3、点击该主题词进一步显示该主题词的定义、树状结构、组配的副主题词;
4、选择合适的主题词与副主题词后,点击send to按钮,进入检索表达式浏览窗口;
5、点击Search PubMed将显示检索结果。临床查询检索
“Clinical queries”是专门为临床医生研究设计的内置的临床方法学“过滤器”(Clinical Methodology Filters),这组检索策略模型是由加拿大临床流行病学和生物统计学研究人员Haynes RB等人在1994年提出来的,并进行了查全率和查准率分析。用户通过这一临床方法学检索过滤器,不需掌握复杂的检索策略,即可检索所需的临床研究文献。
使用方法:
1、点击主页左侧导航栏的Clinical Queries进入临床查询页面;
2、在检索框中输入检索词,并选择副主题词组配,指定检索结果是查全(sensitive),还是查准(specific);
3、点击GO按钮执行检索。
例如:检索“鼻咽癌nasopharyngeal cancer治疗方面的研究文献” PubMed全文获取
通过PubMed检索出来的文献,部分我们通过浏览摘要即可,部分我们还需 10 要查看全文,以作进一步的研究,那么,我们如何获取全文呢?
一:免费的全文 二:学校已订购的全文
如果我们所需要的文献,学校已订购了该文献所在的全文型数据库,我们也可以直接打开或到相应的全文数据库中查找。
三:文献传递服务系统
没有免费的全文以及学校未订购的全文,一般需要付费才可以看到,这类文献我们可以通过基于馆际互借的文献传递服务系统来获取。PubMed RSS学科跟踪
RSS,也称为“RSS 源”、“XML源”或“Web 源”等,通常在时效性比较强的内容上使用RSS订阅能更快速获取最新信息,利用PubMed的RSS服务,有利于第一时间获取国际上关于某课题或某一方面的最新报道。
比如,我是一名临床大夫,我比较关注国际上关于鼻咽癌nasopharyngeal cancer治疗方面的最新报道,我该如何订阅这个最新报道(RSS)呢?
订阅最新报道(RSS)首先需要自己制定一个检索式: 说明:
订阅临床方面的RSS(比如某种疾病的诊断或治疗等),建议通过临床查询(Clinical Queries)来检索,这样可以确保检索质量;
订阅课题方面的RSS,建议通过自由词来检索,这样可以检索到最新的电子优先文献,若检索结果在100条以上,建议进一步限定;
首次订阅PubMed RSS,系统默认会为订阅者提供目前所能检索到的所有文献的全文,如果您只需要以后更新的最新文献(不需要这些目前能检索到的文献),请单独说明。MEDLINE是美国国立医学图书馆(TheNationalLibraryofMedicine,简称NLM)生产的国际性综合生物医学信息书目数据库,是当前国际上最权威的生物医学文献数据库。内容包括美国《医学索引》(IndexMedicus,IM)的全部内容和《牙科文献索引》(IndextoDentalLiterature)、《国际护理索引》(InternationalNursingIndex)的部分内容。
涉及基础医学、临床医学、环境医学、营养卫生、职业病学、卫生管理、医疗保健、微生物、药学、社会医学等等领域。
MEDLINE收录1966年以来世界70多个国家和地区出版的3400余种生物医学期刊的文献,近960万条记录。目前每年递增30-35万条记录,以题录和文摘形式进行报道,其中75%是英文文献,70%-80%文献有英文文摘。
到1988年底,约有近20个机构获准转换MEDLINE数据库,发行MEDLINE的CD-ROM产品,其中包括Silver Platter、Cambridge、Dialog等。上述公司产品的检索功能、检索指令、数据结构虽基本相似,但也有不同。由于国内引进的大部分为Silver Platter公司的产品,故以Silver Platter的MEDLINE CD-ROM为例介绍光盘检索系统的使用。
Medline主要提供有关生物医学和生命科学领域的文献,数据可回溯到1949年。可通过主题词,副主题词,关键词,篇名,作者,刊文,ISSN,文献出版,出版年,出版国等进行检索。professional适合临床医学,其余三种内容相同,但advanced和express功能比较优越,检索方便,standard对更新要求较低,不需光盘塔。MEDLINE光盘文件补充和更新的频率为每月一次,可运行在DOS和WIN环境。
PubMed是免费的网上Medline数据库,它还包含一些最新的尚未被索引的文献。
Pubmed=medline+premedline+出版商提供的信息 也可以简单地认为Pubmed是medline的网络版PUBMED 里MeSH是什么意思?
《医学主题词表》(Medical Subject Headings,简称MeSH),是美国国立医学图书馆编制的权威性主题词表。它是一部规范化的可扩充的动态性叙词表。美国国立医学图书馆以它作为生物医学标引的依据,编制《医学索引》(Index Medicus)及建立计算机文献联机检索系统MEDLINE数据库。《MeSH》汇集约18,000多个医学主题词。
《MeSH》在文献检索中的重要作用主要表现在两个方面:准确性(准确揭示文献内容的主题)和专指性。标引(对文献进行主题分析,从自然语言转换成规范化检索语言的过程)人员将信息输入检索系统以及检索者(用户)利用系统内信息情报这两个过程中,以主题词作为标准用语,使标引和检索之间用语一致,达到最佳检索效果。
在进行检索时,用户输入一个主题词后,系统会自动显示该主题词所能组配的副主题词。《MeSH》有一个副主题词表,1989-1990年IM使用的副主题词是77个,1991-1994年是80个,每年略有变化。目前IM使用的副主题词是92个。
副主题词(Subheadings)又称限定词(Qualifiers),与主题词进行组配,对某一主题词的概念进行限定或复分,使主题词具有更高的专指性。如诊断(Diagnosis,DI)、药物治疗(Drug Theray,DT)、血液供给(Blood Supply,BS)等。正确选择副主题词也很关键。例如肺发育不全,输入主题词“肺”后,在副主题词菜单中选择“畸形”表示发育不全;再例如,双子宫 ——用 子宫/畸形 检索。
(3)在《医学主题词注释字顺表MeSHAAL》中,对每个范畴类目的主题词和副主题词的组配原则进行了严格规定,组配时要按照规则进行。
例如,副主题词治疗therapy与疾病主题词组配,可用于综合疗法。例如,消化性溃疡的心理疗法,用消化性溃疡/治疗;心理疗法。
副主题词治疗应用therapeutic use 与药物、生物制品和物理作用物主题词组配。指用于预防和治疗疾病,包括兽医用药。例如,红霉素治疗链球菌感染,用红霉素/治疗应用;链球菌感染/药物疗法。
在检索中,主题词与副主题词的组配(主题词/副主题词)两者间须有必然的逻辑关系,善于分析两者之间的关系(因果关系、应用关系等)是正确组配的关键。例如,眼结核引起失明,用结核,眼/并发症;盲/病因学。牛奶引起动脉 13 硬化,用牛奶/副作用,动脉硬化/病因学。阿司匹林治疗感冒,用阿司匹林 /治疗应用;感冒/药物疗法。
MeSH 附有各种参照和注释,它是对生物医学文献进行标引和检索的依据。例如,在《医学主题词注释字顺表MeSHAAL》中,该表的参照系统:
①用代参照,用 “See”表示。指引检索者将非正式主题词用正式主题词。例如,Cancer See Neoplasms。通过用代参照处理,从若干同义关系的词或词组中,选定一个科学而通用的名称作为主题词,供检索文献用。
② 相关参照:用相关参照“See related”表示。目的是指引检索者从一个主题词去参考有关的其他主题词,以扩大选词范围。例如,检索 Alopecia(脱发)这一概念时,要把它的相关参照Alopecia Mucinosa(斑秃)、Baidness(脱发)、Hair Diseases(毛发疾病)Hypotrichosis(毛发稀少)等4个相关参照词下的内容看清楚,才能达到查全的目的。
(6)为了使主题词具有系统性,MESH引入范畴表(Categories and Subcategories)的概念。范畴表又称树形结构(Tree Structure),是将字顺表中的主题词(主要叙词)、次要叙词按其学科性质、词义范围的上下类属及派生关系,分别划为15大类。在15个类目中,有 9类又分若干子类目,子类目下面又分若干更小的类目,这就是通常供检索使用的主题词,共一万六千多个,都按其医学概念的性质分别列入各自所属的类目之下。
第二篇:《信息检索讲稿》
《信息检索》讲稿
第一章 信息检索概述 第一节 信息资源的概念与类型
一、信息资源的概念
信息资源是人类存储与载体(包括人脑)上的已知或未知的可利用的信息。信息中的载体信息和主体信息是使信息资源的最基本的组成部分。
二、信息资源的特点 1. 客观性。信息不是能源,也不是物质,无论是否认识到,信息总是存在着。2. 寄载性。信息必须借助于一定的符号存储与一定的载体中(包括人脑),才能被表现,没有载体,就没有信息。信息与载体,两者不能割裂开。3. 传递性。信息可以通过一定的载体在空间、时间上传递,从近到远,从古到今都能传递。4. 动态性。信息是对事物存在方式及运动方式的反映,随着事物的变化,信息也将变化。这里动态性是指信息的时效性。5. 相对性。人们认识能力与认识条件不同,信息接受者(信宿)获得信息与信息量的多寡不同,从这个意义上说,信息的价值具有相对性。6. 增长性。信息资源的使用,不但不会使信息资源减少,再利用中,还会产生更多的信息。7. 共享性。使用同一种信息资源,均不需要任何的限制条件,信息资源共享的双方或多方均不回损失信息内容,相反还会产生新的信息。8. 规模性。信息资源作为整体要有一定的量,分散、片面地信息不能较好地反映事物的情况。
三、信息资源的类型
按照信息资源的开发程度来区分,可分为潜在信息资源与现实信息资源两大类。现实信息资源又可分为口语信息资源、体语信息资源、实物信息资源、文献信息资源、网络信息资源和多媒体信息资源。1. 口语信息资源。交谈、聊天、授课、讨论等方式获得的信息资源。特点是传递迅速,互动性强,但稍纵即逝、久传易出差异。因此通过这种方式了解到的信息应记录下来,并加以证实。2. 体语信息资源。以手势、表情、姿势如舞蹈、体育比赛、杂技等方式传递的信息资源。
特点是直观性强生动丰富、印象深刻、富有感染力,但此类信息的容量有限。3. 实物信息资源。以实物如文物、产品样本、模型、碑刻、雕塑等形式表示的信息资源。
特点是直观性强、感觉实在、信息量大,但需要通过知识、智慧、经验和工具挖掘大量隐含的信息。
4.文献信息资源。以文字、图形、符号、声频、视频等方式记录在各种载体上的知识和信息,包括图书、连续出版物、小册子以及学位论文、专利、标准、回忆录、政府出版物等特种文献。
特点是经过加工、整理,较为系统、准确、可靠,便于保存与利用,但也存在信息相对滞后,部分信息尚待证实的情况。文献的一些主要类型: 1)图书。国家标准《情报与文献工作词汇·传统文献》(GB13143—91)对图书(book)的解释是:一般不少以49页并构成一个书目单元的文献。图书是文献中最古老、最重要的类型。按文种来分可分为:中文图书、日文图书、西文图书等;按作用范围可分为通俗图书、教科书、工具书等;按写作方式可分为专著、编著、翻译、编译等;按出版卷 可分为单卷本、多卷本等;按刊行情况可分为单性本、丛书、抽印本等;按版次情况可分为初版、重版、修订本等。2)连续出版物。具有同一题名、定期或不定期以分册形式出版、有卷期或年月标识、计划无限期连续出版的文献。包括期刊、报纸、出版物及其他连续报告、会议路、专著性丛刊等。连续出版物是与图书并列的最主要的文献类型,其特点是内容新颖、报道及时、出版连续、信息密集、形式一致等。据统计目前世界上连续出版物有130万种,限期连续出版物约50万种。3)特种文献。有特定内容、特定用途、特定读者范围、特定出版发行方式的文献,包括学位论文、研究报告、专利、标准、产品样本、会议录、档案和政府出版物。国内外同行称这类文献为“灰色文献”(grey literature),尽管这类文献并非很成熟,但他们内容新颖专深、实用性强、信息量大、参考性高,利用率大,是极为重要的信息资源。4)网络信息资源。以电子形式存贮于成千上万台计算机组成的网络中的信息资源。它包括各类数据、电子文件、学术论文、图书、软件、商业活动等各种信息。因特网(internet)在20世纪70年代起源于美国,截至2000年底,已连接全球200多个国家和地区近5万多个网络、485万台主机、1.2亿个用户,并以每月20万个新用户的速度递增。
中国从1994年开始发展因特网,据《中国因特网发展状况统计报告》报道,截止2002年6月30日,中国上网计算机总数已超过1613万台,上网用户总数达到4580万,CN下注册的达126146 个;规范和因特网浏览器。2)北欧的万维网索引(NWI,Nordic Web Index)是利用北欧各国的5个合作服务点而建立的,该系统以元数据为基础,可以实现包括题名、文献作者和URL等字段的检索。
3)欧洲研究与教育信息服务之开发项目(DESIRE,Development of a European Service for Information on Research and Education)。该项目在基于主题的信息网关中为记录是用一般的元数据格式,编制了用于转换的映射表。
元数据在中国的应用。
1)文化部科技司的数字式中文全文文献通用格式。该格式是作为一个行业标准供中国大陆各级图书馆以计算机可读形式建立馆藏数字化中文全文文献资源。该标准适用于采用中文全文检索技术的计算机系统。
该标准规定了文本、图像以及多媒体等类型文献元数据的规范和定义,可用于普通图书、古籍、连续出版物、标准文献、科技报告、学位论文、地图资料、缩微资料、计算机文档等类型文献的元数据处理。
2)中国大陆的数字图书馆项目:
a中国实验型数字图书馆。建设一个规范化的分布式数字式资源库,在资源组织和描述上,强调符合项目总体技术的统一要求。该项目计划由中国国家图书馆、上海图书馆、深圳图书馆、中山图书馆、南京图书馆、辽宁图书馆参与,模仿美国数字图书馆计划,侧重技术方案的实现,兼顾资源的数字化。
b 中国数字图书馆工程。其中需要建立数字图书馆国家中心的元数据共享检索系统和元数据资源中心,该中心使用并行数据库技术和分布式计 算机系统来支撑海量的元数据系统。
c 清华大学建筑数字图书馆。提供中国营造社史信息导航、学科资料成果信息导航以及新营造学社资料方面的服务。
d 北京大学的中文Metadata标准研究。以中文文献为资源实体对象,研究中文文献元数据标准,并在其基础上制定中文文献元数据示范数据库。
第三节 信息资源标引法
标引是通过对文献或信息资源的分析,选用确切的检索标识,如分类号、主题词、关键词、人名、地名等,用以反映该文献或资源内容的过程。标引的英文是Indexing。标引是信息资源加工中的重要环节,使款目或记录编排的重要根据,对信息检索效果有直接的影响,通过标引,才可编成各种目录和索引等检索工具。
各种标引词存储于计算机内,才可实现文献或信息资源的检索。利用不同的检索便是进行标引,就形成了不同的标引方法,目前主要的标引方法有:分类标引法、主题标引法、关键词标引法和名称表引法等(人名、地名、书名)。
由于计算机信息检索系统和信息数据库的应用,还出现了自动标引。
一、分类标引
分类标引是指依据一定的分类语言,对信息资源的内容特征进行分析、判断,赋予分类标识的过程。
通过对信息资源赋予分类标识,信息机构可以将各种信息资源纳入相应的知识门类,建立起相应的分类检索系统。信息用户只要根据一定的信息资源特征,就可以按系统提供的途径查找到所需的文献。1.掌握分类标引的要求。具有准确性、充分性、一致性、实用性。2.掌握分类标引的规则。
传统文献的分类体系,是以学科为中心建立的类目体系,应在分析文献主体对象的同时考虑其内容的学科属性。
如:《华北地质构造》,按学科先归入“P54 区域大地构造学”类,再加华北地区区分号“822”,得出分类号“P548.22”
网络分类体系,是以主题或学科为中心建立的类目体系,应根据类目的设置特点各入其类。
工具书、目录、索引、文摘等一般归入Z 综合类后,再按专业分散处理。
3.了解几种常用的分类法。中国常用的分类法有《中国图书馆图书分类法》《中国科学院图书分类法》《中国人民大学图书馆图书分类法》《中国图书资料分类法》;国外常用的分类法有:《杜威十进分类法》《国际十进分类法》《美国国会图书馆图书分类法》《冒号分类法》等。
二、主题标引
是依据一定的主题词表和主体标引规则,赋予信息资源语词标识的过程。具体是在主题分析的基础上,以一定的词表和标引规则作为依据,将信息资源中具有检索意义的特征转换成相应的主题词,并将其组织成能表达信息资源内容特征的标识的过程。
1.掌握标引方式。标引方式是根据资源特点和使用需要确定的标引和解释文献主题的形式。标引方式有:整体标引、全面标引、对口标引、综合标引和分析标引。2.掌握标引规则。
3.了解几种常用的主题词表。中国常用的《汉语主题词表》(汉表)《中国分类主题词表》;国外常用的有《美国国会标题表》《医学标题表》。
三、关键词标引
使用非规范化的自然语言——关键词来表达文献或信息资源主题内容的过程。它属于主题标引的一种。
关键词目前被广泛的应用,也是最早用于计算机信息检索的自然语言形式。1.关键词标引的类型
关键词标引通过轮排生成各种类型的关键词索引,包括题内关键词索引、题外关键词索引、双重关键词索引。
1)题内关键词索引(KWIC)。选择标题中具有检索意义的词作为关键词。关键词排检点设于标题的中部;所有索引条目按关键词的字顺竖向排列。保留文献篇名关键词前后的上下文。
2)题外关键词索引(KWOC)。对(KWIC)索引的改进形式。将索引标目的位置从中部移至左端或左上方,标目下完整列举文献篇名。编制索引时,关键词置于左端,将条目轮流置于篇名中的每个关键词之下,整个条目按关键词的字顺排列。
3)双重关键词索引(Double KWIC Index)。采用双重标目,在篇名之外设置第一个主标目,再在篇名的左端按副标目(第二关键词)排列。双重关键词可以通过两个关键词的组配进行查找。2.关键词索引编制的步骤 1)将文献篇名输入计算机; 2)计算机自动进行分词和抽词,并取除介词、连词等非关键词; 3)进行论排,使每个关键词都轮流用作标目,同时保留其上下文; 4)排序和编辑。
四、名称标引
名称标引是用责任者、地名、题名表达文献或信息资源主题内容的过程。它包括责任者标引、题名标引、地名标引等。
1.责任者标引。责任者是指对文献中的著作内容进行创造、整理、负有直接责任的个人或团体。责任者有个人责任者和团体责任者,个人责任者包括第一责任者和其他责任者;团体责任者包括机构名称和会议名称,中国责任者标引时,采用直序的方法,外国责任者则视情况有的采用直序的方法,有的采用倒序的方法,名在前,姓在后。
2.题名标引。题名是指直接表达或象征、隐喻文献内容的主题及其特征,并是指个别化的名称。提名包括正题名、并列题名、副题名、说明题名文字等,标引时,选择适当的题名名称加以标引。
第四节 信息资源排检法
信息检索工具都采用一定的方法编排,使内容有序化,便于用户检索。信息检索工具常用的排检反方法分为两大类:一类是字序法,如字顺法和查字法;一类是类序法,如分类法、主题法,另外还有其他的如:时序法、地序法、谱序法。
一、字序法
又称字顺法或查字法,是按一定的顺序排检单字或复词的一种方法。一般的字典、词典、索引和百科全书都采用这种反方法。1.中文排检法。包括形序法、音序法和号码法。形序法有:笔画法。笔顺法。部首法。音序法有:汉语拼音排检法。注音字母排检法。号码法:四角号码法。
2.外文排检法。目前世界上有2000多种语言,多数有文字,适用范围超过5000万人口的语言有13种,其中联合国正式的工作语言有:汉、英、俄、西、法、阿拉伯语6种语言。
外文工具书的排检法主要有字顺排检法、分类或主题排检法、时序排检法、地序排检法和列表排检法等。
字顺排检法。机械地按照字母或词的顺序进行排列,是编制工具书最常用的一种反方法,一般包括书名、著者名和主题字顺。按字母系统可以分为:拉丁文字顺排检法、日文字顺排检法、俄文字顺排检法。
二、类序法
按照文献或信息资源的内容,分门别类排列的方法。它包括分类法和主题法。但分类法更多地是按代表类名的、由字母或数字代码组成的类号排列;主题则按主题类名的字顺排列。
注意分类法排列中除体系分类法之外还有四部分类法。
时序法。按照文献的写作、发表和出版年代或事物发生发展的先后顺序来编排文献的一种方法。一些时间性较强的工具书如:年表、历表、史事纪年和专门性表普等。比较重要的检索工具书如:《中国历史记年表》《中西回史日历》《中外历史年表》《国内外大事记》等。
地序法。按照文献中所涉及的国家、地域等为标识来编排文献的方法。利 用这一方法能集中同一国家或地区的全部文献,较全面地反映某一地区、某一国家的历史和现状。采用这一方法主要用于编制地理、地方志、和有关农业方面的检索工具,常用的如:《中华人民共和国分省地图集》《中国地方志综录》《历代地理沿革表》《中国名胜词典》《中国边疆图籍录》等。此法需要有辅助的索引配合,才能在不知所属地区时按地名查找。谱序法。按照机构建制、血缘关系依次编排文献的方法。常见的检索工具如《历代职官表》《辛亥以后十七年职官年表》等就是按照机构建制,从中央到地方逐级排列各政权机构的职官;世袭表和族谱则按照血缘关系依次排列,如洪秀全家的《洪氏宗谱校补本》(1981年版)
第三章 信息检索工具与数据库 第一节 检索工具概述
检索工具的定义:检索工具适用于报道、存储、和查找各类信息的工具。包括传统的二次、三次、印刷性的检索工具,面向计算机网络的联机数据库检索系统、光盘数据库系统、搜索引擎等各种网络检索工具。3.数据库检索系统的生产情况。《中国数据库大全》(国家计划委员会、国家科学技术委员会、国家信息中心编,国家计划出版社出版,1996年版)共收录中国自建的,能提供对外服务的,既有一定数据量的和使用范围的各种数据库1038个,均能提供对外检索服务,目前世界上能提供这类服务的数据库共有11339个。
4.搜索引擎概况。中国大陆有搜索引擎约60个,香港地区中文搜索引擎约有20个,中国大陆常用的,性能较稳定的各类中英文搜索引擎20余个,国外已开发的各类搜索引擎近200个。
四、检索工具的类型
按检索手段的不同,检索工具可以分为传统检索工具和网络检索工具两大类型。这里主要介绍传统的检索工具。
传统检索工具主要是各种类型的工具书。
工具书是根据一定的需要,比较完备地汇集某一方面的资料,并按特定的方法加以编排,专供读者查考检索有关知识、资料、事实的书籍。据工具书的体例和功能,可分为检索型工具书、参考性工具书、词语性工具书、表谱性工具书、图录性工具书和边缘性工具书6种类型。
1.检索性工具书。是在一次文献的基础上整理、编制出的提供文献信息检索的二次文献。包括树木、索引、文摘、文献指南。主要用于查找国内外书刊资料。
1)书目。是对一批单独出版文献的记录与揭示,并按一定的方法加以编排的检索工具,通常揭示书名、作者、卷册、版本、出版者、出版年、价格、内容简介等。据编制目的、收录范围和内容,可由以下4种书目。国家图书书目。揭示某一时期国家出版的各类图书的总目。如:《全国总书目》《中国国家书目》《全国新书目》《国际在版书目》《英国国家书目》 《美国在版书目:作者》《美国在版书目:书名》等。
国家报刊书目。揭示某一时期国家出版的各类报刊的总目。《中国报刊名录》《中国报刊大全》《中国当代期刊总览》《中文核心期刊要目总览》《乌利希国际期刊指南》《日本杂志总览》《Web网杂志目录》等。
此外还有专科或专题书目如:《台湾史关系文献书目》《大学生导读书目》 《中国现代文学总书目》《伦敦社会科学书目》《在版科技图书和连续出版物目录》等。
馆藏书目。揭示一个图书馆收藏图书的目录。有卡片目录和书本是目录两种。卡片目录通常配有3套即分类目录、书名目录和作者目录。供用户从不同的途径去检索。
书本式目录是馆藏目录的印刷型。可为到馆的用户查阅使用,也可为不到馆的用户提供函借或复印。
联合目录。是汇集某个地区或系统,乃至全国的图书馆或文献中心文献信息收藏实况的目录。把分散在各馆的书刊从目录上连成一体,使用户既能查到所需书刊,又能知道该书刊的馆藏所在,以便就近借阅。常见的有《西文参考工具书联合目录》《西文科技学术会议录联合目录》《天津地方史资料联合目录》《美国全国联合目录》《英国期刊联合目录》《美、加图书馆连续出版物联合目录》等。
2)索引。是将书刊里的论文题目、人民、地名、以及词句等分别摘录出来,并注明出处,按一定的方法编排起来的检索工具书。
论文题目索引。如:《全国报刊索引 哲社版》就是将全国公开发行和内部发行的2000多种报刊中所载的论文题目逐一分析著录出来,注明论文所在报刊的卷期、页码,专供用户查找有关论文之用,主要的索引还有《人民日报索引》《光明日报索引》《解放军报索引》《中国社会科学文献题录》国外的主要有:《书评索引》《美国地理杂志索引》《社会科学论文索引》 人名索引。主要的有《古今人物别名索引》《室名别号索引》《作家笔名索引》《世界姓名译名手册》《英语姓名译名手册》《俄语姓名译名手册》《德
语姓名译名手册》《发育姓名译名手册》《日语姓名译名手册》《世界文学家大辞典》《世界人物大辞典》《外国历史名人辞典》《外国人名辞典》等。地名索引。主要的有:《中国历史地名大辞典》《中国古今地名大辞典》《中外历史地名大辞典》《世界地名词典》《韦氏地名词典》《剑桥世界地名词典》等。
字句索引。主要的有:《汉语方言词汇》《中国俗语大辞典》《古今俗语集成》《通俗编》《俗语典》《中国谚语》《歇后语大全》《小说词语汇释》《中国古代格言大全》《中国名言大观》《警句格言分类大辞典》《世界名言博引辞典》《中外名言大全》《十三经索引》《论语引得》《韩非子索引》《荀子引得》《杜诗引得》《唐宋名诗索引》,国外主要的有:《牛津引语辞典》《通晓引语》《古典和现代引语大全》等。
3)文摘。是对一定范围内的论文或书籍中的内容进行浓缩,概括地陈述其主要论点、数据、结论等,并注明其出处,按一定的方式编排起来的检索工具。主要的有:《经济学文摘》《国外经济文摘》《中国医学文摘》《中国农业文摘》《管理科学文摘》等。国外的主要有:《书评文摘》《应用社会科学索引和文摘》《心理学文摘》《社会学文摘》《历史文摘》等。
4)文献指南。是说明各类文献特点及其查找方法,并具体介绍常用工具书及其使用方法的检索工具。主要的有:《古今中外人物传记指南录》《科技名录指南》《中外专利数据库检索指南》。国外的主要有:《英国政府出版物指南》《工具书指南》《化学情报源》《医学情报源》《经济学情报源》等。2.参考性工具书
指能为读者提供各种所需的具体资料的工具书。与检索工具书仅提供文献
线索相比较,参考工具书提供的资料更具体,包括百科全书、类书、政书、年鉴、名录、手册。
1)百科全书。是以词典形式编排的、荟萃各门知识的大型参考工具书。百科全书系统、扼要地阐述各科知识,并对每一学科提供定义、原理、方法、历史及现状、统计数字及参考书等方面的资料,并着重反映学术上的最新成就,通常分为综合性百科全书和专科性百科全书。综合性百科全书主要的有:《中国大百科全书》《环球百科全书》等,国外的主要有:《美国百科全书》《新不列颠百科全书》《钱伯斯百科全书》等;专科性百科全书主要的有:《科学技术百科全书》《中国医学百科全书》《中国企业管理百科全书》《化工百科全书》《材料科学与工程百科全书》《政治经济学百科全书》《最新网络百科全书》《能源百科全书》《药物制造百科全书》《海洋世界百科全书》等,国外的主要有:《美国学术百科全书》《优等生百科全书》《麦克米伦科学百科全书》等。
2)类书。是一种把古籍资料汇集在一起的资料汇编。大多按类编排,是中国特有的工具书种类。主要的有清《古今图书集成》、明《永乐大典》、唐《艺文类聚》、宋《太平御览》《册府元龟》,还有《三才图会》《图书编》等。汇集的内容有些是古书中的资料片断,有些是整篇的内容。3)政书。是记载历代典章制度的史书。是中国特有的工具书种类。给政书经过综合概括,以论述历代典章制度的沿革和发展。
主要的政书有:唐代杜佑的《通典》、宋代郑樵的《通志》、元马端临的《文献通考》,清修的《续通典》《续通志》《续文献通考》、《清通典》《清通志》、《清文献通考》,清刘锦藻《清续文献通考》等共10部。称为“十通”。
此外还有会典和会要。是记载一个朝代的典章制度的政书,但会典记事以官职为纲,注重记载章程法令和各种典礼;会要则分门别类记载,如《秦会要》《唐会要》等。
4)年鉴。是一种按连续出版的汇集一年内重要资料的工具书。年鉴可分为综合性年鉴、专门性年鉴和统计性年鉴。
综合性年鉴。全面地反映国家或国际上政治、经济、文化、科学等各个方面的发展状况和有关资料。主要的有:《中国百科年鉴》《中国年鉴》《广州年鉴》《广东年鉴》《武汉年鉴》等,国外的有:《世界年鉴》《惠特克年鉴》等。
专门性年鉴。通常围绕一定的学科、专业和专题等系统地收集有关的资料,反映其进展情况。中国主要的有:《中国对外经济贸易年鉴》《中国出版年鉴》《世界经济年鉴》《中国经济年鉴》《香港经济年鉴》《广州经济年鉴》《广东物价年鉴》《中国企业年鉴》《中国商业年鉴》《中国集邮年鉴》《中国农村年鉴》《中国教育年鉴》《中国人物年鉴》等,国外的主要有:《欧罗巴世界年鉴》《政治家年鉴》《联合国年鉴》《世界大事年鉴》等。统计性年鉴。用数字来说明有关领域的进展情况,为用户提供数值数据。主要的有:《中国统计年鉴》《中国人口统计年鉴》《中国城市统计年鉴》《湖北统计年鉴》《上海统计年鉴》等,国外的主要有:《联合国统计年鉴》《最新各国统计概览》《国际贸易统计年鉴》《联合国教科文组织统计年鉴》等。5)名录。是一种专门对人名、地名、机构名称进行汇集并给予简要揭示和介绍的工具书。名录可分为人名录、地名录和机构录。
人名录主要的有:《中华人民共和国党政军群领导人名录》《中国科学院科
学家人名录》《中国普通高等学校教授人名录》《工程人名录》等,国外的主要有:《国际名人录》《美国名人录》《民国时期中国传记词典》《中华人民共和国名人录》《20世纪主要作家》等。
地名录主要的有:《中国地名录》《全国乡镇地名录》《世界地名录》等。机构名录主要的有:《中国工商企业名录大全》《中国高等学校大全》《中国档案馆名录》等,国外的主要有:《美国大学与学院》《美国政府手册》《美国社团大全》《国际基金会指南》《科技机构名录》等。
手册。类似年鉴,但编辑出版时间不受限制,主要汇集某一学科或主题即概括全面又具体适用的知识和资料。手册可分为综合型手册和专门性手册。综合性手册。汇集多个领域的基本知识和参考资料,主要的有;《中华人民共和国资料手册》《生活科学手册》《新兴学科百科知识》《当代新兴学术手册》等。
专门性手册。汇集某学科和某专业的适用知识和参考资料。主要的有:《经济工作手册》《各国货币手册》《法学知识手册》《机械工程手册》《物理学手册》《数学手册》《世界近代史知识手册》《世界邮票知识手册》《国际经济组织手册》《国际组织手册》等,国外的主要有:《CRC化学物理手册》《医生案头参考书》《世界政治手册》等。
3.词语性工具书。主要包括各类字典和词典,都是汇集字、词、成语、并按一定的次序编排、解释的工具书。词语性工具书可以分为综合类、成语典故类和专科类三种。
综合类的主要有:《汉语大词典》《中华大字典》《新华字典》《中国书法大字典》《中文形音意综合大字典》《中国图书大词典》《难字小字典》《说文
解字》等,国外的主要有:《牛津动词短语词典》韦氏三版新国际英语词典》《美国传统英语词典》等。
第二节 数据库概述
数据库(DB DataBase)是数据管理的最新技术,是计算机科学的一个重要分支学科。数据库中存储的基本对象是数据(Data)。数据泛指计算机能够处理的各种事实、数字、字符等各类符号的集合。如文字、图形、图像、声音、银行的账户记录、产品的销售记录等。它们都可以经过数字化后存入计算机。
数据就是描述事物的的符号记录,用计算机进行存储时,同样要抽出能对事物进行描述的特征内容组成一个记录(record),如银行账户记录中,人们可将账户的账号、存款、余额、取款、日期作为重要的内容进行描述。如:210000001852,80000,50000,30000,2002/3/18 意思就是账号为210000001852 的客户,存款80000元,于2002年3月18日取款3万元,还余50000元。
一、数据库的界定
数据库是指长期存储在计算机存储设备上的、可供计算机快速检索的、有组织的、可共享的数据集合。数据库中的数据按一定的数据模型组织、描述和存储,其中的每条记录类似于工具书的每条款目,字段类似于(篇名、作者、中文刊名、年、期)类似于著录项目,使用关系模型组织的,其关系数据库则类似于检索途径较多。检索功能强大的,则由分类目录、主题目录、作者目录、书名目录组成“目录体系”。
通常对数据文件要执行的操作包括:从现有的文件中检索数据、更改
现有文件的数据、删除现有文件中的数据、向现有文件中插入数据、删除数据库中的现有文件等。
数据管理系统是位于用户与操作系统之间的一层数据管理软件,其管理功能具体体现在以下三个方面:
1.数据定义功能。指用户可通过数据库管理系统提供的数据定义语言(DDL)对数据库中的数据对象进行定义。如用描述数据长度的语句或表象分别定义“篇名”“作者”“中文刊名”“年、期”字段的存储空间;用数据命名语句定义“期刊篇名数据库中”的数据名称分别为“篇名”“作者”“中文刊名”“年、期;
2.数据操作功能。即用户可通过数据管理系统提供的数据操作语言(DML)实现对数据库的基本操作如:数据查询、数据更新、数据插入、数据删除; 3.数据库管理功能。数据库在建立、使用和维护过程中,为保证数据的安全、多用户对数据并发使用及发生故障后的系统恢复,因而要有数据库管理系统统一提供最基本的数据保护功能,统一控制数据库。
目前,在数据库的种类、数量,以及特定数据库本身数据记录的数量都在迅速增多,数据库的安全和定期维护工作越来越重要,需要专门人员来完成,这些人员被称为DBA即数据库管理人员,是IT方面的专业人员,包括一些系统程序员和技术助理,数据库管理员的功能是由一组人来承担,他们的工作是创建实际的数据库,执行需要实施各种决策的技术控制,并负责确保系统执行正确的操作。
因此可以说一个数据库系统是由数据库、数据管理系统、数据库管理员共同组成的计算机系统。他们之间的关系为:数据库是由数据库管理员
运用数据库管理系统建立数据库结构、增加记录、删除记录、修改记录、查询检索、以及进行日常的安全维护等操作的。
二、数据库的结构
可以从数据库管理系统和数据库用户两个不同的角度来考察数据库的结构。从数据库管理系统的角度看,是数据库管理系统内部的面喜爱能够数据库管理员的结构;从数据库用户的角度看,数据库的结构有集中式数据库结构、分布式数据库结构、并行数据库结构、异构数据库结构、客户/服务器结构和浏览器/服务器结构。下面从数据库用户的角度来介绍数据库的结构。
1.集中式数据库结构。指建立在单一计算机系统上的数据库。数据集中存储在一个大容量的外存储器上,数据库用户只能从这里获取所需要的数据。这类数据库可用网络连接,当需要对网络上两个以上数据库中的数据进行综合处理时,必须从一台机器退出后,在登陆到另一台机器上,因此这类数据库只适用于中、小企业、事业单位。
2.分布式数据库的结构。这类数据库的数据不是全部存储在一台计算机上,而是分散存储到一个计算机网络中的多台计算机上。虽然地点分散,但在整体结构上,它将整个数据库作为一个整体进行管路和控制,各台计算机具有完成局部应用的独立处理的能力,还可借助通讯子系统存取网上其它计算机上的数据,从而参与全局应用,达到共享。分布式数据库最重要的问题是考虑各台计算机之间的协同工作,它比集中式数据库管理要复杂得多。
3.并行数据库结构。并行计算机系统就是从应用多个微处理机、多个内存
和多个磁盘等硬件方面考虑协同工作的技术,系统可根据需要使用数个、数十个、甚至上千个微处理机协同工作,形成大规模并行处理计算机系统,可以完成一些单个维机无法完成的复杂任务。
并行数据库系统就是在并行机上运行的具有并行处理能力的数据库系统。它和分布式数据库的区别在于网络通讯方面,分布式大部分是串行方式,存在“时延”的问题,而并行式使用的是内部并行网,“时延”问题大大缓解,效率大幅度提高。
4.异构数据库结构。是指多个各不相同的数据库子系统组成的数据库系统,主要满足一些大型机构中的应用需要。如已使用了产品部件数据库,其帐目管理则使用网状数据库管理系统、公司销售人员管理则使用关系数据库管理系统。为更好地了解公司的整体情况如:资产情况、销售情况、帐目情况、人员情况、公司的新举措等,公司内便长期存在着异构数据库及其管理系统。
5.客户/服务器结构。是在计算机网络技术和分布式计算的基础上发展而来,它把一个计算机应用系统分成3个基本组成部分,即:服务器(为多个用户提供共享资源服务的计算机系统);客户机(为最终用户提供业务处理及用户界面的计算机系统);中间件(连接服务器和客户机的部分)。
在同一个网络中,客户机根据用户的业务需要,为用户提供相应的人-机交互界面,供用户向服务器提出数据服务请求;通过网络将服务请求传递给相关的服务器,服务器端按请求组织数据,并通过网络把服务结果传送给客户端;客户端完成最终业务处理或直接显示服务器反馈的内容。6.浏览器/服务器结构。是一种以Web为基础的新型的管理信息系统,该结
构客户/服务器结构中的服务器部分分解为一个数据服务器于一个或多个应用服务器即Web服务器,从而构成一个三层结构的服务体系。第一层为表示层,即浏览器;第二层是Web服务器,属功能层,完成用户的应用功能,第三层是数据库服务层即数据层,接受用户请求后独立进行各种运算。
这种结构简化了用户端,使用户操作更加方便,它还与Intranet/Internet完全兼容,具有良好的开放性。
三、数据库的类型
不管是传统数据库还是新一代数据库,都有一个共同的特点就是数据库应用类型的特殊性,即各种数据库的产生都是为某种特殊的(或具体的)的需要而出现的,进而成为数据库研究的不同的分支领域。
1.传统数据库。通常指由层次、网状和关系数据模型建立的各种数据库。他们主要应用于联机事务处理的各个领域。
1)情报数据库。20世纪60年代美国首创联机数据检索的先河,70年代推出国际联机检索服务,至20世纪末,情报数据库已成为数据库产品中最为成熟的应用系统。在世界上许多国家,联机情报检索系统已得到广泛的应用。
情报数据库的开发与利用最早以文献数据库为主,包括书目数据库(如MARC数据库)、一次文献数据库(如:化学文摘CA、工程索引EI、世界专利WPI等),现已发展成为全文数据库(如:美联社新闻全文库、金融时报全文库、中文期刊全文库等)。
按提供情报的等级来分,情报数据库可分为参考数据库和源数据库; 按存储的数据类型的不同,可分为文献数据库、数值数据库、事实数
据库和图像数据库;
按存储介质的不同,可分为磁带数据库、磁盘数据库和光盘数据库。参考数据库。参考数据库中的数据是文献或事实的参考内容。主要为用户提供查找源文献或事实的线索,指引用户获取原始信息的出处,如文献题录数据库,它提供一次文献的主要元数据。
源数据库。指包含原始文献信息全文、完整数据或节录的情报数据库。通常有全文数据库、数值数据库等。它可以直接提供用户需要的事实、数值或文字信息。
文献数据库。使用数据库方式组织的文献信息的集合。是开发最早、使用最为广泛的一种情报数据库,由情报单位或专门的机构生产、制作。内容包括文献的编号、题名、出处、日期、作者、内容等信息。
现代管理推动情报数据库从以文献数据库为主发展到以非文献型数据库为主,如:数值数据库、事实数据库、图像数据库等在应用领域逐渐占据了优势。
数值数据库。是指含有数值数据的一种源数据库。存储的是数字或用数字与某些特殊字符表示的数值信息,如:经济统计数据库、及其各类统计数据库等。
事实数据库。这类数据库中包含对客观事物的概念、属性和变化情况的描述信息,如中国科学院化学所建立的质谱数据库系统,有38711张国际标准质谱图,存储的数据属性包括化学名称、分子式、分子量、杂原子、离子峰等,还提供原始谱图阅读子系统谱图质量指数计算、统计分析子系统、香料化合物质谱检索子系统。
图像数据库。是用数据库方式组织的图像信息的集合,为用户提供图像数据和图像数据检索的方法,如:卫星测到的地形图信息库,天气云图信息库等。
不同行业的用户除了使用专业性强的数据库外,对跨学科的综合性情报数据库也有应用需求,因此,情报数据库无论从内涵还是外延来看,涉及面相当广泛,内容十分丰富。
2)图形数据库。是以数据库方式组织的图形信息集合。主要为用户提供图形数据和图形数据的检索方法。现代科学和许多工程领域已采用计算机图形系统,特别在计算机的辅助设计CAD中,图形数据库起着越来越重要的作用。
2.适用于专门应用领域的数据库。在传统数据库的基础上,结合各个应用领域的特点,研究适合该应用领域的数据库,是数据库技术发展的趋势之一。
1)统计数据库。SDB是用于存储、查询统计分析类型数据的特种数据库,数据来自军事、国民经济、科学等各部门,是一类重要的信息源。特点有: 分类属性和统计属性。分类属性数据用于说明计量数据的性质;统计属性的数据是用于统计分析的计量数据。如:在校博士生的统计数据库中有4个属性:省、市、年龄段、人数。其中“人数”表示计量数据,使统计属性;“省、市、年龄段”则表示参数数据,用于对“人数”加以类别说明,使分类属性。
分类属性层次结构复杂。如在以上的统计数据库中,属性“省”包括多个“市”,同时还包括多个“年龄段”,每个“年龄段”才对应最终的统计数
据。
宏数据与微数据。统计数据库可分为宏数据统计数据库和微数据统计数据库两类。如以上的博士生统计数据库的微数据可以包括姓名、年龄、性别、专业等属性,进行综合统计后,可得到各专业的人数,而产生宏数据统计数据库,其属性只有两个:专业、人数。
因此,在统计数据库中,微数据是描述实际领域中不可分实体的数据;宏数据是对微数据统计数据库进行综合分析的结果数据。
静态性。由于数据是从实际领域或科学实验与模拟中采集来的,当采集结束并修改错误后,所有数据将不会再进行修改,这就是统计数据库的静态性。
统计数据库的应用领域在环境保护、气象模拟、空间科学、信息管理等。
2)工程数据库。是存储、管理和使用工程设计所需数据的数据库。数据库所处理的信息主要是计算机辅助设计和计算机辅助制造CAM系统中所包含的数据。
工程数据通常可分为两大部分:一部分是存放在标准数据库中的标准数据,是静态的数据;另一部分是运用程序运行的结果或中间结果,是动态的数据。
现实设计中,一个工程对象往往有几
十、上百个简单实体组成,其工程数据包括产品的几何定义,工程分析、制造工艺、计划管理等方面,对产品设计、制造、管理和销售各个方面的内容都要涉及。因此工程数据拥有的数据是多方面的,除字符和数字外,还有图形,这是一种重要的数据
类型。在完成一个设计的工程中,一个图形对象可能由成千上百个零部件组成,所以形成的图形数据不仅结构复杂,而且数据量也非常地大,需要占据相当的内存空间。
3)空间数据库。比较重要的空间数据库有两种:一是计算机辅助设计数据库,它是用于存储设计信息的空间数据库,主要用于构造建筑物、汽车和飞机等实体的信息;还有一类是用于集成电路和电子设备设计图的信息。二是地理数据库。它是用于存储地理信息(如地图)的空间数据库。
空间数据库的信息适用于描述所有呈二维、三维和多维分布的关于区域的现象。空间数据既要表示物体本身的空间位置信息,还要表示物体所处空间的关联信息。
地理信息系统是目前研究较为热门的空间数据库应用,主要用数字、文字、图像、图形等来表征地理范围或地理环境固有实体或实体的数量、质量、分布特点、相互联系和规律性。地图数据、遥感图像数据、数字地形数据等都属于地理数据。
地理信息系统的用途有多种多样。包括车辆导航系统、公共服务设施的分布网络信息如:电话、供水系统、以及可为生态学家和规划者提供的土地使用信息等。
从20世纪80年代开发地理信息系统以来,该系统在解决道路、输电线等基础设施的规划逐渐转向更复杂的领域,用于解决全球性的问题。3.新一代数据库。指传统的数据库技术和其他计算机技术相互结合、渗透,使数据库中产生出新的内容,从而满足新的数据库应用领域要求的数据库。1)分布式数据库。研究始于20世界70年代中期,是在集中式数据库的基
础上发展起来的,他集成了两个不同领域的技术:数据库技术和网络通讯技术。这种数据库有如下的特点:
数据的分布性。数据库中的数据分布在计算机网络的不同结点上,而不是集中在一个结点上。
数据的逻辑相关性。在不同节点上的数据逻辑上属于同一个系统,数据间有相互的联系,不同于由网络连接的多个独立的数据库系统。
结点的自制性。每个结点有独立的计算机、自己的数据库和自己的数据库管理系统,可供其他结点上的用户存取以提供全局性的应用。
在大型公司和企业,数据的存储和使用都从集中式转为分布式,即在企业的各个地方都能访问共享信息,使企业的运作效率更高。
2)多媒体数据库。该研究始于20世界80年代后期,是数据库技术与多媒体技术相结合的产物。由文本、图像、声频、视频等多媒体数据组织起来的集成数据库。多媒体数据库有以下几个特点:
数据量大。播放1分钟的视频和音频数据需要几十兆字节的数据空间,而这样的数据空间可以放一个小型传统事物处理的数据库。结构复杂。可以是文字、图像、声音等复杂的混合数据。
时序性。要有一定的同步机制,如配音和文字需要与画面同步,这就要有时序性的要求。
数据传输的连续性。声音和视频数据的传输必须是连续而稳定的,否则会出现失真的情况。
多媒体数据系统在办公自动化、计算机辅助设计、计算机辅助制造、教育等领域中应用广泛,运用了大量的文本、图形、图像、声音等多媒体
数据,而这些多媒体数据的存储、管理、查询和更新等都不同于传统数据库中的数字、字符数据,要有专门的数据结构、存储技术、查询和更新方式来支持。
3)面向对象数据库。研究始于20世纪80年代,面向对象数据库的数据比较抽象,操作比较复杂,如一个地图对象可以定义为经度、纬度、地点的时间维;地形可以用点到点之间的等高线来定义等,除定义外,就地图对象而言,在它的各区域还含有隐藏的数据,如人口密度、植物、水源、建筑物的信息。这些即是派生出来的抽象数据类型。
4)实时数据库。实时数据库是有时间限制的数据和有时间限制的事物,如股票交易中,计算机所提供的“当前”股票的价格限制在不超过几秒的时间内,过了这个时间,这一股票价格便不再具有意义。
实际应用中,事物的实时要求决定了实时数据库不仅要具备传统数据库管理系统的逻辑一致性限制,还要具备时态一致性限制,定时性是实时数据库的根本特点,如“每3分钟取样1次”、“每天8点钟开机”、“若温度达到800度,则在3秒内加入制冷剂”等。
此外,新一代数据库还细分为演绎数据库、模糊数据库、主动数据库、并行数据库、事态数据库、移动数据库等。
4.数据仓库技术。数据仓库是指一个用于更好地支持企业或组织的决策分析处理的、面向主题的、集成的、随时间不断变化的数据集合。
在数据库的应用领域,当前的数据处理可以分为操作型处理和分析型处理。操作型处理。也叫事务处理,是指对数据库联机的日常操作,大多为企业的特定利用服务,主要是对数据库记录的查询、修改、删除、更新
等;分析型处理。则是用于管理人员的决策分析,这类应用要涉及大量历史数据的访问。
数据仓库即是用于决策分析处理的系统。
数据仓库作为决策支持系统DSS的一种有效而可行的体系化方案,包括3个方面的技术内容:数据仓库技术(DW,Data Warehousing)、联机分析处理技术(OLAP,On-Line Analytical Processing)、数据挖掘技术(DM,Data Mining)。
数据仓库。是进行分析决策的基础,以传统的数据库技术作为存储数据和管理资源的基本手段,以统计分析技术作为分析数据和提取信息的有效方法,以人工智能技术作为挖掘知识和发现规律的科学途径。因此,数据仓库是多学科相互结合、综合应用的技术。
联机分析处理技术。该技术专门用于支持复杂的分析操作,面向决策人员和高层人员,可以根据要求对大量的数据进行查询处理,并将查询结果以直观的方式提供给分析决策人员,在企业的运作、市场需求和制定企业未来的发展方向有重要的作用。
数据挖掘技术。是一种决策支持过程,主要基于人工智能、机器学习等技术,自动分析企业数据,进行归纳推理,从中挖掘潜在模式以帮助决策者做出正确的决策。如从大量股票行情历史记录中,挖掘出股票变化的规律和预测今后的趋势。
第四章 网络检索
第一节
因特网信息检索的特点
因特网通过标准通信方式(TCP/IP协议)将世界各地的计算机网络连接起来。在因特网上,信息存放在世界各地的计算机上,任何网络包括校园网、企业网、国家网,只要通过一个结点介入因特网,整个子网就有可能成为因特网的一个部分,网上用户就可以通过计算机和因特网共享信息资源或者交换信息。开放的信息资源和信息检索工具超文本链接和使用的简便性等特点,使因特网成为知识经济的重要组成部分。
一、开放性。因特网开放性表现在他提供大量免费信息资源和检索工具,允许用户随时查询,并提供大量信息交换场所,如获得公用共享软件,查询相关的事实和数据信息,还可随时查阅个图书馆目录和文献资料,使用远距离的信息资源。
其次,因特网还提供注册是信息(即有偿信息资源),因特网上信息查询站点众多,用户可根据自己的徐上网查询信息,国际上著名的联机检索服务受到冲击,纷纷再在因特网上设立信息检索网站,这些数据库的使用通常就需要支付费用。
再次,因特网上存在许多交流式信息,如新闻论坛,使用户足不出户即可参与各种主题讨论。
因特网向商业用户开放后,网上的信息更为丰富,在国际商业活动中,在开放的因特网中,用户能获得最新的商业信息,了解商业机会和发展趋势。
TCP/IP是一个协议集,它有以下的特点:它是开放的协议标准,可以免费使用,并独立于特定的计算机硬件和操作系统;可以运行在局域网和广域网中,更适用于网络互连;有统一的网络地址分配方案,使网络中的
每台主机都有唯一的地址。
因特网高度开放性带来的问题:新鲜权、非法信息的扩散。有人担心,因特网有可能出现不可预计的后果。
二、链接性。因特网的链接性主要体现在环球网(WWW, World Wide Web)上,www是因特网上最受欢迎、最普及、最新的信息检索服务系统,它把网上现有的资源全部链接起来,使用户能够查找已经建立了WWW服务器的站点(Site)的超文本或超媒体信息资源。
超文本。指的是计算机中的一种文档,用户在阅读这种文当时,从其中的一个地点移向另一个地点,获从一个文档已向另一个文档,都是按非线性或非顺序方式进行的,用户可以利用鼠标随时跳至于当前正在阅读的文档相关的新文档或新地点。
超媒体。是超文本的自然扩展,是超文本在内容和形式上的一种进步,使超文本与多媒体的组合。超媒体即使把死板的文档标成了活生生的文档,把个人计算机变成了多媒体设备,比音响、电视更为生动。
设计WWW的一个目的是为了能够很容易地检索到因特网上的文档,而不管这些文档在什么地方。当超文本作为WWW文档的标准格式后,人们制定了能够很快查找这些超文本文档的协议,即超文本传输协议(HTTP, HyperText Transfer Protocol)。
三、简便性。由于不受时间和空间的限制,世界各地的用户可以实时低、全天候地检索并获取各种形式的信息,因特网以交互方式,提供丰富、方便、界面友好的信息检索工具,通过这些工具的使用,用户可以获取所需的信息资源。
因特网提供的信息检索工具有:E-mail , WAIS , BBS , Gopher , Telnet, FIP Archie, WWW.其中,WWW界面极为方便,每个人都可以通过浏览器浏览和检索信息。
此外,因特网还提供各种类型、功能强大的搜索引擎,极大地方便了网络信息的检索。
第二节 传统网络信息检索服务工具
因特网发展迅速,新技术、新工具层出不穷,一些传统的工具至今仍在使用,一些则被新的工具所代替。
主要的工具有:远程登录、文件传输服务、电子邮件、电子公告牌、Archie、广域消息服务、Gopher、WWW、代理服务器和NAT。
第三节 搜索引擎
搜索引擎被称之为“网络之门”(Search Engine)。搜索引擎作为因特网的导航工具,是通过采集、标引众多的因特网资源来提供全局性网络资源控制与检索机制,目标是将因特网所有的信息资源进行整合,方便用户查找所学的信息。搜索引擎本身也是一个WWW网站,与普通网站不同的是:搜索引擎网站的主要资源是描述互联资源的索引数据库合分类目录,为人们提供一种搜索因特网信息资源的途径。
搜索引擎的索引数据库,以网页资源为主,有的还包括电子邮件地址、新闻论坛文章、FTP, Gopher 等因特网资源。
一个完整的搜索引擎有以下几个部分构成:人工或自动巡视软件如:
第三篇:检索语言
一、名词解释
查全率是指系统在进行某一检索时检出的相关文献量与系统文献库中相关文献总量的比率它反映该系统文献库中实用的相关文献量在多大程度上被检索出来。
检索语言是根据信息检索的需要创造出来的一种人工语言是在文献检索领域中用来描述文献特征和表达信息检索提问的一种专用语言。标题词法是一种以标题词作为主题标识,以词表预先确定的组配方式标引和检索的主题法。标题词指经过词汇控制,用来标引文献的 词或词组,通常为比较定型的事物名称。
信息素质:是指判断何时、何地需要信息,并能有效的定位、获取、评价和利用信息的一系列能力的总和。
二、简答题
1.简述检索语言的基本功能
答:
1)对文献的信息内容(及某些外表特征)加以标引的功能。要求利用检索语言能够正确标引文献信息内容及其外表特征。
2)集中文献的功能。对内容相同及相关的文献信息加以集中或揭示其相关性,提高信息检索效率。
3)信息组织的功能。对大量文献信息加以系统化或组织化,使文献信息的存储集中化、系统化,便于信息检索者按照一定的排列次序进行有序化检索。
4)一致性功能。便于将标引用语和检索用语进行相符性比较,保证不同检索人员表述相同文献内容的一致性,以及检索人员与标引人员对相同文献内容表述的一致性。
5)获得最高查全率和查准率的功能。保证检索者在按不同需要检索文献时,都能获得最高的查全率和查准率。
6)桥梁和纽带功能。在文献信息标引者和检索者之间发挥桥梁和纽带作用,使二者在理解和表达文献信息主题方面达到一致,以提高信息检索的准确性。
2.分类检索语言的作用
答:
① 这是进行分类标引和组织分类检索工具的规范。② 它能作为对文献资料进行分类排架的依据。但在档案机构一般要采用另一种类型的分类体系来组织分类排架。③ 它是检索者从分类途径检索文献资料的指南。④ 它是文献工作者工作中常用的参考手册。
三、文献信息检索
四、课程学习体会
学习《文献检索》课的心得体会
通过一个学期文献检索学习,我学到了很多对今后学习和生活很有用处的知识。在学习《文献检索》前,我发现对于专业性较强的学术文章的搜索知识我基本上是用百度和谷歌等来完成的,但这些文章不仅在数量上少,而且专业性较差,根本达不到预期的效果。不过现在文献检索给我开辟了一个新的空间,新的领域,让我学到了对于专业性较强的数据库的应用方法,如CNKI、维普数据、万方、超星数字图书馆、中国专利信息网、中国标准全文数据库、SPRINGER、OCLC、EBSCO、EI、SCI这十一个数据库的应用,学会使用这些数据库对我以后在查找文献方面提供了很大的便利。
21世纪是知识经济和网络时代。快捷准确,及时有效地检索和利用信息,是知识经济和网络时代对信息检索提出的新要求,也是置身21世纪的人们必须具备的基本信息素养。在这个充满机遇和挑战的时代,信息检索对我们的创意或事业能否取胜也是关键所在。
那么,就在这样一个信息发达的社会中,大学生应该具备什么样的信息素养,如何合理的运用这些信息,如何培养信息素养,这是一个很值得讨论的问题,因为从某种程度上说,互联网上,有时候信息泛滥,各种不健康的内容,通过各种缝隙,渗入到这个庞大的信息世界中,所以我们大学生必须要提高自己的信息素养,不仅要懂得如何利用这个庞大的信息资源,而且要自觉避开那些不良信息,让网络为我所用。
信息素养是文献信息检索的重要组成部分。信息素养是人们在工作中运用信息学习信息技术,利用信息技术解决问题的能力。作为现代大学生的我们,不仅要学习科学文化知识,还要学习如何培养自己的信息素养,即重视信息理论知识素养,不仅是各高校教育改革的需要,更是时代发展的需要和个人发展的需要。正是因为信息检索的重要性所以我们必须要认真的学习,信息素养的本质是全球信息化需要人们具备的一种基本能力。它包括:能够判断什么时候需要信息,并且懂得如何去获取信息,如何去评价和有效利用所需的信息。信息素养涉及各方面的知识,是一个特殊的、涵盖面很宽的能力,它包含人文的、技术的、经济的、法律的诸多因素,和许多学科有着紧密的联系。信息技术支持信息素养,通晓信息技术强调对技术的理解、认识和使用技能。而信息素养的重点是内容、传播、分析,包括信息检索以及评价,涉及更宽的方面。它是一种了解、搜集、评估和利用信息的知识结构,既需要通过熟练的信息技术,也需要通过完善的调查方法、通过鉴别和推理来完成。信息素养是一种信息能力,信息技术是它的一种工具。
总之经过这一学期的学习我对文献信息检索这个课程有了更深刻的了解在这个信息爆炸的时代我们必须尽可能多的掌握更多的信息尽可能多的完善自己的知识所以掌握文献数据库的应用对今后的学习、生活会有很多帮助文献信息检索必将成为我们今后走向成功的纽带。
第四篇:信息检索
网络资源与文献检索考试题(计算机2010-
1、2,通信2010-
1、2)
一、根据课程介绍的数据库完成以下填空(每空2分,共20分):
1、检索策略的调整,既可以是(检索范围)的调整,也可以是检索途径的调整。
2、以作者本人取得的成果为依据而创作的论文、报告等,并经公开发表或出版的各种文献,称为(一次文献)。
3、数据库主要由文档、(字段)和(记录)三个层次组成。
4、维普资讯的《中文科技期刊数据库》(全文版)提供了(5)个检索途径。
5、数据库的两大类型有(参考数据库)和(源数据库)。
6、世界公认的三大科技文献检索系统是(SCI(科学引文索引))、(EI(工程索引))、(ISTP(科技会议录索引))。
二、根据自己已经选定的题目,选定8个检索系统或数据库进行检索;并按下列标准考试格式提交(分): 1.检索课题名称:高效能并行计算机体系结构研究(High performance parallel computer architecture research)(2分)2.课题分析:(3分)
(从课题名称中分析出主题概念,并给出比较规范的中文和英文关键词)
“高效能”是本课题的主要内容,而要研究的内容是“并行计算机” 的“体系结构”。其他词可不作为检索词。只起连带或修饰作用。由此得出如下检索词(按其对课题影响程度排序):
中文关键词:1 计算机 2 高效能 3 体系结构 英文关键词:(1)computer
(2)high-effect
(3)architecture 3.选择检索工具并依中外文次序列出(4分):
[要求:选定2个中文数据库、2个搜索引擎、2个数字图书馆、2个英文数据库共8个数据库]。
两个中文数据库:(1)万数据库库(会议论文)(2)Open Access资源一站式检索服务平台
两个数字图书馆:
(1)CNKI 数字图书馆:中国期刊全文数据库(CNKI 数据库镜像)(2)超星数字图书馆(图书检索)
两个搜索引擎:(1)谷歌(Google)(2)百度(百度)两个英文数据库:
(1)《美国工程索引》(Ei village2)
(2)Elsevier数据库
(检索范围确定为2008年-2013年国内外发表的有关该课题的图书、专著、期刊论文、学位论文、会议文献等各类文献)。
4.构建检索策略(3分):
(将已经分析出的主题概念用“and”、“or”、“not”等布尔逻辑算符和优先算符“()”连接起来,以表明所检索概念之间的逻辑关系和检索顺序。
因“高效能”为课题的主体,应先检索,“并行计算机”和“体系结构”应在检索结果中同时存在。故制定如下检索策略。“()”表示优先、“*”表示并且。检索算法:(高效能)*并行计算机*体系结构 时间范围:20108-2013 文献范围:期刊论文、学位论文、会议论文、专著
5.简述检索过程(8分):
说明课题分析时中外文关键词确定的过程;利用不同的检索系统时所使用的检索途径和检索方法(如,分类途径;题名途径;关键词途径;摘要途径;刊名途径;全文途径;代码途径等)以及对检索结果的策略调整等。简述检索策略调整的过程:
(1)在Open Access资源一站式检索服务平台中
a.检索关键词为“(高效能)*并行计算机*体系结构”搜索,搜索结果为4条。b.4条满足搜索条件。
(2)万方数据库(会议论文)
a.由于“万方数据库(会议论文)”收录的文献比较单一,为了保证查全率,使用(高效能)*并行计算机*体系结构检索运算式,检索范围选择:全字段中检索,不限年代,检索出记录 4 条。
b.检索结果4条,满意。(3)在 CNKI 中国期刊全文数据库中(CNKI 数据库镜像):
a、为保证查全率,使用“(高效能)*并行计算机*体系结构”检索运算式,检索范围选择:所有专辑、全文中检索,检索出记录 222 条。
b、上述检索策略得到的检索结果 222 条过多,考虑缩小检索范围。改全文检索项为篇名检索。使用“(高效能)*并行计算机*体系结构”检索运算式,检索范围选择:所有专辑,篇名中检索,检索出记录 0条。
c、上述检索策略得到的检索结果 0条未能达到要求,考虑扩大检索范围。改篇名检索项为关键词检索。使用“(高效能)*并行计算机*体系结构”检索运算式,检索范围选择:所有专辑,关键词中检索,检索出记录仍然为 0 条。d、根据检索结果,所以只能从第一次检索出来的文献中选择了。(4)在超星数字图书馆(图书检索):
a、为保证查全率,使用“(高效能)*并行计算机*体系结构”检索运算式,检索范围选择:所有专辑、全文中检索,检索出记录 125 条。
b、上述检索策略得到的检索结果 222 条过多,考虑缩小检索范围。改全文检索项为篇名检索。使用“(高效能)*并行计算机*体系结构”检索运算式,检索范围选择:所有专辑,篇名中检索,检索出记录 90条。
c、上述检索策略得到的检索结果 0条未能达到要求,考虑扩大检索范围。改篇名检索项为关键词检索。使用“(高效能)*并行计算机*体系结构”检索运算式,检索范围选择:所有专辑,关键词中检索,检索出记录为 56 条。d、检索结果4条,满意。
(5)在谷歌(google):使用“(高效能)*并行计算机*体系结构”检索运算式,约有2440000项符合(高效能)*并行计算机*体系结构的查询结果。
(6)百度(baidu):使用“(高效能)*并行计算机*体系结构”检索运算式,百度一下,约有3920000篇符合(高效能)*并行计算机*体系结构的查询结果。(7)在《美国工程索引》(Ei village2):选择快速检索,输入检索词:第一、high-effect;第二、computer;第三、architecture检索结果2篇。
(8)在Elsevier数据库:
选定在Elservier中期刊、图书、文摘数据库等全部文献资源中检索2000年以后的关于高效能并行计算机体系结构研究的相关文献。利用确定的检索策略((high-effect)*computer *architecture),文献全文(含文献题目、摘要、关键词)中检索,检到217875篇相关文献;
在文献题目、摘要和关键词中检索,检索到14204篇相关文献; 在文献关键词中检索到98篇相关文献; 在文献题目中检索到195篇相关文献。
6.标示检索结果(16分):
要求:1 按顺序标示切题题录及其文献类型,每个数据库1条。要对检索结果进行适当加工,将无关内容和格式去掉。
一、利用 万方 数据库系统检索。检索到4条;选用 1 条。
高效能计算中的系统虚拟化技术 【作者】:王星焱,为峰 【作者单位】: 江南计算技术研究所,江苏 无锡 214083
【母体文献】: 2008年中国计算机学会体系结构专委会学术年会(ACA'08)论文集
【会议名称】: 2008年中国计算机学会体系结构专委会学术年会(ACA'08)【会议时间】: 2008年11月05日
【会议地点】:南京 【主办单位】:中国计算机学会
二、利用 CNKI 中国期刊全文 数据库系统检索。检索到222条,选用 1 条。
基于LMDI的南京市工业经济能源消费碳排放实证分析 【英文篇名】:Analysis of Carbon Emissions for Industrial Sector Energy Consumption in Nanjing Based on the LMDI Model
【作者中文名】:史安娜;李淼;
【作者英文名】:SHI Anna1;2;LI Miao1;2(1.Business School of Hohai University;Nanjing 211100;China;2.The Recycling Economy Research Center of Jiangsu Province;Hohai University;Nanjing 210098;China);
【作者单位】:河海大学商学院;河海大学江苏省循环经济研究中心;
【文献出处】:资源科学, Resources Science, 编辑部邮箱 2011年 10期
期刊荣誉:中文核心期刊要目总览 ASPT来源刊 CJFD收录刊 【英文关键词】:Carbon emissions;LMDI;Energy consumption;Nanjing;【摘要】工业经济的能源消费是碳排放的主要来源,研究城市工业经济能耗碳排放的特征和影响城市工业经济能耗碳排放的因素具有很强的代表性。本文以南京市为例,首先从碳排放总量和碳排放强度等指标分析了2000年-2009年南京市工业经济碳排放现状和特征,然后运用LMDI方法构建了南京市工业经济能耗碳排放因素分解模型,定量分析了2000年-2009年间产业规模、能源强度、能源结构和能源排放强度四个影响因素对南京市工业经济碳排放的影响。研究结果表明产业规模效益是南京市工业经济碳排放增长的主要促进因素,能源强度效应是南京市工业经济碳排放增长的主要抑制因素,能源结构效应和能源排放强度效应对南京市工业能源结构效应没有明显变化。在此基础上,提出了减排的相关政策建议。
三、利用 《美国工程索引》(Ei village2)系统检索。检索到 2 条; 选用 1 条。
Survey of task scheduling research progress on multiprocessor system-on-chip
Li, Renfa(School of Computer and Communication, Hunan University, Changsha 410082, China);Liu, Yan;Xu, Cheng Source: Jisuanji Yanjiu yu Fazhan/Computer Research and Development, v 45, n 9, p 1620-1629, September 2008 Language:Chinese Database: Compendex Abstract | Detailed |Cited by in Scopus(6)
四、利用 Elsevier 数据库检索。检索到 98 条; 选用 1 条。
A Fuzzy-Active Force Control Architecture Based in Characterizing Nonlinear Systems’ Behavior Hanif Ramli M.S.Meon, T.L.T.Mohamed, A.A.M.Isa, Z.Mohamed Faculty of Mechanical Engineering, Universiti Teknologi MARA, Shah Alam, Malaysia Corresponding author.Tel.: +6 03 55436287;fax: +6 03 55435160.Available online 25 August 2012 Abstract This paper presents Active Force Control(AFC)based architecture in characterizing the twin rotor multi-input multi-output(MIMO)system(TRMS).The proposed architecture is expected to produce an optimum control gains in both pitch and yaw responses by introducing decoupling function between pitch and yaw responses.The internal change corresponds to coupling effects, gust and wind turbulence are very difficult to compensate by the classical PID control, but both of them are stamped out as AFC scheme is implemented into the control strategy.The performance of TRMS is further optimized by the realization of hybrid strategy in which an artificial intelligence Fuzzy Logic is integrated into the control architecture.Keywords:
Active force control(AFC);Fuzzy logic(FL);High nonlinearity;Coupling effect;Decoupling function
五、利用 谷歌(google)检索。检索到 2440000 条; 选用 1 条。面向分布共享存储体系结构的高效能OpenMP关键技术研究-《国防...cdmd.cnki.com.cn/Article/CDMD-90002-2008098532.htm 作者:黄春-2007
高效能计算机系统离不开高效能的程序设计环境,尤其是未来的百万亿次、千万亿次...大规模并行计算机体系结构,设计实现了OpenMP并行编译器CCRGOpenMP。
【摘要】: 高端计算发展到今天,已经从单一地追求高性能转向致力于实现系统的高效能,包括提高系统的性能、可编程性、可移植性和健壮性,同时降低系统的开发、运行以及维护成本。高效能计算机系统离不开高效能的程序设计环境,尤其是未来的百万亿次、千万亿次计算机系统所面向的应用是多学科和多尺度的,这些应用的复杂性要求各学科的科学家和软件专家一起设计、管理和维护应用程序。各学科专家的参与对程序设计环境的性能、可编程性、可移植性以及容错性提出了更高的要求。OpenMP具有易编程、支持增量式程序设计模式、可维护性好以及可移植性高等特点,在未来很长一段时间仍将是主流的并行程序设计语言。论文紧紧围绕如何为大规模并行系统开发高效能OpenMP程序设计环境这一主题,对大规模分布共享存储(Distributed Shared Memory,DSM)系统上OpenMP实现的关键技术、面向DSM系统的OpenMP语言扩展、编译指导的数据预取、OpenMP的检查点/续算技术以及面向OpenMP的低功耗优化展开研究,取得了以下创新性成果:
1、针对大规模并行计算机体系结构,设计实现了OpenMP并行编译器CCRGOpenMP。提出了编译时和链接时协同的OpenMP共享数据放置策略,不仅克服了在分布操作系统上需要显式分配共享内存的缺点,而且为检查点的数据局部性优化提供了有力支持。在OpenMP实现上,采用了大量的源级优化策略以提高程序性能。对于科学计算和模拟程序,在我们的SCCMP系统上,CCRG OpenMP性能与采用最新的Intel 9.1编译器的SGI Altix相当。
2、提出了两个新的OpenMP指导命令BARRIER(thread_id)和ALLREDUCTION,降低了OpenMP并行程序在障碍同步和归约等全局操作上的开销:给出了新指导命令的实现算法。对于实际科学计算程序粒子云,在64个线程时,性能提高了76%。
3、提出了面向OpenMP的编译指导的两阶段数据预取算法,克服了DSM系统上远程访存与本地访存延迟不一致引起的预取不准确的问题。建立了一个静态的性能分析模型,对预取算法进行了评估。在SCCMP系统上,采用本文的两阶段数据预取算法后,在32个线程时,SPEC OMP2001中swim程序在我们的系统上性能提高了14%;在64个线程时,性能提高了9%。
4、建立了系统级和应用级协同的OpenMP检查点/续算机制,设计了阻塞的OpenMP检查点协议。基于该机制实现了一个CCRG OpenMP检查点/续算系统。该系统完全支持OpenMP 2.0 API,具有良好的可扩展性和实用价值。
5、研究了面向OpenMP的功耗优化技术。在结点具有动态电压调整(DynamicVoltage Scaling,DVS)能力的并行系统上提出了三种低功耗优化方法及其实现算法。在基于最差执行时间的功耗优化中,提出了基于同步段的OpenMP程序最差执行时间分析与DVS方法。该方法将同步段作为分析和电压调整单位,有效避免了障碍同步引起的负载不平衡对程序执行和功耗的影响。建立了一个能量消耗分析模型,模拟分析显示,针对OpenMP并行应用的功耗优化技术能有效地减少并行系统运行OpenMP程序时的能量消耗。
【关键词】:高效能 OpenMP 语言扩展 两阶段数据预取 检查点/续算 低功耗优化
【学位授予单位】:国防科学技术大学 【学位级别】:博士 【学位授予年份】:2007 【分类号】:TP338
六、利用 百度(baidu)检索。检索到 3920000 条; 选用 1 条。《并行计算机体系结构技术与分析 》
图书价格:270.00-综合类、...并行计算机体系结构技术与分析 》 图书出售:《并行计算机体系结构技术与分析 》...4.4 典型高性能计算机系统 4.4.1 Cray X1 4.4.2 地球模拟器(NEC Earth...作 者:杨晓东,陆松,牟胜梅 著 出 版 社:科学出版社
七、利用 Open Access-站式检索服务 检索。检索到 4 条; 选用 1 条。
一种新的Ad hoc网络中的QoS体系结构
【作者】:胡连芳,李云,刘占军,陈前斌,隆克平
【来源】:计算机应用与研究 Volume 23 Issue 08 Pages:80-82 【英文关键字】:Ad hoc Networks DiffServ EDCF Mechanism of IEEE 802.11e 【中文摘要】:由于MAC机制本身具有带宽分配的能力,Ad hoc网中的区分服务不能实现理想的业务区分。针对该问题提出了一种新的Ad hoc网络的QoS体系结构DiffEDCF,它通过把区分服务体系结构和IEEE 80211e MAC层的EDCF机制相结合的方法来解决上述问题,并且进行了仿真验证。仿真结果表明,把此体系结构应用于Ad hoc网络后,业务在任何情况下均能被区分,在特定拓扑下通过调节MAC层参数可以达到理想的吞吐量的比值。
八、利用 超星数字图书馆(图书检索)检索。检索到 56 条; 选用 1 条。
基于LMDI的南京市工业经济能源消费碳排放实证分析 【英文篇名】:Analysis of Carbon Emissions for Industrial Sector Energy Consumption in Nanjing Based on the LMDI Model
【作者中文名】:史安娜;李淼;
【作者英文名】:SHI Anna1;2;LI Miao1;2(1.Business School of Hohai University;Nanjing 211100;China;2.The Recycling Economy Research Center of Jiangsu Province;Hohai University;Nanjing 210098;China);
【作者单位】:河海大学商学院;河海大学江苏省循环经济研究中心;
【文献出处】:资源科学, Resources Science, 编辑部邮箱 2011年 10期
期刊荣誉:中文核心期刊要目总览 ASPT来源刊 CJFD收录刊 【英文关键词】:Carbon emissions;LMDI;Energy consumption;Nanjing;【摘要】工业经济的能源消费是碳排放的主要来源,研究城市工业经济能耗碳排放的特征和影响城市工业经济能耗碳排放的因素具有很强的代表性。本文以南京市为例,首先从碳排放总量和碳排放强度等指标分析了2000年-2009年南京市工业经济碳排放现状和特征,然后运用LMDI方法构建了南京市工业经济能耗碳排放因素分解模型,定量分析了2000年-2009年间产业规模、能源强度、能源结构和能源排放强度四个影响因素对南京市工业经济碳排放的影响。研究结果表明产业规模效益是南京市工业经济碳排放增长的主要促进因素,能源强度效应是南京市工业经济碳排放增长的主要抑制因素,能源结构效应和能源排放强度效应对南京市工业能源结构效应没有明显变化。在此基础上,提出了减排的相关政策建议。
LMDI的南京市工业经济能源消费碳排放实证分析 【英文篇名】:Analysis of Carbon Emissions for Industrial Sector Energy Consumption in Nanjing Based on the LMDI Model
【作者中文名】:史安娜;李淼;
【作者英文名】:SHI Anna1;2;LI Miao1;2(1.Business School of Hohai University;Nanjing 211100;China;2.The Recycling Economy Research Center of Jiangsu Province;Hohai University;Nanjing 210098;China);【作者单位】:河海大学商学院;河海大学江苏省循环经济研究中心;
【文献出处】:资源科学, Resources Science, 编辑部邮箱 2011年 10期
期刊荣誉:中文核心期刊要目总览 ASPT来源刊 CJFD收录刊 【英文关键词】:Carbon emissions;LMDI;Energy consumption;Nanjing;【摘要】工业经济的能源消费是碳排放的主要来源,研究城市工业经济能耗碳排放的特征和影响城市工业经济能耗碳排放的因素具有很强的代表性。本文以南京市为例,首先从碳排放总量和碳排放强度等指标分析了2000年-2009年南京市工业经济碳排放现状和特征,然后运用LMDI方法构建了南京市工业经济能耗碳排放因素分解模型,定量分析了2000年-2009年间产业规模、能源强度、能源结构和能源排放强度四个影响因素对南京市工业经济碳排放的影响。研究结果表明产业规模效益是南京市工业经济碳排放增长的主要促进因素,能源强度效应是南京市工业经济碳排放增长的主要抑制因素,能源结构效应和能源排放强度效应对南京市工业能源结构效应没有明显变化。在此基础上,提出了减排的相关政策建议。
7.标示原文线索(16分)
要求:标出原文线索(即文献的出处),可以是该期刊文献的刊名、年卷期、会议文献的会议录名称;也可以是各类文献的收藏单位(图书馆或情报所、信息中心等、书店);也可以是网址等一切能够索取、借阅、复制或购买到原文的地址。标示原文线索根据检索结果中的信息,应使相关目标文献准确定位,定位的基本条件是:篇名、著者、刊名、年、卷、期。原文线索序号必须与检索结果序号一致,便于回查。
(1)利用 万方 数据库系统检索
高效能计算中的系统虚拟化技术 作者:王星焱,为峰
作者单位: 江南计算技术研究所,江苏 无锡 214083 会议名称: 2008年中国计算机学会体系结构专委会学术年会(ACA'08)
母体文献: 2008年中国计算机学会体系结构专委会学术年会(ACA'08)论文集
(2)利用 CNKI 中国期刊全文
基于LMDI的南京市工业经济能源消费碳排放实证分析
作者:史安娜;李淼;
作者单位:河海大学商学院;河海大学江苏省循环经济研究中心;
文献出处:资源科学, Resources Science, 编辑部邮箱 2011年 10期
期刊荣誉:中文核心期刊要目总览 ASPT来源刊 CJFD收录刊。(3)利用 《美国工程索引》(Ei village2)系统检索
一、篇名:Survey of task scheduling research progress on multiprocessor system-on-chip
二、第一责任人:Li, Renfa1;
三、第一责任者单位:School of Computer and Communication, Hunan University, Changsha 410082, China
四、文献来源:Jisuanji Yanjiu yu Fazhan/Computer Research and Development(4)利用 Elsevier 数据库检索
A Fuzzy-Active Force Control Architecture Based in Characterizing Nonlinear Systems’ Behavior
一、篇名 A Fuzzy-Active Force Control Architecture Based in Characterizing Nonlinear Systems’ Behavior
二、著者 Hanif Ramli M.S.Meon, T.L.T.Mohamed, A.A.M.Isa,Z.Mohamed
三、著者机构 Faculty of Mechanical Engineering, Universiti Teknologi MARA, Shah Alam, Malaysia Corresponding author.Tel.: +6 03 55436287;fax: +6 03 55435160.Available online 25 August 2012 文摘 Abstract This paper presents Active Force Control(AFC)based architecture in characterizing the twin rotor multi-input multi-output(MIMO)system(TRMS).The proposed architecture is expected to produce an optimum control gains in both pitch and yaw responses by introducing decoupling function between pitch and yaw responses.The internal change corresponds to coupling effects, gust and wind turbulence are very difficult to compensate by the classical PID control, but both of them are stamped out as AFC scheme is implemented into the control strategy.The performance of TRMS is further optimized by the realization of hybrid strategy in which an artificial intelligence Fuzzy Logic is integrated into the control architecture.(5)利用 谷歌(google)检索
面向分布共享存储体系结构的高效能OpenMP关键技术研究-
【学位授予单位】:国防科学技术大学 【学位级别】:博士 【学位授予年份】:2009 【分类号】:TP303
链接网址:http://cdmd.cnki.com.cn/article/cdmd-90002-2009213074.htm(6)利用 百度(baidu)检索 《并行计算机体系结构技术与分析 》
作 者:杨晓东,陆松,牟胜梅 著 出 版 社:科学出版社
(7)Open Access-站式检索服务检索
一种新的Ad hoc网络中的QoS体系结构
作者:胡连芳,李云,刘占军,陈前斌,隆克平
来源:计算机应用与研究 Volume 23 Issue 08 Pages:80-82 英文关键字:Ad hoc Networks DiffServ EDCF Mechanism of IEEE 802.11e(8)超星数字图书馆(图书检索)检索
基于LMDI的南京市工业经济能源消费碳排放实证分析
作者:史安娜;李淼;
作者单位:河海大学商学院;河海大学江苏省循环经济研究中心; 文献出处:资源科学, Resources Science, 编辑部邮箱 2011年 10期
期刊荣誉:中文核心期刊要目总览 ASPT来源刊 CJFD收录刊。
8.根据检索结果对选题做简单综述(8分)由于所选的课题在有些数据库中检索不出来,所以有些数据库检索的结果不是很准确,而且自己所选的检索算法:(高效能)*并行计算机*体系结构在有些数据库中检索不到,需要调整,总之,收获很多,对数据库的检索还需要进一步学习。
第五篇:信息检索
1.答:这个号码属于山西太原;2.答;第一步,打开百度网页输入‘手机号码归属地查询',第二步,进入号码查询网页,输入要查询的号码,然后点击查询,就会搜索出号码归属地区,该地的区号等等信息。2.答:目的地:内江。2.答:车次:k1273或k1272,票价:硬座33元,起始时间:8:46-12:29,理由:从成都到内江坐火车大约需要四个读小时,所以尽量选择在早上的火车,中午就能到,而且由于到内江的火车票价格调整,每个车次和时间段的票价是一样的。3.答:检索步骤:第一步,打开百度网页输入“火车时刻表”,进入火车时刻表查询的网站,输入起始地和目的地,点击搜索就会出现各个车次.时间.票价等。
3.答:到北京的往返航班:周六,9:00中国联航kn2927,返程:周一8:20,四川航空3u8896;2.步骤:第一步,打开搜索引擎,输入“飞机票查询”,第二部,点击进入搜索出的查询网站,输点击航程类型中的‘往返’,再选择出发城市和到达城市,选择出发日期和返回日期,选择乘客人数和仓位等级,点击查询航班,然后选择自己合适的航班和返程航班。4.答:路线:在川师南大门乘坐56路车,到
顺江路站下,步行至望江公园站,乘19路在一环路南四段站下车,步行道西南民族大学。2.步骤:打开搜索引擎,输入‘公交查询’,点击进入公交查询,输入起点‘四川师范大学地点’,目的地‘西南民族大学'点击搜索即可。5.答:.CPU:AMD4200+(散)390(盒)440 主板:449 内存:148 硬盘:318 显卡:315 显示器:1090 合计:2314 6.答:这只股票的主营业务为:自来水的生产和供应,污水处理业务,垃圾焚烧发电业务。2009年底每股净资产是3.27元。每股净资产是指股东权益与总股数的比率。其计算公式为:每股净资产= 股东权益÷总股数。这一指标反映每股股票所拥有的资产现值。每股净资产越高,股东拥有的资产现值越多;每股净资产越少,股东拥有的资产现值越少。通常每股净资产越高越好。具体的检索过程为:登录百度网址搜索南海发展股票信息查询及主营业务查询。7.(1)可以使用百度、优酷网、土豆网等视频检索工具,(2)输入打开
http://www.xiexiebang.comu.edu.cn 17.http://www.xiexiebang.com/bin/common/course.pl?course_id=_11503_1 课程名字古代东方文明