第一篇:KTDictSeg 1.4 版本功能介绍 - 多元分词
KTDictSeg 1.4 开发了多元分词算法,其与lucene.net 配合构建全文搜索,经测试准确度接近google和baidu的水平。现将一些实现方法和测试结果公布出来,供关心分词和搜索技术的朋友们参考。
中文分词按照分词粒度来分,分成 一元分词,二元分词,多元分词和精确分词等类型。一元分词就是最简单的分词,将所有的中文字符按照单字形式输出。二元分词按双字形式输出。多元分词则是将一句话中可能的单词组合按照一定规则输出,允许输出的词有重叠。精确分词则是将一句话中最准确的单词组合输出,不允许输出的词有重叠。当然这里用精确这个词来修饰只是为了与其他几种分词方法区分,不可能有完全精确的分词方法,因为我们伟大祖国的语言实在是博大精深,分词本身缺乏标准(能否制定标准也是一个问号)一些中文句子就是由人来分解也可能分出不同的结果,所以到目前为止还没有100%精确的分词方法。
由于一元和二元分词较为简单,其分词的效果也不尽理想,这里不多讨论。
现在让我们看看精确分词。下面这句话:“许仙喝了口黄酒”,精确分词由于不能包含重叠的词,一般可以分成 许仙/喝了/口/黄酒,用这种分词结果构建索引,输入黄酒,可以搜到,但输入酒就无法搜到。而作为搜索用户,往往需要既能搜到黄酒也能搜到酒,google, 百度等著名搜索引擎就可以达到这种效果。我们自己开发的搜索引擎如果无法实现这种功能,用户体验就不会很好。为了解决这个问题,我们必须对中文句子进行多元分解,即分解出合适的组合,比如上面的句子,如果分解为 许/仙/许仙/喝/了/口/黄/酒/黄酒/喝了口/ 那么无论我们输入黄酒还是酒,我们都可以搜索到这条记录。
多元分词的缺点:
多元分词和搜索引擎结合可以得到较多的匹配结果,但同时也增加了索引文件的大小。另外由于将一些单词进行了拆分,搜索结果的排序会受到影响。比如搜索黄酒,多元分词后搜索的关键字组合为 黄+酒+黄酒,很可能会将只包含黄或者酒的记录排在包含黄酒的记录前面,这不是我们希望的结果。对于搜索引擎来说这个排序是很重要的,google,百度就靠这个吃饭的,如果这样瞎排,估计用户早就把他们抛弃了。事实上,他们做的很好。
为了解决这个问题,KTDictSeg 1.4 版本提出了两个概念,一个是多元分词的冗余度(Redundancy),一个是多元分词结果的权重级别(Rank)。
首先先谈谈冗余度,对于一句话,可能会有很多种分词组合,我们通过冗余度的设置可以控制这个组合的数量。KTDictSeg 1.4 版本支持3级冗余。当冗余度设置为0时,只分解最佳的分词组合,设置为1时次之,2时再次之。
比如 “中华人民共和国”,冗余度取0,1,2 时 分词结果分别为
中华人民共和国(0,5)/
中华(0,3)/人民共和国(2,3)/中华人民(0,3)/共和国(4,3)/中华人民共和国(0,5)/
中(0,2)/华(1,2)/人民共和国(2,2)/中华(0,2)/人民(2,2)/共和国(4,2)/中华人民(0,2)/共和(4,2)/国(6,2)/中华人民共和国(0,5)/
其中挎号中第一个数字表示单词在整个文章中的位置,第二个数字表示权重级别。下同。
KTDictSeg 不同分词方法的索引大小和分词时间比较
我们再谈谈权重。KTDictSeg 将多元分词出来的单词根据其词长,词的间隔以及未登录词的取舍等条件给定了不同的权重。最高权重为5,最低为0。由于Lucene.net 不支持根据权重建立索引(毕竟其不是为中文设计的),我们只能在搜索时对分解出来的关键字指定权重来影响搜索结果。
比如黄酒这个词,搜索关键词分解为 黄酒/黄/酒 如果我们对黄酒指定较高的权重,对黄和酒指定较低的权重,那么包含黄酒的记录将会优先于只包含黄或者酒的记录被搜索到,这样就基本解决了搜索排序的问题。
下面来看看搜索 “长春市长春药店” 这个句子采用KTDictSeg 1.4 版本 + Lucene.net 2.0 的搜索结果和采用 google 和百度的搜索结果的比较。冗余度取1,搜索范围限定在 博客园 网站内。Google 的搜索结果 59 条符合条件的记录 搜索关键字: 长春市长春药店 site:cnblogs.com 1.常用分词算法的比较与设想-Alic的文件夹-博客园
26kSimilar pages
2.KTDictSeg 一个C#.net做的简单快速准确的开源中文分词组件-eaglet...144kSimilar pages
3.KTDictSeg 一个C#.net做的简单快速准确的开源中文分词组件-eaglet...145kSimilar pages
4.汉语转拼音(带音调和多音字识别)博客园
78kSimilar pages
5.最新评论-草屋主人的blog[ Translate this page ] “长春市 长”试了下,确实不对这个跟分词有关吧? 由结果看,是分成了“长春市 ”“长”了如果是“长春市 长大”和“长春市 长治久安”,分的就对的看来分词还要做上下文分析^_^...Cached博客园 118kSimilar pages
7.搜索引擎中中文词组分词的实现-旋风-博客园
83kSimilar pages
8.博客园-Clark Zheng发表的评论
27kSimilar pages
9.博客园-xuanfeng发表的评论
27kSimilar pages
10.我的评论-旋风-博客园
49kSimilar pages
百度 的搜索结果 4 条符合条件的记录 搜索关键字: site:(cnblogs.com)长春市长春药店 常用分词算法的比较与设想博客园
长春市长春节致辞 2)长春市长春药店 我们假使词库中包含如下词语“长春”,“长春市”,“市长”,“春节”,“致辞...我们对“长春市长春药店”进行两种方法的分词,但是因为逆向最大匹配法得到的“春药店”的词频相比于其他词语的词频要...33K 2008-9-4eagl..以“长春市长春节致词”和“长春市长春药店”这个两个句子为例: “长春市长春节致词”可以依次拆分为 长春、长春市...“长春市长春药店”可以依次拆分为长春、长春市、市长、长春、春药、春药店、药店 这几个词,按照正向最大匹配算法,...KTDictSeg 一个C#.net做的简单快速准确的开源中文分词组件-eaglet...词结果是长春市/长/春节/致词,按照反向最大匹配算法,分词结果是长春/市长/春节/致词。“长春市长春药店”可以依次拆分为长春、长春市、市长、长春、春药、春药店、药店 这几个
http:// 我的评论-旋风-博客园
sp;第一步:把,”杭州市长“ ”杭州市“ “春药店” 添加到词库中 后效果为:杭州市长/杭州市/杭州/杭/州/市长/市/长/春药店/春药/春/药店/药/店 采用的是 模糊分词分保证每个词语 http:// 博客园-Clark Zheng发表的评论
分词的实现 连着三个if+goto,为什么不用switch呢?ps:“杭州市长春药店”你分完词后会是什么呢?:)Clark Zheng 发表于 2007-4 http:// 中文分词组件KTDictSeg 1.2 版本发布及算法简介-eaglet博客园
菌哥 长春市市长 re: 汉语转拼音(带音调和多音字识别)jason_lb 2007-11-21 16:26 “长春市长”试了
http:// 汉语转拼音(带音调和多音字识别)博客园
“长春市长”试了下,确实不对这个跟分词有关吧?由结果看,是分成了“长春市”“长”了如果是“长春市长大”和“长春市长治久安”,分的就对的看来分词
还要做上下文分
http:// 前门新大街8月7日正式开街亮相-岁月无声-博客园
店都还空着没开张,就一些老字号开张了,包括”大北照相馆、庆林春茶庄、亿兆百货、都一处烧麦馆、一条龙羊肉馆、长春堂药店、中国书店、南区邮局、月盛斋
酱牛羊肉馆、张一元茶庄分社、尚珍阁工艺品店
http:// 博客园-560889223发表的评论
re: 我完成的C#关于在lucene下的中文切词 长春市|长春节 长春市长|春节 560889223 发表于 2007-9-26 19:57 http://www.xiexiebang.com/CommentsByAuthor.aspx?author=560889223&page=2 从搜索结果来看KTDictSeg 1.4 + Lucene.net 2.0 的搜索效果已经非常接近google的搜索效果,前10个记录的选择两者基本上差不多,排序上略有区别。Baidu搜索出来的数据很少,可能其更追求搜索 的精度吧,毕竟也是国内搜索界的老大,这里不想做过多评论,好不好按百度自己的话说还是拿事实说话吧。
第二篇:EC功能介绍
技术合作协议
锐德世(RadiSys)系统设备商贸(上海)有限公司(以下简称RadiSys)和XXXX有限公司(以下简称XXXX)经过技术沟通和确认,XXXX选择RadiSys的COM-E产品作为新产品开发的CPU模块, RadiSys为XXXX提供实现EC的各项功能的软件和硬件,提供与之相关功能模块的实现方案,具体条款如下:
1. 电源管理:上电时序控制,不同电源管理状态的监控,对应于不同电源管理状态下的不同控制,监视睡眠和唤醒事件(实现标准的ACPI)。
RadiSys回复:电源管理:可以实现
2. 电池管理:监视AC和电池(符合ACPI标准),电池充电、电池放电、电池learning,提供并实现电池的过热、过充、过放的保护方案。
RadiSys回复:电池管理部分,要求电池是采用Smart Battery。过充、过放得保护方案已经在硬件层面实现;电池的过热保护,有Smart Battery给出过热中断给EC,然后EC给出响应,然后通过SMI或者SCI提供给上层访问;如果XXXX需要相应的信息,可以自行用软件通过SMI或者SCI获取对应信息。
3. 键盘功能:内置键盘,快捷键功能,矩阵键盘直接连接在EC上,EC同BIOS之间是标准的PS/2协议,连接方式是LPC总线方式,RadiSys给XXXX提供相应的BIOS的接口函数,提供快捷的支持,完成快捷键的EC代码和Windows下驱动代码的编写,源代码要求参考第12条。
RadiSys回复:键盘功能:可以实现。我们可支持的标准快捷键包括(CRT/Monitor,LCD亮度,声音大小,数字小键盘)。由EC实现,无需Windows驱动。
4. 鼠标功能:支持PS/2 Touchpad,标准PS/2命令,RadiSys给XXXX相应的BIOS的接口函数。
RadiSys回复:鼠标功能:可以实现
5. SMBUS设备接口:各种温度sendor,电池GasGauge,完成温度的读取、设置。
RadiSys回复:SMBUS设备接口:支持电池Gas Gauge(通过Smart Battery)。支持温度读取。
6. 温度控制:监控CPU,显卡的温度,根据温度来控制风扇,提供有关控制CPU降频和报警的接口函数。
RadiSys回复:温度控制:整个系统有两套SM BUS,一套是基于COM-E,还有一套是基于EC的。通过电话讨论,COM-E的SM BUS由COM-E控制,BIOS获取通过COM-E获取CPU的温度,然后通知EC,由EC来调整风扇。
XXXX需要增加的SM BUS的设备统一挂在EC提供的SM BUS上,这一部分的开发工作在RadiSys提供EC源代码之后,由XXXX来完成。
关于CPU的降频,RadiSys在BIOS中提供一个选项,即是否使能CPU自动降频。如果选择关闭自动降频,则采用缺省频率运行;如果打开自动降频,则由BIOS根据系统状态自动调整系统频率,而不需要OS来处理。
7. LCD背光调节,改变LCD亮度。EC预留GPIO,RadiSys帮助XXXX根据EC编写适当软件来实现LCD背光调节。RadiSys提供Windows下的托盘程序来实现亮度调节、实现VGA是否输出。
RadiSys回复:LCD背光调节:首先完全由HOTKEY来实现;如果XXXX需要增加托盘程序,则XXXX完成托盘程序的开发,并通过SMI或者SCI接口通知EC,然后由EC来完成背光调节。
8. 安全管理:实现系统电源监控,电池安全监控,各种温度监控,SMBUS安全性监控,以及各种预防、报警、纠错和应急措施。RadiSys提供电源保护电路的方案,并且提供相庆的处理方式。
RadiSys回复:系统的短路保护,已经在电源/电池设计和其他部分硬件设计中实现,不需要软件干预。
9. 其他设备控制。如Touchpad的开关。RadiSys预留GPIO,XXXX自主编程实现,RadiSys提供相应的技术支持。
RadiSys回复:具体开发有XXXX完成,RadiSys提供技术支持。
10. 其他的可选功能:串口刷写BIOS,battery learning,在Windows下直接改富民政策EC软件。RadiSys提供专门的BIOS刷写通道,直接采用U盘完成裸机以及在Windows下实现修改BIOS和EC软件的功能。
RadiSys回复:RadiSys提供标准的BIOS刷新工具,可以通过U盘在DOS或者Windows状态下刷新BIOS版本;RadiSys还提供专门的EC刷新通道,准备基于EC的串口刷新EC的固件版本。
11. EC芯片上预留SMBUS,GPIO,SPI,外部中断以及PWM输出,功能XXXX自主编程实现,RadiSys提供相应的技术支持。
RadiSys回复:RadiSys提供标准的SPI接口,SM-BUS和GPIO方面由Andy Xu提供硬件设计方面的咨询。
12. EC软件用C语言来实现,Windows下的驱动程序用VC来实现,都提供源代码。
RadiSys回复:改为C语言比较困难,因为有一些是Phoenix公司发布的源代码,我们没有权限更改,而且更改需要的周期特别长。但是我们会提供汇编方面的支持。
RadiSys将承诺协助浪潮的工程师将需要添加的C语言的程序转变成汇编,并且确保浪潮对应程序的保密性,具体操作可以限制在浪潮公司里面进行,其程序不会存在任何形式的扩散。
另外,XXXX需要多串口(4个以上)的宽温解决方案,目前有两种,一种是基于SMSC的 SuperIO;还有一种则是基于标准的PCI总线扩展,这两种方案都要求串口具有重新排列的功能。不管是基于SuperIO的解决方案,还是通过PCI总线扩展出来的解决方案,XXXX需要更换RadiSys提供软件层面的支持。SuperIO需要BIOS支持,采用PCI扩展则需要芯片驱动来支持。
13. EC软件能够读出BIOS的DEBUG信息,可以用数码管来显示,RadiSys提供LPC接口的DEBUG卡的完整方案。
RadiSys回复:EC无需提供BIOS的DEBUG信息。Debug信息由LPC接口的debug port80卡实现。RadiSys将提供LPC接口的硬件参考设计和CPLD的Image目标文件。
14. RadiSys将会提供Pheonix公司授权的正版BIOS修改工具,可以用于修改显示界面以及更改LOGO等功能,并且提供Pheonix公司授权的BIOS刷新软件和BIOS故障恢复软件。
RadiSys回复:提供。
15. 降低模块的关机功耗,RadiSys提供控制电路,由EC来控制以实现标准笔记本关机电流在10mA以下,并且保证不影响正常的开关机时序。
RadiSys回复:RadiSys提供硬件方面的参考设计,并在BIOS里面提供是否打开/关闭网络远程唤醒的功能。
16. RadiSys保证所有实现的EC功能和标准笔记本功能一致,并且根据设计需要提供相应的BIOS接口函数。
RadiSys回复:提供的EC功能上述已列出。
17. RadiSys提供完整的TPM方案。
RadiSys回复:RadiSys提供基于英飞凌9635TPM芯片提供TPM1.2方案,相关Windows驱动由英飞凌提供
18. 有关BIOS源代码的修改,双方协商解决,RadiSys负责修改。
RadiSys回复:RadiSys将提供XXXX在SuperIO方面的BIOS支持。
第三篇:网站功能介绍
WEB基础服务系统:
1、公司信息发布系统
公司信息(单篇页面信息,如:公司简介,销售网络,企业文化,领导致辞,联系我们等等,可以后台自行更新,添加,和删除。可以以图片以及动画等等形式表现。)
2、产品管理系统
产品系统(类别可实现无限级分类,主要是产品图片的表现形式,综合页面以小图片模式展现,点击可查看详细,清楚图片,以及图片的参数和大致描述,以图片配文字的形式展现出来!)
3、新闻发布系统
新闻系统(企业新闻发布,新闻显示标题,点击进入后可查看详细内容:内容也以图片配文字形式展示。包括新闻类别也可添加,比如:公司新闻,行业新闻等等)
4、下载系统
下载系统(企业相关内如需要在网上提供下载服务,格式有:winrar , word , xls , JPG , mwv , ptf , mp3等等一些文档、压缩包、视频、音乐、图片等等格式)
5、人才招聘系统
人才招聘(企业有人才需求,可以通过网站后台进行添加,修改,比如:岗位需求,联系方式,具体要求,招聘人数等等。网站上可以显示出详细内容,应聘者可在网页上进行应聘,网管可在后台查看应聘者的简历等等。)
6、反馈信息系统
反馈系统(类似及时处理系统,既客户在网页上可以选择提交:建议、投诉、紧急联系等等,网管可在后台看到 客户所提交的问题。但是页面上不表达出来,完全是隐私内容。只能通过后台查看。)
7、客户留言系统
客户留言(客户有问题,可以进行留言,留言后网管可以再后台查看客户所留言的内容,可以选择 进行审核,回复,这样通过审核的信息,才可以再网页前台页面上显示出来,类似垃圾留言或者恶意留言,可以PASS过去,这样网站前台就不显示该留言。)
8、友情链接系统
友情链接(友情链接,即点击后可以进入其他网页。有文字,图片,下拉框形式展现。)
------------
第四篇:WIFI 功能介绍
WIFI
有不少港货等诺基亚5800XM是可以设置wifi实现免费无线上网的。到底5800XM应该如何设置呢?请按照以下步骤设置,你的诺基亚5800XM就可以在麦当劳、星巴克等提供免费wifi的地方实现免费上网了。
诺基亚5800XM设置Wifi上网步骤一:
进入诺基亚5800的菜单栏目,进入“设置”选项,找到“链接功能”。再进入“承载方式”菜单,在这里你可以设置手机与互联网或者WAP、彩信等进行设置。我们需要设计的wifi应该选择“互联网”项目。
诺基亚5800XM设置Wifi上网步骤二:
接着点“增加新接入点”,这里是为机器本身增加一个新的接入点,以后要增加别的无线路由器也是在这里增加。也就是说,我们外出在别的地方遇到了无线局域网,找到了无线路由器,都要从这里进行新增连接的设置。
诺基亚5800XM设置Wifi上网步骤三:
根据步骤二点“增加新接入点”后,机器将启动自搜索功能,对范围内的无线路由器信号进行扫描,这里最好是选择“是”的命令。
诺基亚5800XM设置Wifi上网步骤四:
点选是后,搜索会开始,等搜索完毕后,诺基亚5800XM将显示搜索到的无线局域网个数。一般无线局域网都要靠密码认证才能进入。如果你知道密码可以直接输入,如果是在公共地方,可以询问店员获得密码。
诺基亚5800XM设置Wifi上网步骤五:
输入密码后会提示选择承载方式,我们接着选择“互联网”,当前面的选择完成后,在菜单上会显示已经全部完成,新的接入点已经增加。
诺基亚5800XM设置Wifi上网步骤六:
现在手机上已经添加了无线路由器的接入点了,接着要进行具体的设置。接着选择“互联网”,选中无线局域网这个选项(不要选择GPRS链接互联网),选择后进入编辑,按照以下数据填写:
连接名称:WIFI
数据承载方式:无线局域网
Wlan网络名称:这个得看你注册的无线路由器的名称了
网络状态:公开
WLAN网络模式:基础网络
WLAN安全模式:这个也是看你的无线路由器使用的加密方式了
WLAN安全设置,这一项里面就是填写无线路由器密码的地方
主页:无
诺基亚5800XM设置Wifi上网步骤七:
如何进行进行IP地址设置?点选高级设置栏目,进入IP地址设置栏目,IP4静态IP设置192.168.0.xxx或192.168.1.XXX,X随便填。网关:192.168.0.111或192.168.0.254;子网掩码一般是255.255.255.0。
诺基亚5800XM设置Wifi上网步骤八:
连IP地址也设置好后,就能重新进入诺基亚5800功能菜单键,找到浏览器试试能否用Wifi上网了。
第五篇:多元功能聚合是未来家电发展趋势
金正电器:多元功能聚合是未来家电发展趋势
近年来,国内小家电市场发展势头迅猛,正逐渐从单一功能的简单产品过渡到智能时代的功能多元产品。市场上涌现出,众多小家电聚合了多样功能的新鲜机器。改变了厨房堆满家电,或小家电使用频率低的问题。
小家电,不再是单一功能的煮饭、煲汤、烧水。从传统的水壶到养生壶的过渡就是一个例子。各大厂家花费大笔的研发经费,同时也经过市场的推动,已把传统单一功能的产品改变成蒸煮炖,甚至酸奶米酒集中于一身的多功能产品。
笔者在中山金正电器了解到,该类养生壶产品自进入市场以来深受消费者青睐,也削减了传统家电的市场份额,目前产品销量稳步上升,市场潜力巨大。在金正电器展厅看到,养生壶样式与材质健康性都大大超过了传统水壶。更把中华传统养生的理念融入到产品设计中,也是该产品打开市场的重要因素。
对于国内目前小家电的研发趋势的改变,中山金正电器的王总表示,多元功能聚合是未来家电发展的趋势,多元功能及智能化产品的研发,更是未来物联时代的前兆。自金正生活电器成立以来,就把产品研发放在第一位,产品功能性与外观设计上不停升级换代,产品工艺标准也在不断提高。旨在为消费者提供更具视觉美学观感,更具使用便捷性的优秀产品。
在金正电器展厅还陈列着四合一早餐机、空气炸锅、冰激凌机、面条机等我们平时在卖场较为少见的新潮电器。据金正电器研发人员介绍,这一系列的产品同样存在着巨大的市场需求,较为适合当下注重饮食健康,追求DIY健康饮食体验的年轻人。
据了解,多元功能聚合的小家电产品,正悄悄改变着一部人的生活方式,部分的年轻白领,平时用养生壶来煮花茶、甜品,晚上睡觉前,就通过产品的预约功能预约自己的早餐,上班前就预约了晚上的滋补汤,而这种生活方式,正是多元功能聚合带来的生活解决方案。多元功能聚合的产品,势必成为未来家电发展趋势。