第一篇:淘宝商品评价属性分类研究
淘宝商品评价属性分类研究
摘 要: 设计了一个基于API技术的淘宝商品评价分类系统。利用淘宝开放平台提供的API接口获取商品评价信息,然后将这些评价信息按照质量、物流以及服务态度等属性分别分出好评和差评,通过对典型操作实例的理论分析和实验结果,验证了该方法的有效性。
关键词: 淘宝API;评价属性;评价分类
淘宝开放平台是一个综合性、商业性的开放平台[1]。TOP发布的API涵盖了商品、产品、类目、用户、交易、评价和物流等不同专业领域的开放接口。使用这些预先定义好的函数,可以更加方便、快捷地调用这些接口来完成一些有关处理工作。
淘宝网作为国内最大的电商网站,每月每天甚至每小时的交易量都是相当大的,而作为买家在淘宝网上购买商品之后,无论对商品满意与否,都可以通过淘宝网提供的商品评价系统对所购买的商品作出自己的评价,这就产生了大量的评价信息。这些评价对今后购买同种商品的买家可以产生重要的指导作用;评价信息里反映出的买家对商品比较关注的一些问题也为卖家不断改进商品提供了方向。
但是目前淘宝评价系统只是单纯地将买家的评价罗列在产品信息页面上,这些评价包含了买家对该商品在做工、款式、服务态度、发货速度和物流速度等相关评价属性的信息反馈,这对想查看该商品某种评价属性信息的买家和卖家带来了很大的困难。有些商品评价信息较少,可以通过逐条查看的方法来获取需要的信息。但是对于有几千条甚至上万条评价信息的商品来说,逐条查看必定会耗费大量的精力,也无法取得较好的效果。同时,淘宝提供的好评、中评和差评都是由买家人工选择的。有时候买家对商品并不很满意,但是由于卖家服务态度较好等原因也给出了好评;而有些差评则是因为卖家服务态度不好或者物流送货不及时等原因,但是商品本身质量并没有问题,这就对信息获取造成了误差。针对上面的问题设计并实现的淘宝商品评价属性分类系统,利用淘宝开放平台提供的API技术获取相关评价信息,然后按质量、物流和服务这3项关注度最高的属性将评价信息进行分类,并对每种属性按评价内容情感倾向度分别判别出好评和差评。本系统实现了买家在淘宝网意向商品的大量评价中筛选出自己希望了解的关于商品某属性的评价信息,同时也帮助卖家了解在售商品各个属性的买家反馈信息,更好地改进商品。
相关工作
本系统通过评价API接口获取商品评价信息作为基本的数据来源。系统中的商品评价主要分为两类。(1)按照商品属性进行分类。商品的属性特征都是由它的特征词来表现的,主要是能够定义属性的名词或者名词短语。本系统将评价信息按照质量、服务、物流3个属性进行分类。(2)按照情感倾向度进行分类。本系统提取评价信息中的情感词并按照一定规则组成短语模型与事先建立好的短语模型情感倾向库进行匹配,开发了一种计算情感倾向度的算法,按照此算法将商品的每个属性都分为了好评和差评。
系统的具体设计
2.1 评价API获取评价内容
该模块主要是获取评价文本和文本转存两个功能。使用API要先创建一个ITopClient对象,向接口地址/router/rest发起连接请求,请求成功后,建立TraderatesGetRequest评价文本查询请求对象,设置请求的字段和参数,再建立TraderatesGetResponse对象接收返回的数据,把获得评价文本内容保存到文本文件。格式是Json字符串。
2.2 建立商品属性特征词库
商品特征词的抽取主要有分词标注和按规则抽取特征词两个步骤。
(1)要抽取特征词,必须要用分词工具先把句子分成词语,然后对词性进行标注,才能分析每个词语的意义。使用SHARPICTCLAS分词工具分词标注,例如:衣服/n很/d/a!/w很/d合身/a!/w店家/n服务/vn态度/n也/d很/d好/a,/w虽然/c中间/f出/v了/ul点/q小/a插曲/n,/w但是/c很/d快/a都/d给/v解决/v了/y。/w店家/n工作/vn相当/d给/p力/n。/w快递/vn也/d很/d给/p力/n!/w赞/vg一个/m!/w
(2)分词标注之后,还要过滤掉一些没有意义或者不是想要的词。首先就是根据词性过滤。例如店家/n服务/vn态度/n也/d很/d好/a,这个是标注完毕的句子,看到“服务态度”这个名词短语其实就是商品服务的一个特征,也可以简化成“态度”。前面提过,只有名词或名词短语才能表示商品的属性特征,所以可以把名词短语以外的非名词词语过滤掉,上面的例子过滤后就是“店家/n服务/vn态度/n”,其他词性就不要了。然后再根据手工收集的一些无意义词文件,过滤掉无意义词,最后去除词性标注,合并同类项,再利用Apriori算法中的频繁项定义,过滤掉噪音词,属性特征词库就建立了[2]。将需要分类的评价信息分词标注之后与属性特征词库进行匹配,实现按照商品评价属性分类。
2.3 基于构造短语模型的情感分类方法设计
文本中能表达情感倾向的词语组成的短语模型是判断文本情感倾向的基础,文本最终的情感倾向和短语模型所表达出的情感倾向是一致的。本文的情感分类方法包括两部分。(1)建立情感词词库和短语模型库,其中情感词词库就是抽取的有情感倾向的词,短语库是从训练文本中选取的比较有代表性的短语模型,计算它们的情感倾向值,组成一个短语模型的匹配库[3]。(2)进行情感分类,对一个新文本进行分析,得出其情感倾向。
2.3.1 建立情感词词库
一篇文本中有很多词语都能表达情感,需要知道哪几个词的情感倾向性最强。现在已经有了不少成熟的提取情感词的算法,由于本系统是针对淘宝网这个特定领域的评价信息,这些评价信息情感词的精确度比较高而且量也不太大,所以采用人工选取的方法从200篇好评样本和200篇差评样本中人为地选出情感词[4],并与中国知网情感词库共同组成情感词库。
2.3.2 建立短语模型
在分析文本时,仅仅依靠情感词的情感倾向性来判断文本的情感倾向性是不准确的,需要找出情感词对应的评价对象,把情感词和评价对象组成情感模型,然后把这些情感模型作为判断文本情感倾向的基本元素[5]。
首先找出样本中出现的情感模型,同时找出与之相关的连词、副词、否定词,然后把他们组合成短语模型,利用这些短语模型去分析情感倾向。基于短语模型的情感分类的方法目前有很多,本系统选用了如表1的短语模型[2,6]。
抽取的短语模型不是一般语法意义上的短语,而是从文本中选取能表达情感的词按照短语模型规则组合成的。
把从样本中选出的情感词以及相关的连词、副词、否定词和评价对象进行二次标注[3,7],约定:
(1)在好评情感词前面加注“@!”;
(2)在差评情感词前面加注“@?”;
(3)在连词、代词前面加注“@”;
(4)在评价对象前面标注“@*”;
(5)在否定词前面标注“@~”。
根据表1所示的短语模型,用以下选取短语模型的算法。
(1)寻找标注为“@*”的短语;
(2)如果没有找到标注为“@*”的短语,则跳到(6);
(3)如果找到标注为“@*”的短语,则寻找标注为“@!”、“@?”的短语;
(4)如果没有找到标注为“@!”、“@?”的短语,则跳到(6);
(5)取出标注为“@”的短语,加上(2)和(3)中找到的短语,把这些短语按原来的顺序组成一个短语模型;
(6)处理下一个训练语料,重新从(1)开始执行,循环。
2.3.3 计算短语模型情感倾向
通过上面介绍的方法,已经建好了短语模型,然而每个短语模型表达的情感倾向以及强度是不尽相同的。人工将倾向于好评的短语模型赋值1,倾向于差评的短语模型赋值-1的话,最后的分析结果误差明显比较大,无法得到比较好的效果。
本文采用的短语模型情感倾向值的计算方法为统计一个短语模型在好评情感短语模型中出现的次数(记为Gi)和在差评情感短语模型中出现的次数(记为Bi),然后计算Gi与Bi的比值,具体计算公式如式(1)所示:
V=log2(Gi/Bi)Gi≠0andBi≠0 log2((Gi+1)/Bi+1))Gi=0orBi=0(1)
由计算出来的表2和公式(1)可知:
(1)当0 (2)当Gi>Bi>0时,V>0,该短语模型表达的是好评的情感倾向; (3)当Gi=Bi时,V=0,无法确定该短语模型的情感倾向,需要根据实际情况进行判断; (4)当Gi=0,Bi≠0时,V<0,该短语模型表达的是差评的情感倾向; (5)当Gi≠0,Bi=0时,V>0,该短语模型表达的是好评的情感倾向。 2.3.4 计算评价文本情感倾向值 有了短语模型的情感倾向值,就可以分析评价文本的情感倾向了。评价文本都是由一个个句子组成,而句子可以分词标注后组成短语模型,所以评价文本的情感倾向值是由其分解出的短语模型情感倾向值加成得到的。具体公式如下: S=Vi(i≥0)(2) (1)如果S>0,判定这条评价文本为好评; (2)如果S<0,判定这条评价文本为差评; (3)如果S=0,判定这条评价文本为中评。 实验结果分析 通过淘宝评价API接口获取某女装的好评、差评各300条评价作为测试的数据来源如表3所示。 经过简单过滤,过滤掉一些无意义的评价,如“好!”,“good”,“„„”等无意义的评价,然后手工分别筛选出224条好评和224条差评,选取数目相等,是为了比较直观。将获取的评价数据导入系统中,首先进行分词标注: 0衣服/n很/d好/a!/w很/d合身/a!/w店家/n服务/vn态度/n也/d很/d好/a,/w 经过初步的分词标注,整个评价内容结构已经清晰,然后按照上文中的约定对评价内容进行二次标注。标注结果如下: 衣服/@*n很/d好/@!a。很/d合身/@!a。店家/@*n服务/@*vn态度/@*n也/d很/d好/@!a。 根据“二次标注”结果,抽取评价文本的每个句子的短语模型,与短语模型情感倾向库对比,匹配极性情感值,将每个短语模型的情感值相加,就是整个文本的情感值。同时还要对照分类特征词,如果评价文本中句子含有上述特征词的,就把这个文本划分到对应的分类,做上标记,同时,这个句子的情感倾向值也是这个文本在这个分类上的情感倾向表示。 表4所示是本项目在实践过程中的实验结果。 经过人工排除异类,尽可能保证测试文本类别正确的情况下,看到差评的查准率有83.9%,要比好评的查准率82.6%高,而且中评数量上的判断结果(28>17)也高。这是由于在淘宝上顾客表达厌恶和愤怒的情感要更明确一些,有些顾客有不满意的地方,但是可能还是给予好评,只是表达勉强,所以好的情感表达上就会模糊,相比之下,差评更容易判断。 通过表4可以看出,两类评价由情感倾向值累加得出的情感倾向值的方法的查准率都达到80%以上,说明采用情感倾向值累加的方法效果还不错,在抽取少量样本的情况下,能比较准确细致地判断文本的真实情感倾向。但是效果还不够好,如何选取准确的评价对象,抽取真正的短语模型,使方法结果逼近真实将是继续研究的方向。 第一章生活中的消费者 第一节商品 一、商品及其基本属性 设疑: (一)商品 你见过哪些商品?你认为什么是商品? 有用的就是商品?在商店里的才是商品? 阳光空气等都有用是商品吗?为什么会进商店呢? 农夫山泉饮料与四大水源的泉水哪个是商品?为什么? 1、商品的含义:商品是用来交换的劳动产品 金华火腿事件告诉我们什么呢?商品必须是能换 核舟记的现代版告诉我们什么呢: 核舟记老板的故事非卖品属于自己的,虽然是劳动产品但是必须是要用来交换的! 陈光标卖空气告诉我们:商品一定是劳动产品 2、商品的产生 原始社会早期——没有商品 人们共同劳动,共同生活共享劳动果实,且劳动产品很少所以没有商品 第一次社会大分工——偶尔出现交换会有商品 农业和畜牧业分离出现了牧民和种植民偶尔会以氏族为单位进行交换 第二次社会大分工——商品正式出现 有专门从事交换产品的劳动者所以会出现交换,交换频繁出现了,所以商品正式出现了 思考,除了分工以外,什么是商品出现的关键性因素? 社会生产力水平的提高,导致人们有可能以家庭为单位劳动才可能出现商品 (二)商品的基本属性 1、商品的使用价值 含义:商品能够满足人们某种需要的属性 使用价值不是商品的特有属性(不能作为判断是否是商品的依据)使用价值是商品的自然属性 不同商品的使用价值是否相同?为什么?请举例说明 不相同。 粮食、蔬菜、鱼、肉含有人体所需的各种营养成分,所以能满足人们的生存需要; 煤、天然气能燃烧,成为重要的能源,是由于煤、天然气是含碳物质。由此可见,不同的商品具有不同的使用价值,是由商品自身的自然属性(物理、化学等性质)决定的。因此,商品的使用是商品的自然属性,它反映的是人和物的关系,而不反映社会的生产关系。 2、商品的价值 含义:凝结在商品中的无差别的人类劳动 价值是商品特有的属性 商品的价值的表现 商品的价值要通过商品的交换价值表现 交换价值的含义 是指一种使用价值和另一种使用价值相交换的量的关系或量的比例 3、商品价值和使用价值的关系 统一 人们选购商品时,总希望“物美价廉”。那么,“物美”和“价廉”各是从什么角度提出的要求呢?它说明了什么问题呢? “使用价值和价值是商品的两个基本属性,也称为商品的两个基本因素”。 “物美价廉”是商品本身两个基本属性的反映。“物美”是使用价值的标准; “价廉”则是人们从价值角度提出的提出的要求。人们在选购商品时,总是力图找到这两个标准的最佳结合点。对立 小 结: 商品的基本属性教案 www.xiexiebang.com 本框内容是“商品的基本属性”,这是高中政治一年级上册第一课的第二框内容。 本框内容属于经济常识中的基本理论部分,学好本框内容可以为后面的具体经济常识的学习打好基础,因而是重点,同时也是一个难点。它在知识体系上起着承上启下的作用,它既是上框内容的继续和延伸,同时也为下一框学习商品的价值量打下基础。 教学目标 在知识方面要求学生识记商品的价值和使用价值,理解商品是价值和使用价值的统一体,能举例说明价值和交换价值的关系。 在能力方面要使学生初步学会进行抽象思维,提高透过现象看本质以及理论联系实际的能力。 在觉悟方面则是要使学生能够从商品的基本属性的分析中增强质量意识,认识到生产、销售假冒伪劣产品对群众的危害性;认识商品的基本属性与生产商品劳动的关系,为批判拜金主义奠定基础。 根据教材的特点,本课的重点确立为商品的两个基本属性,因为这是全课最基本的内容,以后教材中的一系列内容都离不开这个基本内容。本课的难点是商品的两个基本属性以及他们间的关系,这是因为它们是从复杂的经济现象中高度抽象概括出来的,不是单靠人们的直观所能掌握的,对于初学经济学的高一学生目前所具备的知识基础和思维水平而言太抽象,难以理解。 教学方法上 主要是采用设疑提问法和总结归纳法。根据本节中概念的推理过程,找出理解这些问题的关节点,设置若干具体的问题,题题相扣,层层深入,引导学生共同归纳总结。在学生学法的指导上,主要是指导学生遵循从具体到抽象再到具体的思维规律,引导学生从接触到的具体经济现象出发,从对其的比较分析、综合中寻找异同点,从而抽象的概括出概念和原理。 教学流程 在导入新课部分,首先提出商品是用于交换的劳动产品,并提纲挈领的拉出本课所要解决的两个基本问题:商品为什么要交换,为什么能交换?从而引起学生对本课内容的兴趣和求知欲并过度到新课内容的讲授。在通过对商品为什么要交换这个问题的分析中概括出商品的第一个基本属性:使用价值后,进一步提出疑问:商品有使用价值,那么其他的物品、劳动产品是否有使用价值?来引发学生进一步思考讨论,最终总结归纳出:使用价值是商品的自然属性,商品一定有使用价值,但有使用价值的东西不一定是商品。 到此时已经解决了本课的第一个基本问题:商品为什么要交换?接着,就可以过度到第二个问题:商品为什么能交换?是商品的使用价值或者其它的自然属性使其相等吗?在引导学生思考并排除了这些自然属性使商品能按一定比例交换的可能性后,撇开劳动的具体形式,商品就剩下一种共同的东西:无差别的人类劳动。这时商品的第二个属性价值就出来了。在这个过程中可以提出交换价值的概念。此时,学生也就不难得出结论:不同商品能按一定比例交换的原因在于价值相等。紧接着,我们可以再进一步的提出疑问:是不是所有的无差别的人类劳动都能形成价值?经过师生共同的探讨之后就可以得出结论:价值是商品特有的、本质的、共有的、本质的属性。有价值的东西一定是商品,一定有使用价值。 接下来就过度到商品是价值与使用价值的统一体,缺一不可。再引导学生对价值与使用价值之间的对立统一关系的正确认识。强调指出他们的统一表现在商品是价值与使用价值的统一体,对立则表现在交换中,买卖双方不能同时兼得商品的价值和使用价值。 最后用一个简单的例子:一件上衣=十公斤大米来说明价值与交换价值的关系:价值是交换价值的基础,交换价值是价值的表现形式。再以经济学中最易理解的买卖双方的地位不同来强调等式两边地位不同,位置不可颠倒。 到这里新课的教学内容已经可以结束。如果时间允许,可以再从消费者和生产者的角度说明商品的两个基本属性及其关系的现实意义,从而提高学生的思想觉悟,培养他们的质量意识。 在最后的课堂小结中,将进行归纳总结突出本课的重点和难点,帮助学生理清整个知识体系,从而形成一个知识网络。同时为下节课的内容做铺垫。 板书设计 商品的基本属性、使用价值:能满足人的某种需要的属性。(自然属性) 2、价值:凝结于商品中的无差别的人类劳动。(特有的、本质的、社会的、共有的属性) 3、价值与使用价值的关系: 对立 统一 (在交换中)(在商品中) 4、价值与交换价值的关系: www.xiexiebang.com 淘宝评价: 时下,吾已浪迹淘宝数年,但觉世风日下,深知各店之猫腻甚多,不乏其闻。然,唯此店这宝物与众皆不同,为出淤泥之清莲。使吾为之动容,心驰神往。乃至饭不能食,寝则不安,辗转反侧无法忘怀。于是乎紧衣缩食,凑齐银两,倾吾所能而买。掌柜之热心与小二之殷切让人感染,感激怜涕。打开包裹之时,顿时金光四射,屋内升起七彩祥云,处处都是祥和之气。吾惊讶之余便是欣喜若狂,呜呼哀哉!此宝乃是天上物,人间又得几回求!遂沐浴更衣,焚香祷告后与家人共赏此宝。妻则赞叹不已,不仅赞叹此宝物款型及做工,超高性价比!且赞吾独具慧眼与时尚品位,更予红唇相赠。店主果然句句实言,毫无夸大欺瞒之嫌。此属大家风范,忠义之商贾。吾不敢独享此宝,唯恐天谴。便有感而出此文,句句真言,字字肺腑。嗟!望淘宝江湖所需此宝之英雄志士无需货比三家,谨记唯此宝为首选也! 证明 淘宝店铺:http://掌柜名:,一直在我单位进货并在网上销售,本单位为经营单位,所经营产品:为正规合法的专柜正品产品,产品出厂之前全部经过严格的质量检查,所有产品承诺无质量问题,无瑕疵存在。 特此证明! xxxxxxxxxxx总代理 xxxxxxxx店铺 法人代表: 年月日
/nx虽然/c中间/f出/v了/ul点/q小/a插曲/n,/w但是/c很/d快/a都/d给/v解决/v了/y。/w
/nx店家/n工作/vn相当/d给/p力/n。/w
/nx快递/vn也/d很/d给/p力/n!/w赞/vg一个/m!/w
/nx
/nx虽然/@c中间/f出/v了/ul点/q小/@?a插曲/@*n。但是/@c很/d快/@!a都/d给/v解决/v了/y。
/nx店家/@*n工作/@*vn相当/@!d给/p力/@*n。
/nx快递/@*vn也/d很/d给/p力/@*n。赞/vg一个/m。
/nx。第二篇:商品的基本属性教案
第三篇:商品的基本属性教案(模版)
第四篇:淘宝评价
第五篇:淘宝商品正品证明