第一篇:电子商务数据分析指标体系
电子商务数据分析指标体系
数据分析指标体系:
1、网站运营指标;
2、销售指标;
3、营销活动指标;
4、经营环境指标;
5、客户价值指标;
1、网站运营指标:
流量指标:流量数据指标(PV、UV)、流量质量指标(PV/UV、销售额/UV)、流量转化指标(下单转换率、成交订单转化率(订单有效性)、转换次数);
商品类目指标:商品类目结构占比、商品类目销售额占比、类目销售SKU集中度、库存周转率、商品类目的断货率;
供应链指标:压单占比(分仓库)、系统/实物报缺率、上架完成率/出库及时率、出库率、次日到达率/未到达占比;
2、销售指标:
网站指标:下单次数、加入购物车次数、在线支付次数、购物车转化率、下单转化率、支付转化率、成交转化率;
订单指标:订单有效率(成交率)、订单金额、客单价、订单转化率、毛利率、退换货率、重复购买率;
3、营销活动指标:
市场营销活动指标:新增访客人数、总访问次数、订单数量、下单转化率、ROI;广告投放指标:新增访客人数、总访问次数、订单数量、下单转化率、ROI;商务合作指标
4、经营环境指标:
内部购物指标:
运营指标:PV、UV、购物车转化率、下单转化率、成交转化率、订单数量、订单金额;功能指标:支付方式、配送方式、商品数目、最短购物流程、购物体验;
5、客户价值指标:
客户指标:访客人数、访客获取成本、转化率;
新顾客指标:新增客户数量、注册转化率、新增顾客下单率、客单价;
老顾客指标:老顾客数量、消费频率、最近的一次消费时间、消费金额、重复购买;
第二篇:电子商务网站核心数据分析
电子商务网站核心数据分析
电子商务相对于传统零售业来说,最大的特点就是一切都可以通过数据化来监控和改进。通过数据可以看到用户从哪里来、如何组织产品可以实现很好的转化率、你投放广告的效率如何等等问题。基于数据分析的每一点点改变,就是一点点提升你赚钱的能力,所以,电子商务网站的数据分析是很重要的一门功课。一般来说,数据分析包括:流量来源分析、流量效率分析、站内数据流分析和用户特征分析四个部分。我们先来说说流量来源分析。
电子商务就是贩卖流量的生意,低成本的流量来源是保证企业盈利的重要条件。流量来源分析主要是要明白你的用户都是从那些网站来的,那些网站的给你带来更多的订单、那些网站的流量是真实的,那些是虚假等。
流量分析一般一奥分析以下内容:
网站流量来源排名:那些网站贡献的流量多,那些贡献的少
搜索引擎关键词分析:根据关键词的来源分析来查看网站产品分布和产品组合。如果关键词查询多的产品却不是网站的主推品,可以进行适当调整。
网站流量趋势分析:网站的流量是否均衡稳定,是不是有大幅度波动。一般来说流量突然增加的网站,如非发生突发事件,购买的广告位作弊的嫌疑比较大。
网站流量核对:查看是否有莫名流量来源,流量来源大不大。如果莫名来源流量很大的话,有可能是您购买的CPC或者其他资源被注水了,将您的广告链接分包给了点击联盟。
推介网站与直接访问的比例:推介网站可以理解为外部广告,直接访问就是用户直接输入网址。一般来说,直接访问量越大说明网站的品买知名度越高。
其次是流量效率分析
流量效率是指流量到达了网站是不是真实流量,主要分析指标如下:
到达率:到达率是指广告从点击到网站landingpage的比例。一般来说,达到率能达到80%以上是比较理想的流量。这个也跟网站的速度有关,综合来分析一下。
二跳率:这个也是为了分析流量的有效性。如果是有效流量的话,一般会有合理的二跳。如果是虚假点击的话,一般是没有二跳的。但是也不排除有部分作假很厉害的网站能做出二跳,比如PPLIVE,当年洪成浩做投放的时候,我们的广告直接连接到广告专题页,二跳是15%左右,但是PPLIVE居然有60%的二跳!最主要的是一个转化都没有。差点把我们的图片图服务器点瘫痪,这个就太过分了。
PV/IP比:一般来说,有效的流量,网站内容比较好的话,一个独立IP大概能有3个以上的PV。如果PV/IP比能达到3以上的话,一般说明流量比较真实,网站内容也不错。但是如果低于3的话,并不代表流量不真实,也可能是网站本身的问题。如果PV/IP过高的话,也可能有问题,比如人力重复刷新等,要谨慎对待。
订单转化率:这个是最最核心的数据了,没有订单转化率,其他一切都是免谈!某些牛B的B3C能做到4%的提袋率!某些却仅仅是0.1%,努力吧,众B2Cer们。站内数据流分析,主要用来分析购物流程是否顺畅和产品分布是否合理,一般如下:
页面流量排名:主要查看产品详情页的流量,特别是首页陈列的产品详情页。参照最终的销售比例,优胜劣汰,用以调整销售结构。
场景转化分析:从首页-列表页-详情页-购物车-订单提交页-订单成功页,的数据流分析。比如说,首页到达了10000用户,伺此后的数据分别是8000-5000-1000-50-5,购物车到订单提交页的相差比较大,大概就能看出来是购物车出了问题,需要改进。
频道流量排名:各个频道流量的排名,主要用来考虑产品组织的问题。
站内搜索分析:这个反应的是用户关心的产品有哪些,产品调整的最直接数据。
用户离开页面分析:用户在那些也页面离开最多?是首页还是频道页?是购物车还是订单提交页。突然的大比例的离开网站,往往预示这问题的存在。
最后是用户特征分析:
用户停留时间:这个放在用户特征分析里有些牵强。而且目前监控用户停留时间的方式是:用户到达时间-用户离开时间,但是用户什么时候离开很难准确判断,这种数据仅作参考,一般停留时间越长网站粘性越好。如果用户停留时间超过1个小时,基本就是假流量,或者用大打开网页忘记关了,呵呵。
新老用户比例:老用户比例越高,证明用户忠诚度不错。但是还要考虑绝对量,不能靠新用户越来越少来衬托老用户比例越来越高。
用户地域分析:用户地域与订单地域分布基本一致,基本上就是用过互联网用户的分布比例以及经济发达程度等。这个对于提升区域配送及服务比较有帮助。
电子商务网站的基本数据分析就是以上这些,作为实际操作人员要根据数据分析的情况来发现问题和总结问题,进而优化网站的结构和用户体验、来提升网站的专转化率和用户忠诚度。这些都是电子商务很重要的基础工作,希望能为大家的利润做出贡献
第三篇:电子商务网站评价指标体系
电子商务网站评价指标体系
当越来越多的传统企业触网,其所带来的不仅仅是平台、机制、人才与其与传统渠道的冲突问题,更重要的是企业应该以哪些可以量化、考核的指标来对企业的电子商务效果进行评估的问题,这是最后一公里的问题,但往往是最关键、最重要的问题。对于有志于开展电子商务的传统企业而言,建设一个优秀的网上旗舰店往往是第一步,接下来才是人才、经费和机制的问题。一个优秀的网上旗舰店的评价指标体系一方面包括网站本身的一些指标,也包括一些网络营销的指标,建立一个有效地企业电子商务评价指标模型具有实际意义。
可以讲企业电子商务评价模型分为四大块:第一是网站本身,第二是网站流量,第三是网站的电子商务指标,第四是客户价值指标。因为网站本身的评价指标就已经自成体系,本身就是一个很大的体系,所以本文拟从后三者的角度进行总结。
第一,在企业电子商务的过程中,网站建设好了,第一步就是要让更多的人知道、使用,也就要一定要有流量。
通常说的网站流量(traffic)是指网站的访问量,是用来描述访问一个网站的用户数量以及用户所浏览的网页数量等指标,常用的统计指标包括网站的独立用户数量、总用户数量(含重复访问者)、网页浏览数量、每个用户的页面浏览数量、用户在网站的平均停留时间等。
网站访问统计分析的基础是获取网站流量的基本数据,网站流量统计指标大致可以分为三类,每类包含若干数量的统计指标,它包括网站流量指标和用户行为指标。
1、网站流量指标
网站流量统计指标常用来对网站效果进行评价,主要指标包括:
1)、独立访问者数量(unique visitors);
2)、重复访问者数量(repeat visitors)
3)、页面浏览数(page views);
4)、每个访问者的页面浏览数(Page Views per user);
5)、某些文件/页面的统计指标,如页面显示次数、文件下载次数。
2、用户行为指标
用户行为指标主要反映用户是如何来到网站的、在网站上停留了多长时间、访问了那些页面等,主要的统计指标包括:
1)、用户在网站的停留时间;
2)、用户来源网站(也叫“引导网站”);
3)、用户所使用的搜索引擎及其关键词;
4)、在不同时段的用户访问量情况等。
3、用户浏览网站的方式 时间 设备、浏览器名称和版本、操作系统
用户浏览网站的方式相关统计指标主要包括:
1)、用户上网设备类型;
2)、用户浏览器的名称和版本;
3)、访问者电脑分辨率显示模式;
4)、用户所使用的操作系统名称和版本;
5)、用户所在地理区域分布状况等。
第二,对于一般的企业电子商务网站而言,仅仅有流量还是远远不够的。企业电子商务最根本的目的是增加销售额,提升品牌知名度,所有在有了一定的流量之外,更重要的就是提升
其流量转化率,也就是将流量变现。
流量的商业价值在于其转换率,仅仅有虚高的流量除了浪费企业的广告和推广费用,并不能为企业带来真正的销售额。尽管提升流量有助于为互联网零售企业带来更多的人气,但是如何将人气转化为实实在在的金钱,则需要提升以下几个和流量休戚相关的指标。
1、流量注册比,即一定时期内,网站注册人数占访问量的比例。
2、提袋率。
在互联网零售业,提袋率是指一定时期内,将商品放入购物车或加入收藏夹的顾客人数占该时间段网站访问量的比例。网络销售的提袋率并不能直接反映出企业经营业绩的好坏,因为将商品加入购物车里的消费者并不一定要为它们买单。
不过对于互联网零售企业来说,提袋率的作用在于帮助企业分析哪些产品是消费者曾经感兴趣却最终放弃的,哪些产品是令消费者反复观看却又犹豫不决的。企业可以着重分析这些产品的特点——也许只需改进一点点,比如商品外观设计,或者仅仅是改变一下文字描述,放到网站显眼的地方推荐,它们就有可能窜上热销榜。
3、订单转换率,即一定时期内的订单数占访问量的比例。
这是反映流量商业价值最核心的指标,只有当流量转换为订单,企业才能收获真金白银。一些互联网零售企业有可能绝口不提流量注册比、提袋率等指标,订单转换率却是所有企业都关注的数据。
4、跳出率,这是指一定时期内,仅仅在首页匆匆“飘”过,便立即离开网站的人数占所有访问量的比例。跳出率越高的网站,意味着流量的无效性也更高。
5、IPV。
除了和所有企业一样关注PV(PageView)之外,淘宝还非常关注IPV(ItemPageView)。也是很多企业关注的流量指标。后者是反映商品类目关注度的一个指标,比如消费者登录淘宝首页后,是否再进入某些商品类目中,究竟浏览了哪些单个的商品——这为考核每个商品类目的销售业绩提供了数据支持。
上述指标有助于对流量的有效性做出量化的评估。但如何提高流量转换率?你需要找到适合你的顾客,即含金量高的顾客。
第三、客户价值评价指标
1、客户的含金量。
而在互联网零售领域,消费人群的含金量则是按照普通网民、注册用户、实名注册用户、经过身份认证的实名注册用户、具有信用体系的认证实名用户这5个层级组成的金字塔结构依次上升的。多数互联网零售企业的顾客位于实名注册用户及以上的层级,抓住这些位于金字塔上部的人群,可以令企业集中精力去维护含金量最高的那部分客户,做到有的放矢。
2、每笔订单平均浏览时间。
当网络联盟、门户广告、社区等途径为零售网站引来人群时,用户在网站上的浏览时间与网站交易量的比率显得尤为重要,这个指标即每笔订单平均浏览时间,这是尼尔森公司推荐的一个衡量互联网零售企业发展潜力的评估指标。
3、客单价,即每个客户平均消费金额。
这是互联网零售企业对客户价值的另一个考核指标。对于零售网站来说,客单价自然是越高越好。因为每笔订单都会耗费管理成本,如果是销售实物,每笔订单还将耗费物流成本——如果客单价太低,企业将投入更多精力提升订单量,同时也意味着利润空间的降低。客
单价与企业销售的商品相关,比如销售衬衫的企业和销售义乌小商品的企业的客单价显然不一样,因此企业在开始选品时,就得考虑客单价的问题。
客单价的另外一个参考意义是,如果企业要进入某个互联网零售平台,比如淘宝、易趣、拍拍等交易类网站,参考它们的客单价,可以客观衡量自己的商品是否适合在上面销售。目前淘宝的客单价是280元,淘宝的消费者多会接受这个价格甚至更低的商品。今年4月华伦天奴曾经进驻过淘宝的B2C平台,但是因为客单价在500元以上,价格昂贵导致生意萧条,3个月内仅仅成交28单,最终华伦天奴撤出了淘宝。
4、回头客的比例,即重复购买率。
这也是一个从客户创造价值的角度来考核互联网零售经营状况的重要指标。
5、新客户开发成本。
通常的计算公式是每个新客户成本=(广告费+推广费)/新增的顾客数。
以上是关于传统企业进军电子商务的关于其旗舰店的效果评价指标体系,尚待完善。
第四篇:电子商务B2C数据分析全流程
电子商务B2C数据分析全流程
“请举手!如果你的用户转化率每天达到了5%。”如果这样问中国所有的B2C网站。
结果是,一个举手的人都没有。
目前,绝大多数B2C的转化率都在1%以下,做的最好的也只能到3.5%左右(比如以卖图书为主的当当)
我想,所有的B2C都会关心三个问题:究竟那97%去了哪里?自己的网站在什么环节变成了漏斗,让进来的客户像沙子一样一点点地流失?以及怎么检修隐藏的漏斗,减少漏水的速度?
数据,这个时候可以是一双眼睛,可以让我们看得一些蛛丝马迹。
一、分解B2C漏水的过程
大家只知道B2C的转化率不高,但是却不知道客户是怎么流失的。一群用户进来网站,他们经过首页、中间页、产品页、购物车以及结算等几个步骤,通常他们在这几个环节是怎么分批离开的呢?其实,这不是没有数据可查。
先给大家看一张图。
这个数据图,是我根据十几年的工作经验总结得到的,一般与实际情况相差不多。
图一意思就是说,假定400个客户到了你的网站,会到中间页(包括搜索頁、分类頁、促销頁)的只有320(60%~80%)个用户,点击进产品页的只有190个用户,最后辛辛苦苦走到购物车只有9%~13%的用户,这个时候还不能开心,因为并不代表用这些户会掏钱,留到最后会付钱的用户仅仅只有3%~5%。
更叫人难以接受的是,在这最终购买的3%~5%中(未包括支付成功),最后回头再次购买的,又要打一个大折扣。
在吐舌头惊讶B2C生意难做之后,大家可以检查一下自己网站的漏水数据。只有清楚了哪个环节漏水,才能补洞。
二、排查每个环节的漏洞在哪里
以下,我们按照漏水的顺序,一个环节一个环节摸下去。
1、三问首页
大部分B2C首页有20%以上的弹出率,可能许多人对这个数字都习以为常,认为非常正常。如果做得很细致的分析的话,可能就意外的收获。
先问第一个问题:每天来的新客户占多少?老客户占多少?新老客户的弹出率分别是多少?
我看了一下麦包包的数据,麦包包用了很多流量来支持网站首页,如果他们的弹出率很高,那也是很正常的。但是注意要问一句,新老用户的弹出率分别多少?这个是比较容易考验网站的基础能力,新客户的弹出率可以检验一个网站抢客户的能力。对于老客户来说,流程上的用户体验相对不是最讲究,这个就很考验Onsite Merchandising的能力,比如产品的质量和价格是否吸引人。
一般的来说,如果是一个新网站,拓展新用户比经营老客户更为重要的话,新老客户的比例最好是在6比4(甚至7比3),那么首页就要有一些手段偏向抓住新客户。
如果,新用户的弹出率非常高,或者是老用户的弹出率非常高,那么网站运营者就该反思,是不是网站首页的设计没有照顾到新客户或者老客户。
做了三年的B2C网站,建议分新老用户两个首页,已经在网站购买过的用户,没有必要再向它介绍网站,而是直接刺激他消费。
再问第二个问题,流量分几个大渠道进来,每个渠道的弹出率情况如何?
问完了之后,接下来可能发现从百度和谷歌进来的用户,弹出率可能差异非常大。而且今天主流B2C网站,都在费尽心思引进流量,比如凡客今天做很多促销,许多不是从“正门”(官网首页)进来,是“旁门”(LP促销页)进来,所以今天注意首页之外,还要看一下旁门。
针对自己的主要流量渠道排查下去,很容易发现,哪条渠道在漏水。找到了痛处之后,再找到相应的解决方法就不难了。
接着再问第三个问题,首页被点击最多、最少的地方是否有异常情况?
在首页,点击次数异常的高、或者异常的低的地方,应该引起注意。
这里,在特别给大家分享一个好用的“规律”,一般来说,首页的“E”(以E字中间的“一”为界,上部是首页第一屏)部份是最抓用户眼球的地方,在这个“E”上如果出现点击次数较低的情况,就属于异常情况,应当注意,或者干脆移到“E”外面去;同理,如果在“E”的空白处出现了点击次数较高的情况,也可分析原因,可考虑要不要移到“E”上面来。
国内的B2C网站首页非常长,可能许多用户不会浏览到首页底部,所以“E”最下面的“一”就往往可去掉,变成了“F”规律。
2、中间页留客的三个技巧
先说一下美国用调查出来的现成数据,在B2C网站上的准买家,有18%的用户有找不到需要的产品的困难,有11%的用户找到了产品但是不自己想要的,这29%的用户基本会漏掉。
大部分用户进入首页之后开始找产品,第一是看促销,第二个看目录,第三是用搜索工具。其中,大概有60%~70%的用户是通过搜索+目录的方式走到产品页面。
同上,这三个渠道都要按照新老客户分开去看一下离开率,这里不做赘述。这里和大家分享一下三个技巧。
技巧一:怎么判断促销、目录和搜索是否成功,就看一下走到产品页的用户百分比是多少,哪一个渠道走得不好,就要改善。到底是怎么改进?一般来说,促销的原因与marketing的关系大一些,目录与采购组关联度大一些。
例如,拿产品目录来说,手机应该是按照品牌来分、功能分、还是按照价格来分?目录经理需要和采购经理密切沟通,了解市场情况。曾经,我去京东,京东有个做目录的经理问我,怎样做好一个产品目录?当时我说我也没答案,这个我研究了10多年,没有特别好的标准答案,只能是与凭借多年的市场经验。
如果一个网站前端的东西做不好,是营销的责任多一些。到中间页面,可以按照目录的转化率查一遍,转化率差的目录就要注意一下。
再说搜索,一般B2C网站是由目录经理+技术来做的。通过搜索工具找产品的用户,自己有精确的需求,那么除了搜索技术之外(此环节与产品经理的关系非常大),还要提供符合用户需要的产品。假想一下,如果一个用户搜索出来的页面只有3个产品,他肯定会判断这个网站的东西非常少,如果还不那么符合自己要求的话,离开率几乎是100%。
而多年做数据的经验告诉我,一般来说,在搜索页的第三页至第四页,用户还没有找到想要的产品,离开率就会很大。针对搜索页离开率比较大的页面,也有两个分享的技巧。
技巧二:在离开率高的页末尾,推荐给用户另外一个搜索路径,让用户换一条路找产品。
技巧三:对于那些找不到自己想要的东西的用户,乘他们脑子是空的时候,弹出一个菜单,告诉他们10个人就有9个人买了某某产品,可能就会把他整个思维重新激活,又可能留下。
技巧三比技巧二对用户的刺激大,但是也更冒险,如果对推荐的产品没有足够大的把握,用户可能转头就离开了。
3、产品页要特别留意用户停留时间
到了产品页,用户留不留,与产品描述、质量有非常大的关系。所以,要特别留心客户停留在产品页的时间,如果许多用户打开产品页不到1秒钟就走了,就要留意分析原因了。是不是这个产品没有吸引力?是不是产品描述不准确?要多问一些问题。
另外,和传统零售业喜欢提到的“碰撞率”相似,网站运营者应该了解哪些产品是被看了最终页,哪些没有被用户点看。
4、购物车里多少产品没有付款?
但是并没有下单付款。
许多用户把产品放进购物车,但是并不付款。找产品部负责人,为什么这么多用户放在购物车里却不付款?这对于一个B2C网站来说,是一个很严重的事情。
这里有三个点值得一提。
一是,许多B2C网站,等用户要下单,提醒“请先注册”,30%的人可能会选择离开。这真的非常狠的一刀,从站外把用户引进来好不容易跋山涉水到了这一步,竟然还要给用户一刀送他离开,多少B2C网站思考过是否必要设立这一“提醒”?
二是,如果找不到用户不付款的原因,可以直接给几个用户电话访问。
三是,分析同时被放在购物车的产品之间关联性。
总之,到了购物车,是网站自己和自己比,定性的多,定量的少。
三、B2C的顾客也有生命周期
传统零售企业,很难知道,客户在一段时间内购买了多少次产品、买的是什么价位,但是电子商务公司可以很清楚知道用户的购买行为。
对于用户规模很大的B2C来说,很有必要把用户分为三个阶段:以3个月为限(有些垂直网站要6个月至一年),只购买够一次的用户、一个月购买过2到8次的用户、购买过8次以上的用户(每个网站可以根据自己的情况定次数,这里的数据是一般的规律)。B2C网站从0到1,可以说明拉客能力。当一个客户进来,如何做1到x(X的具体数字,垂直网站和综合有区别,企业在不同阶段,X也会变)也十分重要,不同阶段的用户的维护方法是不一样的。今天看很多网站,从1次到3次,会有50%以上用户就不回头流失了,而到了5-8次以上流失率便放慢了。
如何从1做到X,还有许多可讨论,只是这篇文章集中介绍的是从0到1的转化,所以在这里就不展开了。但是有一定是非常肯定的是,大部分用户只有第一次购物体验非常好才
会回来重复购买。所以说,做好了从0到1,从1到X就已经成功了一半了.
第五篇:电子商务网站营销数据分析技术探讨
电子商务网站营销数据分析技术探讨
电子商务(EC)在现代商务企业的发展中占有越来越重要的地位。如何利用信息技术掌握更多的商务信息已备受商家们的关注,站点分析技术正是为商家和网站提供了这样一种有效的分析工具。
本文讨论了一些站点分析的相关技术信息和几种网站分析浏览者行为的理论与算法,及数据仓库的相关理论知识。并对站点日志数据进行了实例分析,并指出了站点分析技术发展的方向。
一、绪论
互联网技术不断革新与发展,给全球经济带来新的革命,从而也影响着人们的生活。互联网为企业提供了一种真正属于自己并面对广大网民的信息载体,企业通过这一载体,可以自由地将企业的产品、服务等其他相关信息在线发布。
电子商务就是网上实行各种商务活动的总包装,种种所谓电子商务解决方案,实际上就是实现各种网上商务活动的硬件与软件系统。它将影响到每一个人、每一个企业。电子商务的主体是我们每一个人、每一个企业,电子商务发展的过程就是对人们的生活、企业的运行的一种模式的一个巨大改变的过程。对于进入虚拟世界的商家而言,仅仅吸引注意力还不行,对它们而言,站点的访问率绝对不仅仅是一个数字,它还是一种信息,如果网站能够从网络中获得网民的信息并从中分析其行为诱因,那么就容易掌握网民的需求,从而利用互联网去创造更多商机。
电子商务站点用户行为的分析这一问题也因此成为现如今的热门话题,被人们普遍关心起来,尤其是被众商家所重视。Web站点的日志数据正以每天数十兆的速度增长。如何分析这些数据,如何从这些大量数据中发现有用的、重要的知识(包括模式、规则、可视化结构等)也成为现在人们最关注的信息。
在此情况下,站点用户行为分析就可为网站或商家提供出大量有价值的信息,包括站点的受欢迎度的对比、商业广告点击情况总括、产品的反馈信息、站点各种信息的点击情况等等。另外,还可根据不同的页面内容来分类浏览者,以便做出更合理的页面分类,促使网站逐步向个性化、最优化状态发展。这一技术对互联网的发展壮大有着不可忽视的巨大作用,它的发展对信息技术亦将产生深远的影响。
在电子商务早期阶段时,Web站点数据流分析通常是在主页上安装计数器以及在一个
外部日志文件上运行简单的统计程序记录点击率。但是,简单的点击计数既不准确也远未达到营销目的所需的详细程度。因此,各公司开始寻找更先进的分析工具,这类工具可以提供谁在访问公司Web站点以及访问者一旦进入站点后将做些什么的全面信息。站点开始分析的地方是Web服务器的访问日志。每当用户在站点上请求一个网页时,这个请求就被记录在访问日志中。如:目前有多少用户正在访问站点、他们正在看哪些网页以及他们在站点中呆了多长时间。显然,日志分析和行为概况的正确组合可以对Web站点的成功产生直接影响。此外,从日志分析中得到的信息是很难从真实世界中捕获到的,但这些信息却可以较容易地在线收集到。Web数据流分析工具的这些最新进展可以使网站获得有关上网客户和他们习惯的详细报告。
二、站点信息统计方法
Web页面数据主要是半结构化数据,计算机网络技术和信息技术的飞速发展,使得半结构化数据呈现日益繁荣的趋势。半结构化数据,是一种介于模式固定的结构化数据,和完全没有模式的无序数据之间,在查询前无法预先确定其具体的类型和格式;同时它们相应的数据结构是不固定、不完全或不规则的,即这些数据有的本身就没有结构,有的只有十分松散的结构,有的数据的结构是隐含的,需要从数据中进行抽取。而有时,尽管数据本身是有精确结构的,但为了一定的目的,而故意忽视它的结构。半结构化数据具有以下五方面的主要特点:
1.结构是不规则的。包含异构数据、相同的数据信息用不同类型或不同的结构表示。
2.结构是隐含的。如电子文档SGML格式。
3.结构是部分的,有时部分数据根本无结构,而部分数据只有粗略的结构。
4.指示性结构与约束性结构。传统的数据库使用严格的分类策略来保护数据。而指示性数据结构是对结构的一种非精确的描述。它可接受所有新数据,代价是要频繁修改结构。
5.半结构化数据通常在数据存在之后才能通过当前数据归纳出其结构,称之为事后模式引导。模式有时可被忽略,同时数据与数据模式间的区别逐渐消除。
三、数据分析的方法
Web页面的数据通常是利用统计模型和数学模型来分析的。使用的模型有线性分析和非线性分析;连续回归分析和逻辑回归分析;单变量和多变量分析以及时间序列分析等。这
些统计分析工具能提供可视化功能和分析功能来寻找数据间关系、构造模型来分析、解释数据。并通过交互式过程和迭代过程用来求精模型,最终开发出最具适应性的模型来将数据转化为有价值的信息。
知识发现是从数据仓库的大量数据中筛取信息,寻找经常出现的模式,检查趋势并发掘实施。它是分析Web页面数据的重要方法。知识发现与模式识别的算法有以下几种:1.依赖性分析依赖性分析算法搜索数据仓库的条目和对象,从中寻找重复出现概率很高的模式。它展示了数据间未知的依赖关系。利用依赖性分析算法可以从某一数据对象的信息来推断另一数据对象的信息。例如:在杂货店中,一堆椒盐饼干放在陈列饮料的走道上,这是因为经过依赖性分析,商店认为:很大一部分买饮料的顾客如果在取饮料的路上看到椒盐饼干的话就会购买,因而此种分析影响了商店布局。
2.聚类和分类在某些情况下,无法界定要分析的数据类,用聚类算法发现一些不知道的数据类或怀疑的数据类。聚类的过程是以某一特定时间为依据,找出一个共享一些公共类别的群体,它称为无监督学习。分类过程,这是发现一些规定某些商品或时间是否属于某一特定数据子集的规则。这些数据类很少在关系数据库中进行定义,因而规范的数据模型中没有它们的位置。最典型的例子是信用卡核准过程,可确定能否按商品价格和其它标准把某一购买者归入可接受的那一类中。分类又称为有监督学习。
3.神经网络神经网络通过学习待分析数据中的模式来构造模型。它对隐式类型进行分类。图像分析是神经网络最成功的应用之一。神经网络用于模型化非线性的、复杂的或噪声高的数据。一般神经模型由三个层次组成:数据仓库数据输入、中间层(各种神经元)和输出。它通常用恰当的数据库示例来训练和学习、校正预测的模型,提高预测结果的准确性。
4.数据挖掘中的关联规则关联规则是数据挖掘的一个重要内容,通常关联规则反映的是数据间的定性关联关系。如一个商品交易数据库,一条记录表示用户一次购买的商品种类,每个属性(A、B„„)代表一种商品,每个属性都是布尔类型的。一条关联规则的例子是:{A、B}→{D}[2%][60%],规则的含义是“如果用户购买商品A和B,那么也可能购买商品D,因为同时购买商品A、B和D的交易记录占总交易数的2%而购买A和B的交易中,有60%的交易也包含D”。规则中60%是规则的信任度,2%是规则的支持度。数据挖掘就是要发现所有满足用户定义的最小信任度和支持度阀值限制的关联规则。数据只是定性地描述一个交易是否包含某商品,而对交易量没有定量描述,这种布尔类型数据间的关联规则被称为定性关联规则。但数据记录的属性往往是数值型或字符型的,这些数据间也存在对决策有帮助的关联规则,相对于定性关联规则,这些规则被称为定量关联规则。
另外,数据挖掘目前仍面临着数据质量的问题。由于数据仓库中的数据来自多个数据源,而在合并中存在很多障碍,如:没有建立合并视图所需的公共关键字;数据值相互抵触;元
数据的说明不完备或丢失;数据值的不洁净等等。数据挖掘是在标准化的数据基础上进行的,因而这些都会严重破坏数据的准确性,导致最终决策的失误。所有这些问题都在等待着人们去发掘更好的解决方法。