第一篇:网络舆情监测系统
舆情监测系统介绍
功能和服务
舆情监测系统的数据是经过清洗、过滤、抽取、分析和挖掘的,舆情监测系统的主要功能并不只是提供简单的舆情信息搜索,而是具有全网搜索、定向监测、自动发现,自动预警,趋势分析,自动分类等功能,具有丰富的统计结果。
而互联网搜索引擎只能提供相关的搜索服务,要靠人工主动去搜索,搜索结果出于商业利益的驱动,掺杂很多的不合理的因素,准确性、可用性不强。全面性和及时性方面完全不能满足舆情监控的需要。
采集范围和深度
舆情监测系统所采集的信息范围主要是定向的,是用户关注的特定区域、特定领域的网站,针对这些网站可以做到全面采集和精准采集。虽然baidu/google等互联网搜索虽然采集范围广泛,但是针对具体的舆情载体,采集深度不够,采集不全面。
目前搜索引擎的数据采集采用的是广度优先策略,会根据url地址进行重复采集的控制。对于论坛、贴吧等舆情载体不会按照主贴、跟帖、翻页的方式进行精确采集,采集深度满足不了舆情监控应用的需要。
西盈网络信息雷达系统专门针对西盈网络舆情监测(监控)系统和西盈竞争情报系统开发而成的,深度挖掘技术超越了google等以智能化和广度见长的搜索引擎爬虫系统。
更新速度
舆情监测系统用户可以自己设置采集的更新频率,对于舆情高发的载体网站可以做到分钟级的更新,这一点互联网搜索引擎是无法达到的。互联网搜索引擎的采集周期一般都是数天或者数周,甚至会出现漏采,无法采集的情况。
采集的网站种类
舆情监测系统可以做到对新闻,论坛,博客,贴吧等舆情载体的全面采集,尤其是针对论坛(包括跟帖),贴吧等这些“草根”网站(这些媒体往往是舆情高发区域),实现全面、迅速的舆情采集的同时,可以实时更新信息的点击数,回复数,转载数等等。而互联网搜索引擎大多是采集新闻网站,而对于论坛,贴吧、博客等等往往无能为力,更无法提供舆情分析需要的统计数据。采集数据的有效性
互联网搜索引擎所采集的数据,往往是没有经过过滤的,甚至充斥着大量的广告等垃圾信息。这些信息往往可以作为舆情的并不多。而舆情监测系统所采集的数据全部都是有效的,和用户相关的,真正称之为舆情的数据。
舆情信息储存和利用
舆情监测系统的信息是储存在用户本地的,可以进行归档,分析利用以及作为应用系统的数据来源,但是针对互联网搜索引擎中的数据,用户没有任何干预的手段,只能通过其固定的检索服务进行访问。
相关信息的数量
百度和谷歌等互联网搜索引擎虽然拥有绝对多的数据量,但是对于和用户相关的舆情信息,由于其没有定向采集全面,深度等优势,其收录数量就会大大低于舆情监测系统。另外,舆情监测系统集成了互联网搜索引擎的元搜索功能。可以整合多个搜索引擎的搜索数据。
总结
成功的舆情监测系统是主动告知用户google等搜索引擎中或收录或没有收录的与“我”相关的舆情信息。重大事件及时预警,并提供量化的统计分析数据助力舆情分析,通过自动生成舆情报告等方式辅助舆情工作。
网络舆情监控系统解决方案
方案背景
据中国互联网信息中心调查,截至2009年12月31日,中国网民达到3.84亿人,全国互联网普及率28.9%,手机网民规模达到2.33亿。网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源于新闻评论、BBS、博客、聚合新闻(RSS),网络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。
由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过BBS论坛、博客、新闻跟贴/转贴等渠道来表达观点传播思想。如果引导不善,负面网络舆情将对社会公共安全形成威胁。对相关部门来说,加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。对企业来说,准确掌握产品和市场情况,监控竞争对手和行业动态,是企业市场、行销决策的重要支撑。方案内容
系统介绍
易观网络舆情监控系统,整合互联网信息采集技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、主题检测聚焦,倾向性研判等,实现用户的网络舆情监测和新闻主题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。
系统结构图
系统组网图
系统功能
1)深度多渠道网络信息采集,为用户提供监控源配置功能,可以对监控源的优先级进行配置调整。
2)完善的信息预处理机制:超链分析,编码识别,URL去重,锚文本处理,垃圾信息过滤,内容去重,关键字抽取,正文抽取等。
3)强大的索引分词机制,对舆情信息实施双重过滤,具有自动分类、自动聚类、相似性排重功能,系统能够自动完成热点发现。
4)热点舆情:系统自动识别出热点焦点事件,以舆情形式分新闻、论坛和博客三种类别呈现。及时发现网络热点信息。
5)专题追踪:生成专题报道对网络话题进行专题化的侦测和追踪,如两会、奥运会,对专题话题形成系统性的掌握和监控。
6)分站/分类浏览:对系统中舆情可以按网站和不同的分类进行浏览。同时可以对显示的舆情进行操作(设置影响、入简报、专题、收藏、删除)。
7)趋势分析:来源载体/站点分布、单个/多个关键词热度曲线图、主题/关键词热度的整体趋势、文章转载量日均/总体趋势分析、舆情信息的地域分布、网民检索行为分析。
8)突发事件分析:对突发事件进行预警,跨时间、跨空间综合分析,获知事件发生全貌。9)多种舆情检索方式:可按网站、类别、时间段、关键词等条件进行专项化全文检索,并可生成查询时间和次数、关键词查询频率等查询统计数据。另外还将结合检索关键词,随时补充全文检索库中的关键词,有机结合个人操作习惯,可在检索结果中进行二次检索。
10)舆情统计报告:根据舆情分析引擎处理后生成报告,用户可通过浏览器浏览,根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,提供决策支持。
11)统计报表:系统生成各种形式的报表。报表包括图表和数据表格,图表包括饼图、折线图、直方图等,如总量图、趋势图等;数据表格是对舆情信息的数理统计,以数字的形式记录各项舆情数据。另外用户可以自己需求定制报表模版,比如日报、周报、月报等。
12)舆情报警系统:对突发事件、涉及内容安全的敏感话题及时发现并报警,系统提供多种报警方式。
系统特点
1)精准全面的网络舆情采集,能够对论坛、博客、新闻评论等内容进行全面、精确的采集和及时的更新,为舆情分析提供强有力的数据保障。
2)多维度实时监测、过滤网络舆情信息,采集到本地的文章会自动标注并分析,具有趋势图直观展现。
3)专业的舆情办公平台,用户可以根据实际工作需要,将需要关注的信息定制到系统,用户可以随时调出自己需要的资料,直接追踪关注事件的传播源头,把握传播动态,系统自动生成舆情报告,节省用户人力。
4)专业的舆情分析顾问服务,基于易观深厚的互联网行业背景以及对网络舆情深刻的认识,协助用户进行舆情监控设计,对用户背景、行业特征及需求做深度调研,给出最适合用户的舆情监控方案。
5)丰富的舆情项目开发实施经验,有专业的舆情实施队伍和资源,提供从舆情监测规划、舆情系统选型、舆情项目实施、舆情工作开展到舆情干预的一体化的舆情系统解决方案。
6)拥有成熟的舆情产品,可以根据用户要求定制,需求牵引及时,在保证效果的同时提供良好的用户体验。
商业价值
帮助客户全面、及时、精准、专业、高效获取网络舆情并为己所用;
第一时间获取客户相关的正负面新闻、泄密信息、领导相关报道、近期舆论热点等,健全危机事件预警机制防患于未然;
协助企业客户准确掌握产品和市场情况,监控竞争对手和行业动态,为企业市场、行销决策提供支持支撑服务。
附件1:
“网络游戏未成年人家长监护工程”实施方案
“网络游戏未成年人家长监护工程”是一项在政府部门、人民团体指导下,社会和家长参与,网络游戏经营单位具体实施的社会行动,旨在加强家长对未成年人参与网络游戏的监护,引导未成年人健康、绿色地参与网络游戏,构建和谐家庭关系。该工程自2011年3月1日起全面实施。
一、“家长监护工程”的主要内容
(一)网络游戏经营单位建立专门的服务页面,公布专线咨询电话,开通专门受理渠道,介绍受理方式。
(二)家长需要了解、引导、控制孩子游戏活动的,由家长向网络游戏经营单位提供合法的监护人资质证明、游戏名称账号以及限制措施等信息。限制措施包括:限制每天或每周玩游戏的时间长度,限制玩游戏的时间段,或者完全禁止。
(三)网络游戏经营单位按照家长要求对未成年人的账号采取限制措施,并持续跟踪观察,及时反馈该账号的活动,为家长提供必要协助,制止或限制未成年人的不当游戏行为。
二、实施“家长监护工程”的具体要求
各网络游戏经营单位要做到“四有”,即有专人负责、有专线电话、有专区设置、有季度报告。
(一)专人负责
1.要指定专门的负责人,并将指定负责人及联络方式向所在地省级文化行政部门备案;
2.培训专门服务人员对“家长监护工程”提供专业咨询解答和服务支持;帮助家长了解被监护人游戏行为,提供家长与被监护人进行沟通的建议;
3.服务人员要持续跟踪每个申请,及时与家长沟通情况,反馈该账号的活动,了解未成年人参与游戏的状况,为家长提供必要协助。
(二)专线电话
1.开通单独的专线服务电话(区别于普通服务热线),提供咨询解答和受理服务;
2.在原有的客服电话中提供转接到专线服务电话的链接;
3.要提供多种服务渠道,确保家长可选择最便利的方式提出服务申请(传真、网络申请、电子邮件、信函邮寄、上门申请等)。
(三)专区设置
1.在网站设置“家长监护工程”专区,在主要运营产品网站的显著位置设置进入该工程页面的链接方式; 2.专区要有对工程情况、申请条件、处理流程、可采取的监护结果等事项的说明;
3.要在专区显著位置设置监护服务申请入口、受理方式(家长监护专线);
4.专区要预设好问题和答案,或展示虚拟案例操作流程及结果,供家长阅览和参考;
5.专区要设置服务申请进度查询;
6.专区要登载《未成年人健康参与网络游戏提示》(附件2),引导未成年人健康地玩游戏、玩健康的游戏。
(四)季度报告
各网络游戏经营单位要在每季度末向所在地省级文化行政部门提交“家长监护工程”情况报告。报告内容包括咨询数量、申请数量、受理与完成情况、重点案例分析、疑难问题说明,对于工程实施过程中出现的问题提出意见或建议。
三、强化信息公开和社会监督
文化部在中国文化市场网设置“家长监护工程”专栏,公布网络游戏经营单位名录、各经营单位“家长监护工程”服务网站主页、热线电话等信息,供家长和社会查询和监督。
第二篇:什么是网络舆情监测系统
什么是网络舆情监测系统?
系统背景
随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,主要通过BBS论坛、博客、新闻跟贴、转贴等实现并加以强化。当今,信息传播与意见交互空前迅捷,网络舆论的表达诉求也日益多元。如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。对相关政府部门来说,如何加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。
系统概述
Goonie网络舆情监控分析系统依托自主研发的搜索引擎技术和文本挖掘技术,通过网页内容的自动采集处理、敏感词过滤、智能聚类分类、主题检测、专题聚焦、统计分析,实现各单位对自己相关网络舆情监督管理的需要,最终形成舆情简报、舆情专报、分析报告、移动快报,为决策层全面掌握舆情动态,做出正确舆论引导,提供分析依据。
功能特点
·自定义URL来源及采集频率
Goonie网络舆情监控分析系统用户可以设定采集的栏目、URL、更新时间、扫描间隔等,系统的扫描间隔最小可以设置成1分钟,即每隔一分钟,系统将自动扫描目标信息源,以便及时发现目标信息源的最新变化,并以最快的速度采集到本地。
·支持多种网页格式
Goonie网络舆情监控分析系统可以采集常见的静态网页(HTML/HTM/SHTML)和动态网页(ASP/PHP/JSP),还可以采集网页中包含的图片信息。
·支持多种字符集编码
Goonie网络舆情监控分析系统采集子系统能够自动识别多种字符集编码,包括中文、英文、中文简体、中文繁体等,并可以统一转换为GBK编码格式。
·支持整个互联网采集
Goonie互联网舆情监控系统元搜索模式是以国内知名互联网搜索引擎的结果为基础并利用Goonie采集器直接面向互联网定制内容进行直接采集,用户只需要输入搜索关键词就可以了。
·支持内容抽取识别
Goonie网络舆情监控分析系统可对网页进行内容分析和过滤,自动去除广告、版权、栏目等无用信息,精确获取目标内容主体。
·基于内容相似性去重
Goonie网络舆情监控分析系统通过内容相关识别技术自动判别分类中文章的关系,如果发现描述相同事件的文章自动去除重复部分。
功能描述
1、热点话题、敏感话题识别
Goonie互联网舆情监控系统可以根据新闻出处权威度、发言时间密集程度等参数,识别出给定时间段内的热门话题。利用内容主题词组和回贴数进行综合语义分析,识别敏感话题。
2、舆情主题跟踪
Goonie互联网舆情监控系统分析新发表文章、贴子的话题是否与已有主题相同。
3、自动摘要
Goonie互联网舆情监控系统对各类主题,各类倾向能够形成自动摘要。
4、舆情趋势分析
Goonie互联网舆情监控系统分析某个主题在不同的时间段内,人们所关注的程度。
5、突发事件分析
Goonie互联网舆情监控系统对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势。
6、舆情报警系统
Goonie互联网舆情监控系统对突发事件、涉及内容安全的敏感话题及时发现并报警。
7、舆情统计报告
Goonie互联网舆情监控系统根据舆情分析引擎处理后生成报告,用户可通过浏览器浏览,提供信息检索功能,根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,提供决策支持。
第三篇:国内付费网络舆情监测系统
国内付费网络舆情监测系统简介
免费工具虽然不要使用费,且能够获取需要的信息,但费时费力,对于品牌型等网络舆情监测要求较高的企业并不可取。目前国内致力于网络舆情监测软件开发,如托尔思TRS、方正电子政务、邦富软件、线点科技、中科点击、本果信息技术、古尼软件、迅奥科技、蓝通百特、维思比科技、iri网络口碑、红麦软件、新联财通、易宝等等。分析上述公司开发的舆情监测软件,主要包括以下功能:
1、自动采集功能
付费舆情监测软件把人工收集舆情的繁琐工作自动化了,其功能与搜索引擎的蜘蛛爬虫类似。当然,作为舆情管理系统,在自动采集页面后,还需要做自动分类、自动生成摘要,自动获取关键词,并建立索引。
2、分析处理功能
分析与处理功能主要表现在传播路径分析、话题演化分析以及观点倾向分析等。以TRS互联网舆情管理系统为例,具有话题发现与追踪、信息预警机制、倾向性分析、信息过滤、多维度关联舆情分析与舆情专题、舆情干预等功能。
3、统计报表功能
用符合用户习惯的可视化形式表现分析与处理的结果,也是付费舆情管理软件的一项重要功能。该项功能主要包括舆情简报、趋势图表、聚类图等,一些智能化的软件还会给出文字概述及舆情应对建议
等。
4、协同工作功能
部分舆情管理系统除了具备上述功能外,还有部分OA的功能,能够为后期企业各部门协同应对舆情提供OA环境。
总体来讲,在选择该类软件时,要考虑监测网站的数量、页面抓取获取数量、分析处理功能的能力和有效性、统计报表的易用性和表达方式等多方面因素,而不是仅仅比较价格。
第四篇:网络舆情监测系统评价标准
网络舆情监测系统评价标准
随着互联网的快速增长,网络舆情监测软件及其服务市场也迅速地发展起来,保守地估计,在中国大陆地区这个市场的总量已经逼近10亿元人民币规模。
市场参与者主要包括四种类型的公司:第一类是拥有网络信息搜索或(中文)文字信息处理等相关技术的软件公司;第二类是公关、广告公司,这类公司是在传统媒体监测业务基础上发展出网络新媒体监测业务;第三类是网络营销服务公司,近几年这类公司增长迅猛,网络社会化媒体的飞速发展是其发展的催化剂;第四类是依托传统媒体延伸出的增值服务。随着网络的发展,不少传统媒体也开始“触网”,并逐步发展出针对网络媒体的新业务,而网络舆情监测是其中的一个方面。例如,人民网舆情监测室。除了以上四类公司之外,还有一类进行网络舆情监测业务的参与者,他们是主管部门或行业机构所属的网络舆情监测机构,但严格意义上讲,此类机构和参与完全市场竞争的公司是不同的,因此,单独另归为一类。
社会化网络媒体的兴起,正在改变传统的信息传播机制。网络传播具有匿名性、速度快、范围大、持续力强、传播渠道多元化、传播效果可测量等特点。一条负面信息从出现到形成舆论热点的周期,从原来的24小时(传统新闻媒体比较典型的更新周期)缩短到现在的4小时(微博热点话题达到第一个传播峰值比较典型的时间周期)。如果不能在这4小时内做出解释、反馈、制定应对策略,就可能出现舆论一边倒的局面,甚至可能发生极具品牌杀伤力的公共危机。由此,也就有了网络舆情监测响应“黄金4小时”的说法。
做出及时、准确应对的前提是,要能够在第一时间了解网络舆情的内容、发生源、关键传播途径等相关信息数据。由此,对于网络舆情监测软件的性能提出相应要求。
如何来评价网络舆情监测软件(系统)的性能呢?个人认为主要着眼于以下三个方面。
评价标准之一:对网络内容监测的准确性。
对于内容的判断是一个关键技术,目前的监测系统还不能做到对内容信息的完全自动判断和处理,在不能保证内容识别百分之百准确率的情况下,往往需要对监测分析的中间产物或不能识别的信息进行一定程度的人工校验和清洗。
中文信息在处理上具有一定特殊性和技术难点。英文每个单词之间用空格或标点符号进行分隔,与英文不同,中文字之间没有空格,由字组成词存在多种可能情况,中文分词是识别的一个难点。
分词难点:一是分词的歧义识别,歧义是指同样的一句话,可能有两种或者更多的切分方法。主要有“交叉歧义”、“组合歧义”、“真歧义”(相关定义参见附录)三类情形。“真歧义”必须要联系上下文才能够确定在文中的具体涵义;二是新词识别,随着时代的发展,中文新词不断涌现,如果没有被收录而要进行自动识别是非常困难的。与之相似的还有专业术语、名称(包括,人名、商标、简称、机构名、缩略语等)等的识别问题。新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。
在分词基础上,中文内容监测还需要对信息自动进行聚类、情感分析、提取摘要,特别是自动根据上下文内容判断情感倾向与危机度、区分正负面。而这正是网络舆情监测的核心工作之一。
为了提高内容识别的准确性,大部分网络舆情监测系统采取了专业化发展的策略,通过面向特定领域的知识、经验和基础数据的积累与不断更新,逐步建立起舆情监测系统在特定领域内的服务特长和功能优势。由此,也就有了舆情监测服务市场的细分化,有的专注于民生与社会动向、有的专注于消费品牌、有的专注于特定行业„„
也有一些监测系统提供全方位的监测服务,这些系统有较好的业务包容性,能够满足网络舆情监测的主要需求,或者能够根据客户需要做到定制化的服务,这类系统通常都会针对新客户有一个系统部署阶段,在部署过程中完成一些定制化的工作。
“专用型系统”与“通用型系统”各有特色,客户在选择时主要评估是否能够充分满足自身需求,同时拥有较好的性价比。两类系统相比较,我个人更看好“专用型系统”未来的发展。主要根据是,网络媒体和内容形式的发展非常迅速,一个好的舆情监测系统必须有一个持续而专业化的服务保障体系为支撑,而“专用型系统”在此方面会有比较明显的优势。另外,“专用型系统”还可以根据特定行业或其他特定领域的特殊需求事先预置一些特色功能,如果设计得当,这些功能会对目标客户有很大帮助和价值,也会成为营销中的主要卖点之一。
准确性方面不同系统的表现差异很大。从市场反馈的情况看,在商用领域,需要分行业进行监测服务的业务积累,在某个行业或细分领域有的系统监测得好、有的系统就不行;同样,在政府管理服务领域,也有数个细分领域,不同系统的表现也是参差不齐。
评价标准之二:网络内容监测时效性。
时效性的高低与软硬件技术和运营设备资源都有密切关系,其中涉及到的专业技术不是本文关注的范畴。这里要指出的是,时效性与前面提到的准确性是紧密相关的。如果系统对内容的判断准确性高,需要的人工干预就少(当然,理想状态是完全不需要人工干预),监测信息处理的时滞就少,监测的时效性自然就会有保障。如果系统需要一定的人工干预,通常情况下,会平均滞后0.5~3天左右。这个时间已经远远超出了前文提到的网络舆情监测及响应“黄金4小时”周期。如果系统的时效性低,就不能对网络突发舆情进行及时监测和应急处理,而这对危机公关服务是非常关键的。
有一些监测系统的结果是依赖于baidu、google等搜索引擎的搜索结果进行再分析(所谓的元数据抓取),而这些大型搜索引擎的数据抓取更新是有自己的特定规律和周期。对于排名靠后的网站,搜索引擎爬虫软件会隔几天,甚至更长时间,才会光顾一次。这种情况下,时效性自然不会有保障。
当然,对于时效性,不同的客户会有不同的要求。有的客户会要求做到“实时监测”,例如提供危机公关服务的公关公司、广告公司和一些关注于民生与社会动向的机构等;也有的客户对时效性要求不是这么高,例如对品牌价值进行评估的服务需求,对特定事件做事后评估的服务需求等等。
通常情况下,时效性高低是网络舆情检测系统定价的一个重要基础,从节约经费的角度出发,客户还是应当选择满足自身业务时效性需求前提下性价比较高的系统和服务,不一定非要求做到“实时监测”。
评价标准之三:网络内容监测全面性。
网络内容监测全面性的概念很好理解,就是系统所监测网站的类别及总量。通常情况下,监测系统不会做全网监测,先不说技术上的困难,仅在运营费用和投入上就是中小规模公司难以承受的。性能优越的监测系统会有选择地进行网络监测,客户关注领域的相关网站、排名靠前的大网站、热点网站是监测的主要对象。
绝大多数号称能够做到“全网监测”的系统都是依赖对搜索引擎的搜索结果进行再分析——元数据抓取。前文已经指出,这种方式可以达到了大覆盖,但牺牲了时效性。
不过在全面性方面也有一些技术问题需要处理,一些主要的内容服务网站、社会化网络媒体和电商网站对于爬虫软件已经做了限制。限制的原因有所不同,内容服务网站、社会化网络媒体(SNS网站、微博等)主要是出于对信息及用户数据的保护和主管部门的特定要求,电商网站(自主平台类)主要为了防范网络商品比价。
综合地看,相对于“准确性”与“时效性”而言“全面性”问题更容易解决,技术因素是一方面,通过加大服务器和带宽等运营资源的投入也能够取得显著地改善。
网络舆情监测软件及其服务市场的发展趋势
网络舆情监测软件及其服务市场具有很大的发展潜力,个人观点在今后5年内这个市场都会保持快速发展势头,年复合增长率在30%以上。
我很赞同计世资讯研究(CCW Research)的观点——“舆情监测分析软件市场未来的发展方向是行业化与服务化”。行业化主要是指软件及服务要与各行业的特点紧密结合,服务化是指舆情监测软件将采用软件运营服务SaaS模式,舆情监测运营服务将成为一种新的发展模式,在降低投入门槛的同时将受到更多客户的青睐。
目前,市场格局还很分散,还没有上规模的运营服务商,这是一个市场空白。近几年云计算技术的快速发展将创造新的发展机会,在通过云计算大幅度提升软件系统效能和服务品质的同时,也有利于催生在这个细分领域内上规模的运营服务提供商。
从服务对象角度看,专业网络舆情监测软件及服务公司主要服务于政府部门、专业服务公司(主要是,公共公司、广告公司、网络营销服务公司)和互联网公司。然而,随着互联网对社会经济发展的快速渗透和融合,越来越多的企业和机构认识到了网络营销、网络舆情的重要性,他们中的一小部分已经开始尝试使用网络舆情监测软件及服务。虽然他们在客户市场中目前所占的比重还不到10%,但是到2018年很有可能占到30%以上的比重。从商业服务角度,网络舆情监测软件及服务与网络营销服务之间存在着密切的联系。对于能够提供品牌监测的软件系统,如果能够把营销评估(营销决策支持)和营销管理工具结合起来,把系统服务延伸到营销管理与营销作业流程中,将具有更大的市场潜力。在这方面市场参与者还较少,做得好的系统很少,未来应该有不错的发展空间。(陈兴跃)附录:
中文分词的歧义类型
(此附录的相关内容来自互联网)
歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:“表面的”,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面▁的”和“表面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆▁和服装”或者“化妆▁和服▁装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?
如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓▁球拍▁卖▁完▁了”、也可切分成“乒乓球拍卖▁完▁了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。
第五篇:基于网络舆情监测系统的分析
基于网络舆情监测系统的分析
[摘 要] 随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网民数量的持续快速的增加,以及网民通过网络形成的舆情越来越得到社会的广泛的关注。网络舆情监测系统就是针对网络舆情热点问题的预警。
[关键词] 网络舆情 监测 分析
随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。中国网民数量也在持续快速的增加,2010年7月15日,中国互联网络信息中心(CNNIC)发布《第26次中国互联网络发展状况统计报告》,报告显示,中国网民规模达到4.2亿,手机网民民规模更达2.77亿。网民通过网络形成的舆情越来越得到社会的广泛的关注。从2003年的非典、孙志刚事件,到2010年教育局封杀论坛事件、马鞍山局长打人事件等等。这些事件性质、主体各不相同,但是有一个共同的特点,即他们都是通过网络而放大了事件的影响力。
1.网络舆情监测系统的概念
网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。
最近几年各种社会机构组织、企业、各级政府都纷纷重视网络舆情,2008年7月,江西60多位县级官员实名开博,多数是收集当地网民关注的民生问题。2010年9月8日,人民网?中国共产党新闻网正式推出“直通中南海――中央领导人和中央机构留言板”。该留言板突出互动性,旨在让广大网友对中央领导人倾诉心声,给中央机构提出意见和建议。
由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过BBS论坛、博客、新闻跟贴和转贴等渠道来表达观点传播思想。如果引导不善,负面网络舆情将对社会公共安全形成威胁。对相关部门来说,加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。对企业来说,准确掌握产品和市场情况,监控竞争对手和行业动态,是企业市场、行销决策的重要支撑。
从现在的网络舆情传播速度来看,信息出现后的1至3小时就可以被转至多家论坛,6小时后就可以被多家新闻网站转载,24小时在网上的评论和跟帖就能制造出热点事件和舆论高潮。因此能够第一时间知道现在哪些是热点舆情,哪些将会成为热点舆情,对于我们来说至关重要。
“网络舆情监测系统”是针对在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度于网络上表达出来意愿集合而进行的计算机监测的系统统称。通过这个系统,能够让我们有效的对网络舆情进行预警和应对。
2.网络舆情监测系统结构
网络舆情监测系统分为五大系统,分别是:网络舆情采集系统、网络舆情存储系统、网络舆情分析系统、网络舆情检索系统和网络舆情发布系统。如图1:
网络舆情采集系统会对互联网中的主要门户网站新闻、各大论坛的热门贴、关注度比较高的博客和微博以及各大主要的网络搜索引擎的热搜内容进行采集。采集后的数据存储进入统一的网络舆情存储系统。网络舆情分析系统对存储在舆情存储系统中的信息进行分析,把舆情内容归纳、整理、分类后得出最近阶段舆情的变化及趋势,并把分析好的数据存入存储系统。用户可以用网络舆情检索系统检索自己想要的最近、最新的焦点信息。最后通过舆情分析系统分析的信息、通过舆情检索系统检索的信息以及网络舆情存储系统中的信息都可以通过舆情报告系统发送和展示给用户。
3.网络舆情监测系统分析
3.1网络舆情采集系统
网络舆情采集系统是整个系统的基础。全世界互联网的信息是非常巨大的,即使仅仅对国内信息的检索也是海量的,而且由于网页设计的灵活性造成的网页结构复杂,网页的快速更新造成的网页内容动态性,以及一些网站对站内信息限制的技术手段造成网页内容不完整性,使得传统手工采集信息的方法非常低效率和高错误率。特别是最近几年,随着QQ群、博客、twitter等微博被网友广泛使用,这些主要为松散的,非结构化信息要实现采集的难度也越来越大,靠手工采集已经不太现实。
为解决这个问题,现在的采集系统往往采用具有一定智能的自动采集技术,国内外早期的网络采集方法是针对特定采集对象编写的程序,这个程序称为wrapper。近几年,越来越多的采集工具被开发出来用来代替传统的手工编写wrapper程序的方法。目前较为流行的采集工具可以分为六大类:
3.1.1开发wrapper的专用高级语言
传统的wrapper由于是手工编写针对某一个目标,如果要为大量目标手工编写非常不效率,通过专用高级语言可以方便编写wrapper。例如:Minerva,TSIMMIS,Web-OQL,FLORID,Jedi等。
3.1.2以HTML为中间件的工具(HTML-aware Tools)
这些工具在抽取时主要依赖HTML文档的内在结构特征。在抽取过程之前,这些工具先把文档转换成标签树;再根据标签树自动或半自动地抽取数据。代表工具有Knowlesys,MDR。
3.1.3基于NLP(Natural language processing)的工具(NLP-based Tools)
这些工具通常利用filtering、part-of-speech tagging、lexical semantic tagging等NLP技术建立短语和句子元素之间的关系,推导出抽取规则。这些工具比较适合于抽取那些包含符合文法的页面。代表工具有 RAPIER,SRV,WHISK。
3.1.4包装器的归纳工具(Wrapper Induction Tools)
包装器的归纳工具从一组训练样例中归纳出基于分隔符的抽取规则。这些工具和基于NLP的工具之间最大的差别在于:这些工具不依赖于语言约束,而是依赖于数据的格式化特征。这个特点决定了这些工具比基于NLP的工具更适合于抽取HTML文档。代表工具有:WIEN,SoftMealy,STALKER。
3.1.5基于模型的工具(Modeling-based Tools)
这些工具让用户通过图形界面,建立文档中其感兴趣的对象的结构模型,“教”工具学会如何识别文档中的对象,从而抽取出对象。代表工具有:NoDoSE,DEByE。
3.1.6基于本体的工具(Ontology-based Tools)
这些工具首先需要专家参与,人工建立某领域的知识库,然后工具基于知识库去做抽取操作。如果知识库具有足够的表达能力,那么抽取操作可以做到完全自动。而且由这些工具生成的包装器具有比较好的灵活性和适应性。代表工具有:BYU,X-tract。
3.2网络舆情分析系统
网络舆情分析系统为整个系统的核心功能,其主要包括以下功能:热点识别能力、聚类分析、倾向性分析与统计、信息自动摘要功能。
3.2.1热点识别能力
由于网络信息的更新和变化速度非常快,导致网络热点也时常转化,因此识别热点成为整个分析系统的前提条件。一般对于一段时间内的热门话题的识别主要是根据信息出处权威度、评论数量、发言时间密集程度等参数,给予一定的权重值,然后统计出该时间段内的热点。
3.2.2聚类分析
传统的手工统计分析对于海量的数据基本是无能为力,即使是勉强统计也会因为数据量而对数据的主题把握会产生偏差,从而造成统计数据失真,进而造成分析结果错误。
对文章标题和关键词进行聚类分析是现在常用的网络舆情分析方法,现在被广泛的采用,常用的聚类分析方法一般分为五类:
3.2.2.1划分方法
首先创建k个划分,k为要创建的划分个数;然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括:k-means,k-medoids,CLARA,CLARANS,FCM。
3.2.2.2层次方法
创建一个层次以分解给定的数据集。该方法可以分为自上而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位。典型的这类方法包括:BIRCH方法,它首先利用树的结构对对象集进行划分;然后再利用其它聚类方法对这些聚类进行优化。CURE方法,它利用固定数目代表对象来表示相应聚类;然后对各聚类按照指定量(向聚类中心)进行收缩。ROCK方法,它利用聚类间的连接进行聚类合并。CHEMALOEN方法,它则是在层次聚类时构造动态模型。
3.2.2.3基于密度的方法
根据密度完成对象的聚类。它根据对象周围的密度(如DBSCAN)不断增长聚类。典型的基于密度方法包括:DBSCAN:该算法通过不断生长足够高密度区域来进行聚类;它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义为一组“密度连接”的点集。OPTICS:并不明确产生一个聚类,而是为自动交互的聚类分析计算出一个增强聚类顺序。
3.2.2.4基于网格的方法
首先将对象空间划分为有限个单元以构成网格结构;然后利用网格结构完成聚类。STING就是一个利用网格单元保存的统计信息进行基于网格聚类的方法。CLIQUE和Wave-Cluster 则是一个将基于网格与基于密度相结合的方法。
3.2.2.5基于模型的方法
它假设每个聚类的模型并发现适合相应模型的数据。典型的基于模型方法包括:统计方法COBWEB:是一个常用的且简单的增量式概念聚类方法。它的输入对象是采用符号量(属性-值)对来加以描述的。采用分类树的形式来创建一个层次聚类。CLASSIT是COBWEB的另一个版本。它可以对连续取值属性进行增量式聚类。
3.2.3倾向性分析与统计
对信息的阐述的观点、主旨进行倾向性分析。可以为网络舆情的分析提供参考依据。
但是由于网络词汇的多样性,网络上出现许多新词,要判断这些词的倾向性就比较困难,一般倾向性分析可分为三种:
3.2.3.1情感倾向词典
中文词语情感倾向词典是给定一组已知极性的词语集合作为种子,对于一个情感倾向未知的新词,在电子词典中找到与该词语义相近、并且在种子集合中出现的若干个词,根据这几个种子词的极性对未知词的情感倾向进行推断。
3.2.3.2机器人学习
与词典法比较类似,也是给予一些已知极性的词语作为种子词,对于一个新词根据它和种子词的紧密程度对其情感倾向性进行推断,不同的是他是根据词语在种子库中的同现情况判断其联系紧密程度来作为判断依据。
3.2.3.3人工标注种子库
首先对情感倾向性分析种子库进行手工标注,标注的级别包括文档集的标注、短语级标注和分句级标注。在这些基础上,利用词语的共现关系、搭配关系或者语义关系,以判断词语的情感倾向性。
3.2.4信息自动摘要功能
能够根据文档内容自动抽取文档摘要信息,这些摘要能够准确代表文章内容主题和中心思想。用户无需查看全部文章内容,通过该智能摘要即可快速了解文章大意与核心内容,提高用户信息利用效率。而且该智能摘要可以根据用户需求调整不同长度,满足不同的需求。主要包括文本信息摘要与网页信息摘要两个方面。
3.3网络舆情检索系统
网络舆情检索分析系统产生的结果会实时存放进入存储系统之中,而检索系统可以分时间、地点、类型、网站等等进行分类检索,然后提供给用户。
分析系统提供的热点分析往往只是对已经产生的热点,或者是将要成为热点的次热点。而检索系统还可以让用户自定义关键词对采集到的信息进行自定义监控。
3.4网络舆情报告系统
根据网络舆情分析系统处理后的结果或网络舆情检索系统查询的结果生成报告,系统可通过短信、电话、网页浏览等各种手段及时告知,提供决策支持。
总之,网络舆情监测系统出现时间还比较短,基于其的算法和方法还都很不完善,而且随着计算机技术的不断发展,网络应用技术也在不断的变化,像近几年微博等非结构性的应用形式的出现,给检测系统的监测带来不小的挑战。方便、快捷、智能、通用将是今后舆情监测系统发展的方向。
参 考 文 献
[1]曹劲松.政府网络传播[M].江苏:江苏人民出版社,2010-11-02
[2]叶皓.正确应对网络事件[M].江苏:江苏人民出版社,2009
[3]郭建永,蔡永,甄艳霞.基于文本聚类技术的主题发现[J].计算机工程与设计,2008(6).■