第一篇:谷尼Goonie互联网舆情监控系统技术白皮
Goonie互联网舆情监控系统
技术白皮书
谷尼国际软件(北京)有限公司
二〇一〇年八月
目录 2 3 4 5 系统概述........................................................................................................................................1 系统结构........................................................................................................................................1 系统特点........................................................................................................................................2 性能指标........................................................................................................................................3 功能描述........................................................................................................................................4 5.1 5.2 5.3 5.4 5.5 5.6 5.7 6 7 热点话题、敏感话题识别...................................................................................................4 舆情主题跟踪.......................................................................................................................4 自动摘要...............................................................................................................................4 舆情趋势分析.......................................................................................................................5 突发事件分析.......................................................................................................................6 舆情报警系统.......................................................................................................................6 舆情统计报告.......................................................................................................................6
运行环境........................................................................................................................................6 系统案例........................................................................................................................................7
谷尼国际软件(北京)有限公司制 系统概述
网络舆情形成迅速,对社会影响巨大,不仅需要各级党政干部密切关注,也需要社会各界高度重视。该方案可应用在政府的新闻监管、舆论监督等部门。
互联网舆情监控系统是一套利用搜索引擎技术、文本处理技术、知识管理方法,通过对互联网海量信息自动获取、提取、分类、聚类、主题监测、专题聚焦,实现用户对网络舆情监测和热点事件专题追踪等需求,形成舆情决策库、舆情简报等分析结果,为客户全面掌握舆情动态,做出正确舆论引导提供分析依据。
谷尼互联网舆情监控是以信息采集技术为核心,应用信息采集技术、内容管理技术、知识管理技术、信息分类技术,实现网络舆情监测和新闻热点追踪、新闻监管等功能需求。为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。系统工作流程如下: • 信息采集:互联网信息实时监测、采集、内容提取及排重;
• 信息处理:对抓取的内容进行自动分类聚类、主题检测、专题聚焦等; • 信息服务:将采集并分析整理后的信息直接为用户或为用户辅助编辑提供信息服务,如自动形成舆情信息简报、追踪已发现的舆论焦点等。系统结构
总体来说,该监控管理软件的结构和特点如下:
谷尼国际软件(北京)有限公司制 系统特点
该项目与国内外互联网舆情监控系统或类似功能的系统比较,具有自己显著的技术特点,如允许用户定制舆情监控的范围、方式等,具体如下: • 支持网页编码自动识别 • 支持URL去重识别
• 支持正文自动识别抽取,无须标签配置
谷尼国际软件(北京)有限公司制
• 支持分页采集 • 可设置采集频率 • 支持分布式部署 • 强大的信息采集功能 • 智能化的中文信息处理
• 全面的敏感信息分布式检索系统 • 分类、聚类等中文智能处理技术广泛采用 • 实时增量备份原则
• 合理的模块化结构及方便的分类监控 • 灵活的调度算法
• 支持新闻、博客、论坛、贴吧的采集监控 • 基于内容相似性去重识别 • 支持互联网关键词搜索采集入库 • 支持敏感词过滤提取 • 支持热点发现 • 支持网页快照 性能指标
• 稳定性强:在机器不断电的情况下,采集系统能7×24不间断持续运行,不出现死机、无故重启、资源耗尽等问题;无需人工监控。
• 性能优越:在普通网络带宽情况下,单机PC的采集能力达到30页面/秒,网络带宽高的情况下可达到60-100页面/秒。• 效率优良:采集器所耗费的带宽的利用率超过80%。• 抽取精确:正文的抽取准确率98%,误抽率不到1%。• CPU和内存的占有率不超过50%。
谷尼国际软件(北京)有限公司制 功能描述
5.1 热点话题、敏感话题识别
可以根据新闻出处权威度、发言时间密集程度等参数,识别出给定时间段内的热门话题。利用内容主题词组和回贴数进行综合语义分析,识别敏感话题。
5.2 舆情主题跟踪
分析新发表文章、贴子的话题是否与已有主题相同。
是根据文档内容间的相关程度进行分组归并。聚类不需要类别及相关训练样本。聚类可以发现当前舆论焦点,或者相关文档的查找.通过对同一个阶段搜索到的大量信息进行聚类,我们可以很方便地发现当前关于什么类别的文章数量更多,那些信息之间的关系更紧密,这样我们可以很直观地了解到当前舆论的焦点,以及各个舆论点之间的联系紧密程度。
5.3 自动摘要
对各类主题,各类倾向能够形成自动摘要。
信息自动摘要的中心思想是让用户在查看搜索结果时候,无需点击进入每一个谷尼国际软件(北京)有限公司制
搜索结果去了解具体内容,而自动在搜索结果条目下显示摘要信息。这些“摘要”帮助用户迅速了解搜索结果的主要内容,提高了工作效率。
5.4 舆情趋势分析
分析某个主题在不同的时间段内,人们所关注的程度。
谷尼国际软件(北京)有限公司制
5.5 突发事件分析
对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势。
5.6 舆情报警系统
对突发事件、涉及内容安全的敏感话题及时发现并报警。
5.7 舆情统计报告
根据舆情分析引擎处理后生成报告,用户可通过浏览器浏览,提供信息检索功能,根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,提供决策支持。运行环境
操作系统:Microsoft Windows XP/NT/2000/2003/ 数据库为:SQL2005/2000 谷尼国际软件(北京)有限公司制
服 务 器:CPU3.2G/内存2G/硬盘40G以上 带宽要求:2M独享以上
服务器数量:2台(1台采集监控、1台 数据库服务器)应用规模较大,可以采用多服务器集群的方式 系统案例
国家部委成功案例 国家知识产权局 国家邮政局 国家农业部
总后勤部 空军司令部......地方政府成功案例 衡水市委宣传部 沈阳市委
郴州市委宣传部 淮安市委宣传部 河南永城市委
河南永城市公安局 石家庄市政府 四川人民政府 福建省教育厅 31个省市邮政局......谷尼国际软件(北京)有限公司制
知名企业成功案例 中国第一汽车集团 中石化西北油田分公司 中石油华北油田分公司 蒙牛乳业(北京)有限公司 河南绿能高科有限公司 中国网通集团河南公司 中国联通北京分公司
山西阳泉煤业集团有限责任公司 北京图书大厦有限公司......其它成功案例
人民邮电报业集团-中国信息产业网 深圳日报报业集团 深圳新闻网 甘肃日报报业集团 每日甘肃网 检察日报社-正义网 丽水日报社-丽水网 南京大学 河北师范大学
第二篇:谷尼网络舆情监控系统技术白皮书
谷尼网络舆情监控系统
技术白皮书
(简版)
谷尼国际软件(北京)有限公司
目录 2 3 4 系统概述........................................................................................................................................1 系统结构........................................................................................................................................1 系统特点........................................................................................................................................2 功能描述........................................................................................................................................3 4.1 4.2 4.3 4.4 4.5 4.6 4.7 5 热点话题、敏感话题识别...................................................................................................3 舆情主题跟踪.......................................................................................................................3 自动摘要...............................................................................................................................4 舆情趋势分析.......................................................................................................................4 突发事件分析.......................................................................................................................4 舆情报警系统.......................................................................................................................5 舆情统计报告.......................................................................................................................5
运行环境........................................................................................................................................5
谷尼国际软件(北京)有限公司制 系统概述
网络舆情形成迅速,对社会影响巨大,不仅需要各级党政干部密切关注,也需要社会各界高度重视。该方案可应用在政府的新闻监管、舆论监督等部门。
网络舆情监控系统是一套利用搜索引擎技术、文本处理技术、知识管理方法,通过对互联网海量信息自动获取、提取、分类、聚类、主题监测、专题聚焦,实现用户对网络舆情监测和热点事件专题追踪等需求,形成舆情决策库、舆情简报等分析结果,为客户全面掌握舆情动态,做出正确舆论引导提供分析依据。
谷尼网络舆情监控系统是以信息采集技术为核心,应用信息采集技术、内容管理技术、知识管理技术、信息分类技术,实现网络舆情监测和新闻热点追踪、新闻监管等功能需求。为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。系统工作流程如下: • 信息采集:互联网信息实时监测、采集、内容提取及排重;
• 信息处理:对抓取的内容进行自动分类聚类、主题检测、专题聚焦等; • 信息服务:将采集并分析整理后的信息直接为用户或为用户辅助编辑提供信息服务,如自动形成舆情信息简报、追踪已发现的舆论焦点等。系统结构
总体来说,网络舆情监控系统软件的结构如下:
谷尼国际软件(北京)有限公司制 系统特点
该项目与国内外互联网舆情监控系统或类似功能的系统比较,具有自己显著的技术特点,如允许用户定制舆情监控的范围、方式等,具体如下: • 支持网页编码自动识别 • 支持URL去重识别
• 支持正文自动识别抽取,无须标签配置
谷尼国际软件(北京)有限公司制
• 支持分页采集 • 可设置采集频率 • 支持分布式部署 • 强大的信息采集功能 • 智能化的中文信息处理
• 全面的敏感信息分布式检索系统 • 分类、聚类等中文智能处理技术广泛采用 • 实时增量备份原则
• 合理的模块化结构及方便的分类监控 • 灵活的调度算法
• 支持新闻、博客、论坛、贴吧的采集监控 • 基于内容相似性去重识别 • 支持互联网关键词搜索采集入库 • 支持敏感词过滤提取 • 支持热点发现 • 支持网页快照 功能描述
4.1 热点话题、敏感话题识别
网络舆情监控系统可以根据新闻出处权威度、发言时间密集程度等参数,识别出给定时间段内的热门话题。利用内容主题词组和回贴数进行综合语义分析,识别敏感话题。
4.2 舆情主题跟踪
网络舆情监控系统分析新发表文章、贴子的话题是否与已有主题相同。
是根据文档内容间的相关程度进行分组归并。聚类不需要类别及相关训练样本。聚类可以发现当前舆论焦点,或者相关文档的查找.谷尼国际软件(北京)有限公司制
网络舆情监控系统通过对同一个阶段搜索到的大量信息进行聚类,我们可以很方便地发现当前关于什么类别的文章数量更多,那些信息之间的关系更紧密,这样我们可以很直观地了解到当前舆论的焦点,以及各个舆论点之间的联系紧密程度。
4.3 自动摘要
网络舆情监控系统对各类主题,各类倾向能够形成自动摘要。
信息自动摘要的中心思想是让用户在查看搜索结果时候,无需点击进入每一个搜索结果去了解具体内容,而自动在搜索结果条目下显示摘要信息。这些“摘要”帮助用户迅速了解搜索结果的主要内容,提高了工作效率。
4.4 舆情趋势分析
分析某个主题在不同的时间段内,人们所关注的程度。
4.5 突发事件分析
网络舆情监控系统对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势。
谷尼国际软件(北京)有限公司制
4.6 舆情报警系统
网络舆情监控系统对突发事件、涉及内容安全的敏感话题及时发现并报警。
4.7 舆情统计报告
网络舆情监控系统根据舆情分析引擎处理后生成报告,用户可通过浏览器浏览,提供信息检索功能,根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,提供决策支持。运行环境
操作系统:Microsoft Windows XP/NT/2000/2003/ 数据库为:SQL2005/MYSQL/ORACLE 服 务 器:CPU3.2G/内存2G/硬盘40G以上 带宽要求:2M独享以上
服务器数量:2台(1台采集监控、1台 数据库服务器)应用规模较大,可以采用多服务器集群的方式
谷尼国际软件(北京)有限公司制
第三篇:Goonie网络舆情监控分析系统
Goonie网络舆情监控分析系统
1、既支持指定网站新闻、博客、论坛监测,也支持整个互联网的舆情监控。
2、智能识别非法网络信息,帮助您进行网络扫黄、打非、打假。
3、自动发现负面报道、热点新闻事件、热点论坛贴子。
系统背景
随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。
网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,主要通过BBS论坛、博客、新闻跟贴、转贴等实现并加以强化。当今,信息传播与意见交互空前迅捷,网络舆论的表达诉求也日益多元。如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。对相关政府部门来说,如何加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。
系统概述
Goonie网络舆情监控分析系统依托自主研发的搜索引擎技术和文本挖掘技术,通过网页内容的自动采集处理、敏感词过滤、智能聚类分类、主题检测、专题聚焦、统计分析,实现各单位对自己相关网络舆情监督管理的需要,最终形成舆情简报、舆情专报、分析报告、移动快报,为决策层全面掌握舆情动态,做出正确舆论引导,提供分析依据。
系统结构
功能特点 ·自定义URL来源及采集频率
Goonie网络舆情监控分析系统用户可以设定采集的栏目、URL、更新时间、扫描间隔等,系统的扫描间隔最小可以设置成1分钟,即每隔一分钟,系统将自动扫描目标信息源,以便及时发现目标信息源的最新变化,并以最快的速度采集到本地。
·支持多种网页格式
Goonie网络舆情监控分析系统可以采集常见的静态网页(HTML/HTM/SHTML)和动态网页(ASP/PHP/JSP),还可以采集网页中包含的图片信息。
·支持多种字符集编码
Goonie网络舆情监控分析系统采集子系统能够自动识别多种字符集编码,包括中文、英文、中文简体、中文繁体等,并可以统一转换为GBK编码格式。
·支持整个互联网采集
Goonie互联网舆情监控系统元搜索模式是以国内知名互联网搜索引擎的结果为基础并利用Goonie采集器直接面向互联网定制内容进行直接采集,用户只需要输入搜索关键词就可以了。
·支持内容抽取识别
Goonie网络舆情监控分析系统可对网页进行内容分析和过滤,自动去除广告、版权、栏目等无用信息,精确获取目标内容主体。
·基于内容相似性去重
Goonie网络舆情监控分析系统通过内容相关识别技术自动判别分类中文章的关系,如果发现描述相同事件的文章自动去除重复部分。
功能描述
1、热点话题、敏感话题识别
网络舆情监控分析系统可以根据新闻出处权威度、发言时间密集程度等参数,识别出给定时间段内的热门话题。利用内容主题词组和回贴数进行综合语义分析,识别敏感话题。
2、舆情主题跟踪
网络舆情监控分析系统分析新发表文章、贴子的话题是否与已有主题相同。
3、自动摘要
Goonie网络舆情监控分析系统对各类主题,各类倾向能够形成自动摘要。
4、舆情趋势分析
Goonie网络舆情监控系统分析某个主题在不同的时间段内,人们所关注的程度。
5、突发事件分析
Goonie网络舆情监控分析系统对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势。
6、舆情报警系统
Goonie网络舆情监控分析系统对突发事件、涉及内容安全的敏感话题及时发现并报警。
7、舆情统计报告
Goonie网络舆情监控分析系统根据舆情分析引擎处理后生成报告,用户可通过浏览器浏览,提供信息检索功能,根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,提供决策支持。
第四篇:互联网舆情监控系统需求分析
互联网舆情监控系统需求分析
一、建设目标
为了实现高效的互联网舆情监测和控制管理,项目建设应完成如下目标:
1)对指定主流门户网站(WEB网站)的网页、论坛、数字报、电子杂志、博客、微博、播客、音视频多媒体等实时信息的采集和处理。
2)对指定的主流的网页、微博、音视频流等实时信息的采集和处理。
3)对指定的主流网页、图片等实时信息采集和处理。4)全网(元搜索引擎)实时信息采集和处理。5)对指定到境外网站实时信息采集和处理。6)对收集到的海量信息进行检索。7)对收集到的海量信息进行自动分析。8)对基本舆情数据进行各种加工处理。9)建立网评管理系统,为舆论引导服务。10)建立查处管理系统,为官方行为提供服务。
11)为方便资源共享,系统网络可以弹性扩展、应用平台可以二次开发。
二、系统实现功能
互联网舆情监控系统应实现以下几个功能: 动态的全面的收集社会民生信息内容
过滤、消重网民曝光的违法违规信息、敏感信息 获取互联网信息热点焦点和趋势分析 分析网络舆情的爆发点和峰值 发现民意话题传播关系和演化规律
实时向上级领导通报最新情报信息、辅助领导决策 更充分了解网络社情民意 网络新闻自动获取
通过网络技术,自动获取网络新闻,并且提取新闻的作者、时间、标题、正文等数据。 网络论坛自动获取
通过论坛获取模块,自动抓取论坛的发贴。并且提取帖子的发贴人名称,发贴时间,主贴,回贴人名称,回贴时间,回贴内容,论坛贴子的人气和热度。 智能语言理解和分析处理
互联网信息资讯的分析工作分为对单一信息文档的分析和对文档集合的分析处理。对于单文档的加工,本系统中应用知识管理技术,实现信息的自动消重过滤、自动分类、自动摘要提取与自动关键词提取。 互联网信息搜索
系统支持全文信息检索,检索结果按照相关度排序。系统支持模糊检索,例如:同音词检索、同意词检索。系统支持“以文找文”的方式,通过输入单篇情报信息,检索内容相似的互联网新闻或论坛帖子。
三、主要功能简介
1、舆情采集和处理
1)根据指定的互联网信息源或检索条件,用定向采集和全网覆盖监控两种方式,连续不间断和自动的对WEB资源进行采集。并进行预处理(分词、标注、语法分析、语义分析等)和优化处理(自动消重等),建立供进一步分析使用的基本索引库。
2)采集对象一般为中央重点新闻网站、有影响力的商业网站、地方重点新闻网站、地方有影响力的社会网站、重点境外网站等。
3)信息源内容包括:WEB网站网页、论坛、贴吧、数字报、博客、播客、微博等。
4)全网覆盖监控采用元搜索引擎方式。通过集成不同的通用搜索引擎(百度、谷歌、雅虎等),全面和高效的获取信息。
2、舆情检索
1)对各种来源、多种格式、结构化和非结构化的社会公开信息源进行检索。
2)提供全文检索、关键词(热点词)检索、组合词(布尔逻辑组合方式)检索、短语检索、拼音检索、主题检索、相似检索、分类检索(针对新闻、论坛、博客、播博、微博、视频、各地市、国内、国外)、高级检索(针对标题、作者、时间、正文)等。
3)提供复杂检索条件检索(针对目标网站、时间区间、检索类型、匹配度、排序方式)。
4)提供智能化检索(按字索引、词索引、字词混合索引)。5)提供二次检索(在一次检索的基础上)。6)提供整段内容做为检索条件的检索。
7)根据信息源周边内容的文本信息,对图片和音视频等多媒体信息源进行检索。
8)提供检索结果的相关推荐。9)提供各种检索结果统计。
10)检索结果的查全率和查准率达到较高水准。
3、舆情分析
1)自动关键字提取。
2)对某一完整的文本信息源进行自动内容(静态摘要)摘要提取。
3)根据预先给定的检索条件进行自动多文档(动态摘要)摘要提取。
4)自动主题检索和跟踪。5)自动关联分析和趋势分析。6)根据预先给定的规则进行自动分类。
7)在没有给定规则的前提下,自动聚类(自动识别)出新的模式归档到数据库,以供用户分析使用。
4、舆情加工和处理
1)所有采集及经过处理入库的信息保留半年。2)通过设置关键词、有害词、敏感词,或通过设置某一舆情的潜在专题信息做出舆情预警。
3)将人工检索以及自动生成热点的相关联多种特征数据(时间分布、传播路径、话题演化、地域分布等)整合处理,并以多种形式输出,包括Word、Excel、网页、XML、多种统计图表(饼图、柱状图、趋势图、报表、曲线图)等。
4)对所有来源的基本数据(采集数据量、舆情数据、发帖数据等)进行统计分析,并以多种形式输出,并以E-mail、RTX、手机短信等方式报警提示。同时在报警提示中辅以警示颜色(超过设定监控阀值的采集信息)等特征信息加强直观警示效果。
5)按照预定格式,自动生成舆情报告。简报分为日报、周报、月报、专报。
6)对舆情数据信息进行痕迹处理(标注、推介、上报、批示等),使舆情数据信息进入办公操作流程。
7)建立领导批示、各地舆情、境外舆情、网站备案信息、网站年检信息、网站违规发布检查、网站违规发布处理等专门管理。
第五篇:繁星时代互联网舆情监控系统介绍
互联网舆情监控系统
1主要业务功能:
实现全球热门、专业、权威网站(中英文)的信息采集;
实现重点关注的门户网站、论坛、微博、博客的信息采集;
实现热点话题的聚类、敏感话题的追踪、自定义的信息汇聚和数据挖掘技术,获取基于各个行业和领域的舆情信息;
提供舆情信息预警机制,实现主动防御;
实现海量数据信息的存储和索引机制;
2产品优势和特色
信息采集覆盖全球
支持深层数据挖掘
提供信息内容汇聚
提供舆情预警报警
支持海量数据存储
用户可以根据需求在平台上搜索,抽取有效信息,并能快速从信息中挖掘人、事、组织背后的深层次关系,产 出独有的情报信息,以及对历史数据进行分析和溯源。