第一篇:大数据未来发展的相关文献
大数据未来发展的相关文献
2015年,国务院印发《促进大数据发展行动纲要》,明确系统部署了大数据发展工作。
2015年,国务院办公厅出台《关于运用大数据加强对市场主体服务和监管的若干意见》要求“充分运用大数据先进理念、技术和资源,加强对市场主体的服务和监管,推进简政放权和政府职能转变,提高政府治理能力”。
2016年,国家“十三五”规划纲要明确指出,实施国家大数据战略,把大数据作为基础性战略资源,全面实施大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。
2016年,住房和城乡建设部发布的《2016~2020年建筑业信息化发展纲要》指出,全面提高建筑业信息化水平,增强大数据应用能力。
2017年,工业和信息化部正式印发《大数据产业发展规划(2016~2020年)》,全面制定了十三五”期间大数据产业发展计划大数据已经发展成为我国的国家级发展战略,其与各传统行业的融合,将为传统行业的变革带来契机。2016年,在中国国际大数据产业博览会上,李克强总理将大数据誉为“新时代的钻石矿”,表明了发展大数据产业的价值。
第二篇:数据转换器英文文献
12-Bit A/D Converter
CIRCUIT OPERATION The AD574A is a complete 12-bit A/D converter which requires no external components to provide the complete successive approximation analog-to-digital conversion function.A block diagram of the AD574A is shown in Figure 1.Figure 1.Block Diagram of AD574A 12-Bit A-to-D Converter
When the control section is commanded to initiate a conversion(as described later), it enables the clock and resets the successiveapproximation register(SAR)to all zeros.Once a conversion cycle has begun, it cannot be stopped or restarted and data is not available from the output buffers.The SAR, timed by the clock, will sequence through the conversion cycle and return an end-of-convert flag to the control section.The control section will then disable the clock, bring the output status flag low, and enable control functions to allow data read functions by external command.During the conversion cycle, the internal 12-bit current output DAC is sequenced by the SAR from the most significant bit(MSB)to least significant bit(LSB)to provide an output current which accurately balances the input signal current through the 5kΩ(or10kΩ)input resistor.The comparator determines whether the addition of each successively-weighted bit current causes the DAC current sum to be greater or less than the input current;if the sum is less, the bit is left on;if more, the bit is turned off.After testing all the bits, the SAR contains a 12-bit binary code which accurately represents the input signal to within 1/2 LSB.The temperature-compensated buried Zener reference provides the primary voltage reference to the DAC and guarantees excellent stability with both time and temperature.The reference is trimmed to 10.00 volts 0.2%;it can supply up to 1.5 mA to an external load in addition to the requirements of the reference input resistor(0.5 mA)and bipolar offset resistor(1 mA)when the AD574A is powered from 15 V supplies.If the AD574A is used with 12 V supplies, or if external current must be supplied over the full temperature range, an external buffer amplifier is recommended.Any external load on the AD574A reference must remain constant during conversion.The thin-film application resistors are trimmed to match the full-scale output current of the DAC.There are two 5 kinput scaling resistors to allow either a 10 volt or 20 volt span.The 10 kbipolar offset resistor is grounded for unipolar operation and connected to the 10 volt reference for bipolar operation.DRIVING THE AD574 ANALOG INPUT
Figure 2.Op Amp – AD574A Interface
The output impedance of an op amp has an open-loop value which, in a closed loop, is divided by the loop gain available at the frequency of interest.The amplifier should have acceptable loop gain at 500 kHz for use with the AD574A.To check whether the output properties of a signal source are suitable, monitor the AD574’s input with an oscilloscope while a conversion is in progress.Each of the 12 disturbances should subside in sorless.For applications involving the use of a sample-and-hold amplifier, the AD585 is recommended.The AD711 or AD544 op amps are recommended for dc applications.SAMPLE-AND-HOLD AMPLIFIERS Although the conversion time of the AD574A is a maximum of 35 s, to achieve accurate 12-bit conversions of frequencies greater than a few Hz requires the use of a sample-and-hold amplifier(SHA).If the voltage of the analog input signal driving the AD574A changes by more than 1/2 LSB over the time interval needed to make a conversion, then the input requires a SHA.The AD585 is a high linearity SHA capable of directly driving the analog input of the AD574A.The AD585’s fast acquisition time, low aperture and low aperture jitter are ideally suited for high-speed data acquisition systems.Consider the AD574A converter with a 35 s conversion time and an input signal of 10 V p-p: the maximum frequency which may be applied to achieve rated accuracy is 1.5 Hz.However, with the addition of an AD585, as shown in Figure 3, the maximum frequency increases to 26 kHz.The AD585’s low output impedance, fast-loop response, and low droop maintain 12-bits of accuracy under the changing load conditions that occur during a conversion, making it suitable for use in high accuracy conversion systems.Many other SHAs cannot achieve 12-bits of accuracy and can thus compromise a system.The AD585 is recommended for AD574A applications requiring a sample and hold.Figure 3.AD574A with AD585 Sample and Hold
SUPPLY DECOUPLING AND LAYOUT CONSIDERATIONS It is critically important that the AD574A power supplies be filtered, well regulated, and free from high frequency noise.Use of noisy supplies will cause unstable output codes.Switching power supplies are not recommended for circuits attempting to achieve 12-bit accuracy unless great care is used in filtering any switching spikes present in the output.Remember that a few millivolts of noise represents several counts of error in a 12-bit ADC.Circuit layout should attempt to locate the AD574A, associated analog input circuitry, and interconnections as far as possible from logic circuitry.For this reason, the use of wire-wrap circuit construction is not recommended.Careful printed circuit construction is preferred.UNIPOLAR RANGE CONNECTIONS FOR THE AD574A The AD574A contains all the active components required to perform a complete 12-bit A/D conversion.Thus, for most situations, all that is necessary is connection of the power supplies(+5 V, +12 V/+15 V and –12 V/–15 V), the analog input, and the conversion initiation command, as discussed on the next page.Analog input connections and calibration are easily accomplished;the unipolar operating mode is shown in Figure 4.Figure 4.Unipolar Input Connections
All of the thin-film application resistors of the AD574A are trimmed for absolute calibration.Therefore, in many applications, no calibration trimming will be required.The absolute accuracy for each grade is given in the specification tables.For example, if no trims are used, the AD574AK guarantees 1 LSB max zero offset error and 0.25%(10 LSB)max full-scale error.(Typical full-scale error is 2 LSB.)If the offset trim is not required, Pin 12 can be connected directly to Pin 9;the two resistors and trimmer for Pin 12 are then not needed.If the full-scale trim is not needed, a 50 1% metal film resistor should be connected between Pin 8 and Pin 10.The analog input is connected between Pin 13 and Pin 9 for a 0 V to +10 V input range, between 14 and Pin 9 for a 0 V to +20 V input range.The AD574A easily accommodates an input signal beyond the supplies.For the 10 volt span input, the LSB has a nominal value of 2.44 mV;for the 20 volt span, 4.88 mV.If a 10.24 V range is desired(nominal 2.5 mV/bit), the gain trimmer(R2)should be replaced by a 50Ωesistor, and a 200Ωtrimmer inserted in series with the analog input to Pin 13 for a full-scale range of 20.48 V(5 mV/bit), use a 500 trimmer into Pin 14.The gain trim described below is now done with these trimmers.The nominal input impedance into Pin 13 is 5kΩ, and 10kΩinto Pin 14.UNIPOLAR CALIBRATION The AD574A is intended to have a nominal 1/2 LSB offset so that the exact analog input for a given code will be in the middle of that code(halfway between the transitions to the codes above and below it).Thus, the first transition(from 0000 0000 0000 to 0000 0000 0001)will occur for an input level of +1/2 LSB(1.22 mV for 10 V range).If Pin 12 is connected to Pin 9, the unit will behave in this manner, within specifications.If the offset trim(R1)is used, it should be trimmed as above, although a different offset can be set for a particular system requirement.This circuit will give approximately 15 mV of offset trim range.The full-scale trim is done by applying a signal 1/2 LSB below the nominal full scale(9.9963 for a 10 V range).Trim R2 to give the last transition(1111 1111 1110 to 1111 1111 1111).BIPOLAR OPERATION The connections for bipolar ranges are shown in Figure 5.Again, as for the unipolar ranges, if the offset and gain specifications are sufficient, one or both of the trimmers shown can be replaced by a 50 1% fixed resistor.Bipolar calibration is similar to unipolar calibration.Figure 5.Bipolar Input Connections
CONTROL LOGIC The AD574A contains on-chip logic to provide conversion initiation and data read operations from signals commonly available in microprocessor systems.Figure 6 shows the internal logic circuitry of the AD574A.The control signals CE, CS, and R/C control the operation of the converter.The state of R/C when CE and CS are both asserted determines whether a data read(R/C = 1)or a convert(R/C = 0)is in progress.The register control inputs AO and 12/8 control conversion length and data format.The AO line is usually tied to the least significant bit of the address bus.If a conversion is started with AO low, a full 12-bit conversion cycleis initiated.If AO is high during a convert start, a shorter 8-bit conversion cycle results.During data read operations, AO determines whether the three-state buffers containing the 8 MSBs of the conversion result(AO = 0)or the 4 LSBs(AO = 1)are enabled.The 12/8 pin determines whether the output data is to be organized as two 8-bit words(12/8 tied to DIGITAL COMMON)or a single 12-bit word(12/8 tied to VLOGIC).The 12/8 pin is not TTL-compatible and must be hard-wired to either VLOGIC or DIGITAL COMMON.In the 8-bit mode, the byte addressed when AO is high contains the 4 LSBs from the conversion followed by four trailing zeroes.This organization allows the data lines to be overlapped for direct interface to 8-bit buses without the need for external three-state buffers.It is not recommended that AO change state during a data read operation.Asymmetrical enable and disable times of the three-state buffers could cause internal bus contention resulting in potential damage to the AD574A.Figure 6.AD574A Control Logic An output signal, STS, indicates the status of the converter.STS goes high at the beginning of a conversion and returns low when the conversion cycle is complete.TIMING The AD574A is easily interfaced to a wide variety of microprocessors and other digital systems.The following discussion of the timing requirements of the AD574A control signals should provide the system designer with useful insight into the operation of the device.Figure 7 shows a complete timing diagram for the AD574A convert start operation.R/C should be low before both CE and CS are asserted;if R/C is high, a read operation will momentarily occur, possibly resulting in system bus contention.Either CE or CS may be used to initiate a conversion;however, use of CE is recommended since it includes one less propagation delay than CS and is the faster input.In Figure 7, CE is used to initiate the conversion.Figure 7
Once a conversion is started and the STS line goes high, convert start commands will be ignored until the conversion cycle is complete.The output data buffers cannot be enabled during conversion.Figure 8 shows the timing for data read operations.During data read operations, access time is measured from the point where CE and R/C both are high(assuming CS is already low).If CS is used to enable the device, access time is extended by 100 ns.Figure 8.Read Cycle Timing
In the 8-bit bus interface mode(12/8 input wired to DIGITAL COMMON), the address bit, AO, must be stable at least 150 ns prior to CE going high and must remain stable during the entire read cycle.If AO is allowed to change, damage to the AD574A output buffers may result.“STAND-ALONE” OPERATION The AD574A can be used in a ―stand-alone‖ mode, which is useful in systems with dedicated input ports available and thus not requiring full bus interface capability.In this mode, CE and 12/8 are wired high, CS and AO are wired low, and conversion is controlled by R/C.The three-state buffers are enabled when R/C is high and a conversion starts when R/C goes low.This allows two possible control signals—a high pulse or a low pulse.Operation with a low pulse is shown in Figure 11.In this case, the outputs are forced into the high impedance state in response to the falling edge of R/C and return to valid logic levels after the conversion cycle is completed.The STS line goes high 600 ns after R/C goes low and returns low 300 ns after data is valid.Figure 11.Low Pulse for R/C—Outputs Enabled After Conversion
If conversion is initiated by a high pulse as shown in Figure 12, the data lines are enabled during the time when R/C is high.The falling edge of R/C starts the next conversion, and the data lines return to three-state(and remain three-state)until the next high pulse of R/C.Figure 12.High Pulse for R/C—Outputs Enabled While R/C High, Otherwise High-Z
Usually the low pulse for R/C stand-alone mode will be used.Figure 13 illustrates a typical stand-alone configuration for 8086 type processors.The addition of the 74F/S374 latches improves bus access/release times and helps minimize digital feedthrough to the analog portion of the converter.INTERFACING THE AD574A TO MICROPROCESSORS The control logic of the AD574A makes direct connection to most microprocessor system buses possible.While it is impossible to describe the details of the interface connections for every microprocessor type, several representative examples will be described here.GENERAL A/D CONVERTER INTERFACE CONSIDERATIONS A typical A/D converter interface routine involves several operations.First, a write to the ADC address initiates a conversion.The processor must then wait for the conversion cycle to complete, since most ADCs take longer than one instruction cycle to complete a conversion.Valid data can, of course, only be read after the conversion is complete.The AD574A provides an output signal(STS)which indicates when a conversion is in progress.This signal can be polled by the processor by reading it through an external three-state buffer(or other input port).The STS signal can also be used to generate an interrupt upon completion of conversion, if the system timing requirements are critical(bear in mind that the maximum conversion time of the AD574A is only 35 microseconds)and the processor has other tasks to perform during the ADC conversion cycle.Another possible time-out method is to assume that the ADC will take 35 microseconds to convert, and insert a sufficient number of ―do-nothing‖ instructions to ensure that 35 microseconds of processor time is consumed
Once it is established that the conversion is finished, the data can be read.In the case of an ADC of 8-bit resolution(or less), a single data read operation is sufficient.In the case of converters with more data bits than are available on the bus, a choice of data formats is required, and multiple read operations are needed.The AD574A includes internal logic to permit direct interface to 8-bit or 16-bit data buses, selected by connection of the 12/8 input.In 16-bit bus applications(12/8 high)the data lines(DB11 through DB0)may be connected to either the 12 most significant or 12 least significant bits of the data bus.The remaining four bits should be masked in software.The interface to an 8-bit data bus(12/8 low)is done in a left-justified format.The even address(A0 low)contains the 8 MSBs(DB11 through DB4).The odd address(A0 high)contains the 4 LSBs(DB3 through DB0)in the upper half of the byte, followed by four trailing zeroes, thus eliminating bit masking instructions.SPECIFIC PROCESSOR INTERFACE EXAMPLES Z-80 System Interface The AD574A may be interfaced to the Z-80 processor in an I/O or memory mapped configuration.Figure 15 illustrates an I/O or mapped configuration.The Z-80 uses address lines A0–A7 to decode the I/O port address.An interesting feature of the Z-80 is that during I/O operations a single wait state is automatically inserted, allowing the AD574A to be used with Z-80 processors having clock speeds up to 4 MHz.For applications faster than 4 MHz use the wait state generator in Figure 16.In a memory mapped configuration the AD574A may be interfaced to Z-80 processors with clock speeds of up to 2.5 MHz.
第三篇:大数据时代 文献综述
姓名:李欢欢 学号:***4
一、前言
大数据是近年来出现在通信和计算机领域中的一个热门关键词。关于大数据,尚未有一个统一的定义,但却有两个观点能够诠释大数据的本质。第一个观点来自于Gartner公司的Merv Adrian在2011年第一季度刊登在Teradata Magazine上的一篇文章,文中指出“数据超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力”[1]。另一个观点来自于麦肯锡全球数据分析研究所(Mckinsey Global Institute)在2011年6月发布的《大数据:创新、竞争和生产力的下一个前沿》报告,报告中提出“大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集”[2]。麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和应用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
大数据已经深刻地影响到人们的生活、工作和学习。大数据的意义在于对由多种类型数据构成的数据集体进行分析和研究,提取有利用价值的信息,从而帮助人们在解决问题时可以作出科学的决策。同样大数据的威力强烈地冲击着教育系统,正在成为推动教育系统创新与变革的颠覆性力量。
智慧时代下大数据技术在教育
领域的应用研究综述
二、大数据技术在教育领域的应用现状分析 大数据定义与特征
大数据(bigdata),又称巨量资料,海量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。研究机构 Gartner[3]认为“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。麦肯锡的定义: 大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。无论哪种定义,我们可以看出,大数据并不是一种新的产品也不是一种新的技术,大数据只是数字化时代出现的一种现象。
大数据的主要特点可以概括为4V+1C。4V包含了四个层面:第一,即 Volume(大容量),海量数据,规模庞大,已跃升到 PB 级别;第二,Velocity(高速度),实时处理,处理速度快,涉及感知、传输、决策、控制开放式循环的大数据,数据实时处理有着极高要求,通过传统数据库查询方式得到的“当前结果”可能已没有价值,这也是大数据和传统的数据挖掘技术本质上的不同;第三,Variety(多样性),数据类型繁多:网络日志、视频、地理位置信息、图片等都是大数据;第四,Veracity(低密度),数据价值大,但价值密度低。对海量数据挖掘分析,对未来趋势与模式的可预测分析,深度复杂分析;“1C”即 Complexity,是通过数据库处理持久存储的数据不再适用于大数据处理,需要有新的方法来满足异构数据统一接入和实时数据处理的需求[4]。2 国内研究现状
对于“智慧时代下大数据技术在教育领域的应用”国内研究的现状,我主要通过借助中国知网提供的论文发表数据进行分析。在中国知网中选择“高级检索”类型,并在检索条件中选择“主题”检索,输入“大数据”并含“教育”,截止到 2014年4月17日共检索出303 条结果与之相关,通过手工筛选,把会议报道等无关信息剔除掉,剩余160篇文章。
大数据在教育领域的应用,与国外相比,国内起步稍晚,还未形成整体力量。虽然2009年开始,大数据就成为了流行词汇,但是它在教育领域的应用是近3年才出现的。国内最早的研究是从2012年开始的,相关论文只有5篇。但是2012年大数据成为时代发展的一个重要趋势,这也直接影响到教育领域的专家学者开始关注。王震一[5]提出:今天的大数据就像当年发明显微镜一样,人们从庞杂的海量数据中找到了前所未知的事物。正确面对这些关系复杂、形式多样的结构化、半结构化和非结构化的教育数据,形成一套涵盖业务、技术和 IT 基础架构的全面解决方案来处理存储、管理和分析教育大数据,这就是信息化教育。
杨满福和焦建利[6]提出“大数据加速教学研究成果向教学生产力转化”,从产学研结合的意义上说,借助大数据,教学研究与教学产品的改善与创新更紧密地联结起来,理想的状态是教学研究的价值在教学产品的优化上快速得到体现,最终教学研究成果束之高阁的不利局面将能得到改变,教学研究的成果也就能在一个全球化境域下提高教学的生产力。
刘雍潜和杨现民[7]提出“大数据时代区域教育均衡发展新思路”,在大数据时代背景下,区域教育均衡发展应该以数据为基础,准确把握区域教育发展动态,利用大数据技术从教育环境均衡教育资源均衡、教育机会均等和教育质量均衡等四个方面提供科学依据,进而促进区域教育均衡发展。
2013年至今是大数据在教育领域应用研究的起步阶段。随着国家对教育信息化的快速推进和信息技术与教育教学的深度融合,我国教育事业的改革和创新发展离不开信息技术的支持和引领已经越来越成为教育界的共识。2013年被媒体称为中国的大数据元年。2014 年 3 月,教育部办公厅印发的《2014 年教育信息化工作要点》中指出:加强对动态监测、决策应用、教育预测等相关数据资源的整合与集成,为教育决策提供及时和准确的数据支持,推动教育基础数据在全国的共享[8]。可见,教育大数据的应用已被列入我国教育信息化的工作程序中,相信大数据将很快被推广并与教育领域的深度融合,这是当前时代教育事业发展的必然趋势。3 国外研究现状
2012年3月底,美国奥巴马政府宣布,白宫将投入2亿美金的研发费用来推动大数据技术的发展,其主要目标是为了让大数据技术更好地服务于科研、环境、生物医药、教育和国家安全领域,同时,明确地表示将主要用来鼓励在数据采集、存储、管理、分析和共享等方面的技术研发,这直接刺激了全世界对“大数据”的关注[9]。此外,大数据还上过《纽约时报》和《华尔街日报》的专栏封面。2012年,美国国家教育部发布了《通过教育数据挖掘和学习分析促进教与学》报告,对美国国内大数据教育应用领域和案例,以及应用实施所面临的挑战进行了详细的介绍。
国外关于大数据在教育领域的应用的论文发表时间也主要分布在近三年,研究内容主要包括对教育数据挖掘、学习分析,个性化教育、教育方式的改善、学习策略探讨、教育管理方式的改变、大数据对于教育的推动作用、数据驱动以及对图书馆建设、对教与学需求、评价方法的影响等方面。可见,虽然大数据在国外出现较早也备受重视,但是在教育领域中的应用仍不够深入,正如 Anthony G.Picciano[10]教授所说:教学应用大数据分析处于起步阶段,还需要几年才能成熟,虽然大数据的存在被证明是该被重视的,但大数据并不是解决所有教育问题的灵丹妙药,它只是给人们提供了拟定教育问题解决方案时的一部分决策参考。
综上所说,我们可以看出,国内外大数据在教育中应用的研究还处于初级阶段,研究的内容不够广泛也不够有深度,因此,还需要进一步加强大数据在教育中应用的研究力度,希望能够推动大数据在教育中的应用与发展。
三、总结
通过以上的分析,我们可以发现大数据在教育领域有着很大的应用空间,也是未来教育发展的必然趋势。但是国内外专家学者开展的相关研究,大多数集中在理论阶段,不能够运用到实际中来。具体的应用理论还不够成熟,实践研究方面涉及的案例比较少。大数据时代,互联网教育与学校教育将逐渐分离,正如电影院和电视机在初期竞争的时候水火不相容,而成熟后会各得其所。大数据提供了一种学校教育与互联网教育共存的新模式。有人预言,大数据开创了一个教育的新时代,我们应该积极迎接这个新时代,通过大数据来促进教育,进一步改善教学的方式与方法,进一步促进学生学习成绩的提高。
四、参考文献
[1]Merv Adrian.Big Data:it’s going mainstream and it’s your next opportunity[J].Teradata Magazine, 2011,(1):3-5.
[2]Manyika J, Chui M, Brown B, et al.Big data: The next frontier for innovation, competition, and productivity[R].USA:Mckinsey Global Institute, 2011.
[3]大数据[OL].
[4]大数据时代的特点[OL].
[7]刘雍潜,杨现民.大数据时代区域教育均衡发展新思路,电化教育研究,2014(05);
[8]教育部办公厅关于印发《2014年教育信息化工作要点》的通知[OL].
第四篇:电影大数据国际文献综述
电影大数据国际文献综述
【摘要】大数据是当前的一种热点技术,在越来越多的科学研究领域得到应用。通过对国际前沿的电影大数据研究进行梳理,以近5年电影大数据相关的英文论文为样本进行分析发现,大数据在电影产业得到广泛应用。根据文献的主题域,从票房预测、市场营销、情感分析、推荐系统、产业经济、文化批评和文本分析方面,总结主要研究成果,为电影研究带来新的视野。
【关键词】电影;大数据;社交媒体;人工智能
大数据是当前的一种热点技术,对社会影响巨大。越来越多的科学研究领域应用大数据,甚至一些人文学科也在开拓数据研究新理路。大数据的核心是运用计算机技术,通过人们在互联网上形成的分散的、非结构化的数据,发现传统研究无法实现的规律。本文试图对国际前沿的电影大数据研究进行梳理,总结研究成果,尤其是跨学科的理论,为电影研究带来新的视野。
波德维尔(2000)以“中间层面理论”强调在“实证主义”思想指导下的电影形式关怀,提倡电影内容生产的数据思维和计算过程。以互联网、云计算等技术和平台为核心的大数据,为这种研究路径提供了新的形式和方法。2013年,Netflix公司根据网络用户使用习惯,分析出导演、主演和剧情的交集,推出《纸牌屋》,获得巨大成功。同年,谷歌的媒体与娱乐业首席分析师Andrea Chen与Reggie Panaligan联合发布了《用谷歌搜索量化电影魔力》白皮书。以2012年间美国上映的近百部电影为研究对象,分析了影片上映前各时间段里用户对各类电影信息的搜索行为数据,揭示了电影相关搜索量与电影票房成绩间存在的强相关性。国内也快速应用了大数据,但主要在票房监测和预测、营销等方面。
本研究以2013年1月到2018年1月与电影大数据相关的英文文献为样本,通过对600多篇文献进行筛选,最终选取76篇作为研究对象。根据文献的主题域,我们划分为票房预测、市场营销、情感分析、推荐系统、产业经济、文化批评和文本分析六个方面。
一、票房预测
电影产业的高风险性使企业一直在寻找能够准确预测收益的方法。然而,由于电影受到非常复杂的社会因素影响,即使是最有经验的电影人,也往往会无法准确把握。近年来,成本的不断攀升,前两周即完成主要票房收入的饱和式发行,家庭影像产品销售的下降,以及媒介竞争的加剧,都使得电影的风险日益增强。不过,随着人们互联网应用的深入,通过信息技术准确预测票房的可能性不断提高。计算机专业较早地以不同的算法和变量组合,探索票房预测的规律。
传统票房预测研究将预算、演员、导演、制片人、故事地点、编剧、上映时间、音乐、上映地点、目标观众和续集等因素作为变量。而基于大数据的研究则集中在社交媒体、搜索引擎和营销活动等方面。
人们通过社交媒体,对电影进行评论,即消费者参与行为(Consumer engagement behavior,?称CEB),产生大量数据。许多研究探讨了CEB与票房之间的关联性。Oh Chong等对美国电影及社交媒体活动进行分析,发现Facebook和YouTube上的CEB与票房总收入是正相关的;然而,在Twitter上却没有同样的效果。他们认为,电影在多个渠道进行社交媒体传播具有重要意义。[1]Huang Jianxiong等提出,专家评论和基于拉动式的用户评论在电影上映的早期阶段有影响,并且随着时间的推移,影响会逐渐减小。相比之下,基于推送式的微博平台的评论数量对以后的票房收入有影响。他们认为,网络意见并不总是具有说服力和有用性。[2]不过,Baek Hyunmi等似乎获得了与上述两个研究不同的结果。他们以罗杰斯的创新扩散理论为框架,对多个社交媒体平台进行比较,提出在电影上映的初期阶段,Twitter对票房收入的影响更大,因为它具有高度的即时性和传播性。雅虎在电影上映的后期,对电影的影响力更大,因为它具有很强的说服力。由于博客和YouTube包含了大众媒体和人际传播媒体的特点,在最初和后期阶段对票房收入的影响没有什么不同。[3]Ding Chao等聚焦Facebook的点赞行为,发现在上映前一周,点“赞”数量增加1%,则上映周票房增长约0.2%。越接近上映日期,提前点“赞”的效果就会变得越强。[4]Oh Sehwan等通过对YouTube上电影预告片的分析发现,电影预告片的分享对电影的票房收入有积极的影响,在电影上映的早期阶段,这一效果比在后期阶段更大。[5]有些研究通过对比Android和iOS两个系统平台上发布的Twitter文章,探讨了不同平台对导演、剧情和音乐等的侧重点。
有些研究将视野从单一的国内市场,扩大到国际市场。Kim Sang Ho等通过对美国电影国内和国际票房的分析,探讨专家评论和网络口碑(eWOM)与票房之间的关系。研究发现,二者对国内票房均有重要作用,而eWOM则对国际票房有影响。[6]
有些研究通过建立电影在社交媒体的情感关系模型,探讨评论者情绪对票房的影响。Rui Huaxia团队提出,Twitter上的正面评论可以促进票房增长,负面评论则阻碍票房增长。对电影销售最强烈的影响来自于那些直接表达他们想看某部电影的推文。因为这类意图明确的推文在电影销售上具有双重效果:作者自己购买行为的直接影响,以及通过替代认知效应(awareness effect)或网络口碑对接受者的说服性间接影响。[7]而有的研究则认为,用户的购买意向可以带来更准确的电影票房收入预测。
电影的发行渠道及破坏市场秩序的方式对票房的影响一直受到人们的关注。Kim Eun等对韩国电影市场的研究表明,较高的票房成绩与较短的播放延迟对视频点播(VOD)市场效果具有显著作用。票房在网络上的重要性可以用高质量的评价、营销或“点赞”行为等方面来解释。[8]Kestutis Cerniauskas通过对BitTorrent网络上电影分享的研究,探讨该盗版方式对票房的影响。研究发现,在电影发布后的最初几周,文件共享与美国票房销售有些许正面的关系,之后没有任何效果。也就是说,电影分享不会减少票房收入,因为分享并非电影的替代品。[9]
此外,有的研究将历史性的结构性数据与社交媒体的非结构性数据结合,进行交叉熵的传播分析;还有的研究分析维基百科与票房之间的关系。就准确率而言,通过首映周末的数据分析之后的票房收入的预测方式最稳定。
二、市场营销
从文献的学科分布来看,市场营销也是电影大数据研究的一个热点,其中跨媒体整合营销是重要的一种路径。Sattelberger Felix等以德国电影市场为例,分析了多平台营销策略,提出应该尽可能多地增加吸引用户的页面和电影预告片。在不同用户的不同平台之间,存在着强大的路径依赖关系,并且在不同的平台之间的可互换性很高,这表明可以开发一种更简化的监控社交媒体的程序,以减少工作量和成本。另外,增加预告片的覆盖范围、点赞的次数和评论可相应减少电影的负面评价。艺术电影应该采用更为广泛传播的市场策略。对于大片来说,网络搜索过程总是先于在线用户交流。因此,在电影上映之前很久就提供有关电影的信息,这对于增加电影被网络搜索引擎索引的可能性是至关重要的。[10]同样,Nanda Madhumita等通过YouTube、Facebook和Twitter的数据,探讨了整合社会媒体推广策略(integrative social media strategy)在宝莱坞电影产业中的成功作用。社交媒体宣传策略的核心是开发合适的内容,以匹配社交媒体平台的独特特征。Facebook的主要用途是通过组织有趣的活动来连接观众,Twitter则主要用来转发来自观众的正面口碑。利用社交媒体平台与观众建立情感联系,通过宣传观众与电影主角的身份认同是有效的宣传策略。[11]
Weisfeld-Spolter Suri等则通过网络口碑(eWOM)营销与同步营销传播(MC)两种关系营销的作用比较发现,并不是所有积极的口碑都比MC有更积极的影响。因为,并非所有的eWOM类型都具有相同的说服力和社区支持。来自C2C支持的社交网络的影响力比B2C更有影响力,尤其是对多对多的eWOM通信来说。因此,SNS的赞助可能会导致信息源偏差,并影响嵌入在SNS中eWOM的说服性。[12]
有些研究重点考察电影营销的不同阶段。Chen Kun等以中国电影市场为研究对象,探讨社会信息在不同产品发布阶段的竞争效果。他们提出,竞争对手的社会观点对产品的销售很重要。搜索量缓和了社会观点和产品销售之间的影响。当搜索量足够大的时候,对手负面观点对票房的作用会相应减少。[13]Yeujun Yoon运用马尔可夫决策过程理论(decision process theory),以美国的电影行业数据和Twitter发布的数据,分析在电影质量评价阶段,如何影响人们观看一部电影的决定。研究发现,在电影上映前为了吸引观众而进行大量的广告宣传,可能会适得其反,因为那样提高了观众的期望值。[14]Gopinath Shyam等通过对美国不同区域市场的调查发现,电影首映的表现受到预先发布的博客数量和广告的影响,而放映后的表现受到放映后博客的评级和广告的影响。在整个市场中,广告和博客评级(放映后)的弹性比博客数量(提前发布)的弹性更大。实际应用中,大部分电影公司的有限发行策略中,广告和博客数量只达到了理想数据的一半。[15]Escoffier Nadine等认为,尽管群体智慧在没有社会影响的情况下更准确,但在社会影响的条件下,其准确性会随着时间的推移而增加。在电影上映前的评估中,由一小群人独立评估产生的群体效应的智慧比少数专家的评估更准确。因此,应当以群体智慧来获得对电影质量的真实度量。在市场营销阶段,通过在线群体智慧,以形成积极的社会媒体影响。[16]
有些研究从观众满意度的视角着眼。Chen Hongyu等认为社交媒体上的评论,即用户生成内容(UGC),具有天生的不完整性,因为没有抓住不写评论的用户的意见。这些沉默的用户可能与那些说话的人有系统性的差异。他们通过Blockbuster.com用户的电影评论调查发现,当用户对电影不满意时,他们发布评论的平均概率是0.06;而当用户满意时,则是0.23。因此,我们在分析UGC时如果忽视沉默的用户,将导致效果的偏差。[17]
三、情感分析
大数据研究中,消费者的情感往往成为决定事物发展方向的重要因素。通过人工智能的算法,对电影评论的情感分析是研究的一个热点。其中,电影评分与票房和社会影响力有着紧密联系。
Lee Young-Jin等比较了陌生人和朋友对用户生成影评的作用。研究发现,陌生人群评分具有“羊群效应”和差异化行为的双重影响。用户在评分时会受到之前电影主流评分的影响,跟随主流,或者故意发表不同言论。相比之下,朋友的评分总是会引发“羊群效应”。[18]Flanagin Andrew等提出,评分的等级与信任、依赖、对用户生成内容的可信性以及自己与他人的观点一致等因素具有较强的关系。人们倾向于在信息量低的时候倾向于专家,但在信息量大的情况下倾向于用户生成的信息。人们的?^点和行为意图与他们所暴露的在线评级信息相一致。[19]当消费者遇到太多的正面评论时,他们可能会怀疑eWOM本身的可信度。因此,Jong HyupLee等通过对文本挖掘技术的分析,分析了评论文本情绪的熵。评论文本中的熵值对eWOM与电影票房销售的关系有积极的缓和影响。删除负面评论以提高产品销量可能不会对在线零售商或相关方有所帮助。[20]
除了评分的情感分析,计算机专业研究的主流是影评语言的算法,而人文社会科学则通过情绪倾向探讨其背后的社会现象。Oh Sanghee等通过多个社交媒体平台,试图分析用户与匿名者分享他们的个人经历、信息和社会支持的动机。他们提出影响分享动机的10个因素有快乐、自我效能、学习、个人收获、利他主义、移情、社会参与、社区利益、互惠和声誉。这些因素都是基于对主要动机理论和模型的评价来确定社交媒体用户的动机的。不同的信息内容和不同的目的,不同的社交媒体有不同的动机。[21]有的研究从女性主义视角,认为强势女性担任主角并不会降低科幻电影的盈利能力。
四、推荐系统
大数据为商业社会带来了一种重要行为方式,即智能推荐系统。人们在互联网上产生的信息记录,使企业可以把广告精准地送达,甚至达到引导消费的效果。热门电影及其相关信息的推荐成为该领域的研究热点,主流的研究方法是计算机智能算法。在线协作电影推荐试图通过在用户或电影中捕捉与他们历史相似的“邻居”,来帮助用户访问他们喜欢的电影。然而,由于数据稀疏,随着电影和用户的快速增长,“邻居”的选择变得越来越困难。
还有一些研究运用混合模型电影推荐系统。Dixon Prem Daniel等提出一种利用智能手机用户浏览历史的模式,进行个性化电影推荐。浏览历史和电影情节摘要被用来生成一个相似的分数。电影获得的分数被合并到一个潜在的因素模型中,该模型可以计算潜在的用户和项目特性。这个模型在使用用户浏览历史的情况下预测用户的评分,并最终获取与用户喜欢的相似的电影。[22]此外,有些研究将年龄和性别等用户信息作为电影推荐系统的评估要素。
五、产业经济
粉丝圈和众筹都被认为是一个空间,被边缘化的声音可以对流行文化进行变革干预,并对产生它的媒体行业做出反馈。Scott Suzanne等认为,尽管粉丝资助行为有可能催生行业和文化变革的作品,且在一定程度上影响媒体产业和粉丝文化,但我们需要审视这种变革干预的局限性,检查粉丝金融、情感和创新投资各自的活动框架。尽管粉丝性质的项目具备了在媒介文化上再造生产商和粉丝之间的道德经济。然而,其变革能力关系到他们接受或拒绝“粉丝参与”(fan participation)这个工业概念。[23]
互联网协议电视(IPTV)和在线视频点播(VOD)等视频播放渠道的发展,正在使电影发行转变为一种同步的结构。Kaeun Song等在这些变化的市场条件下,分析了电影票房、IPTV和VOD服务的驱动因素,以确立新的发行模式。他们使用弹性理论,考虑不同的消费者风险,来解释当面对不同程度和风险类型时,电影消费者如何在不同的电影播放渠道表现出不同的行为。他们将电影选择的前提分为合理的(风险对冲)因素,如观众评价、场景熟悉度、明星效应、出品国家,以及不合理的(诱人的)因素,包括专家评级和类型。[24]
六、文化批评和文本分析
在《美国魔力2.0》一文中,Friedman Alice T.指出,魅力分层概念(the layered notion of glamour),这个20世纪中期电影、建筑和流行文化耳熟能详的术语,与当今社交媒体的超级公共世界(hyperpublic world)、网络形象建构和市场细分之间的关联性与日俱增。长期以来,好莱坞形象的创造和消费,光鲜的广告复制,对于叙事结构、投射、表现和自我评估具有长期侵入的过程。这与我们的定制化Instagram信息流、“Facebook嫉妒”(Facebook envy)和其他形式的数字传播、接收和监视等文化方式有着重要的相似之处。越来越多的当代公共空间被塑造成一个用于生产和消费这些数据的平台;随之而来的是监视技术的发展和建立可防御的私人空间都给物理和网络环境的设计者带来了新的挑战。[25]此外,有研究者采用机器学习技术分析电影脚本的叙事流和叙事结构,从而探讨叙事模式。
七、结论
从近年来的研究成果来看,大数据在电影产业得到广泛应用。我们应当借鉴这些观点,为电影研究提供新的视野和路径。
(1)社交媒体是电影大数据研究的核心。Twitter、Facebook、YouTube、博客和微博等平台是主要数据来源。用户在社交媒体的CEB和UGC等行为,为票房预测、市场营销、情感分析和智能推荐等研究提供了巨大的数据支持,使电影产业的预测和营销获得了更为有效的工具。不过,基于Google或百度等搜索引擎平台的研究较少。虽然中国研究者贡献了近20%的文献。但是,对中国社交媒体的针对性研究,除微博外,其他主流平?_较少涉及。
(2)雅虎电影社区、Blockbuster.com等专业电影平台也成为数据的重要来源。由于电影经济的特殊性和复杂性,跨平台数据的混合研究,能够在数据和效果上,提供更好的解决方案。
(3)从研究地域来看,出现了跨国市场研究。全球性的互联网平台为此提供了便利。近年来,中国电影市场是全球最活跃的市场,而且拥有发达的互联网媒体和数据平台。对于中国电影市场及其与其他国家的跨国研究,是一个非常有潜力的领域。
(4)从学科分布来看,计算机专业是电影大数据研究的主要领域。人文社会科学与计算机等跨学科结合,成为研究的一个新动向。越来越多的基于大数据的跨学科研究机构产生。一些利用大数据的文化和文本研究呈现出新的活力。
(5)从方法论来看,多变量融合是解决复杂电影问题的一种有效途径。而将大数据研究纳入经典理论框架之中,也是一种常见模式。
(6)与电视和互联网结合的跨媒体研究,目前主要集中在IPTV和VOD等与电影发行相关的研究上。对于电影在视频网站的长期性研究,以及消费产品授权的研究较少。随着人工智能技术的发展,大数据研究将在这些方面提供更多的突破。
(7)虽然是大数据研究,但是,当前的研究样本很多没有与主流商业数据有效对接,数据量比较小。只有实现即时数据的分析,电影大数据研究才会有更好的结果。
[本文为国家社科基金重大项目“当代中国文化国际影响力的生成研究”(项目编号:16ZDA219);上海市新闻传播高原学科课题成果]
参考文献:
[1]Oh Chong,etc.Beyond likes and tweets:Consumer engagement behavior and movie box office in social media.Information & Management.2017,54(1):25-37.[2]Huang Jianxiong,etc.A Temporal Study of the Effects of Online Opinions:Information Sources Matter.Journal of Management Information Systems.2017,34(4):1169-1202.[3]Baek Hyunmi,etc.Electronic word-of-mouth,box office revenue and social media.Electronic Commerce Research & Applications.2017(22)13-23.[4]Ding Chao,etc.The Power of The“like”Button:The Impact of Social Media on Box Office.Decision Support Systems.2017,94:77-84.[5]Oh Sehwan,etc.Predictive value of video-sharing behavior:sharing of movie trailers and box-office revenue.Internet Research.2017,27(3):691-708.[6]Kim Sang Ho,etc.Exploring the Effects of Online Word of Mouth and Expert Reviews on Theatrical Movies' Box Office Success.Journal of Media Economics.2013,26(2):98-114.[7]Rui Huaxia,etc.Whose and what chatter matters?The effect of tweets on movie sales.Decision Support Systems.2013,55(4):863-870.[8]Kim Eun,etc.Online movie success in sequential markets.Telematics and Informatics.2017,34(7):987-995.[9]Kestutis Cerniauskas,etc.The effect of film sharing on P2P networks on box office sales.Blekinge Institute of Technology,2017.[10]Sattelberger Felix.Optimising Media Marketing Strategies in a Multi-platform World:an Inter-relational Approach to Pre-release Social Media Communication and Online Searching.Journal of Media Business Studies.2015,12(1):66-88.[11]Nanda Madhumita,etc.Innovation in social media strategy for movie success.Management Decision.2018,56(1):233-251.[12]Weisfeld-Spolter Suri,etc.An Integrative Approach to eWOM and Marketing Communications.Corporate Communications:An International Journal.2014,19(3):260-274.[13]Chen Kun,etc.Information Competition in Product Launch: Evidence from the Movie industry.Electronic Commerce Research & Applications.2017(26)81-88.[14]Yeujun Yoon,etc.The Impact of Word of Mouth via Twitter On Moviegoers' Decisions and Film Revenues:Revisiting Prospect Theory.Journal of Advertising Research.2017,57(2):144-158.[15]Gopinath Shyam,etc.Blogs,Advertising,and Local-Market Movie Box Office Performance.Management Science.2013,59(12):2635-2654.[16]Escoffier Nadine,etc.The Wisdom of Crowds in the Movie Industry:Towards New Solutions to Reduce Uncertainties.International Journal of Arts Management.2015,17(2):52-63.[17]Chen Hongyu,etc.De-Biasing the Reporting Bias in Social Media Analytics.Production & Operations Management.2016,25(5):849-865.[18]Lee Young-Jin,etc.Do I Follow My Friends or The Crowd?Information Cascades in Online Movie Ratings.Management Science.2015,61(9):2241-2258.[19]Flanagin Andrew,etc.Trusting Expert-versus User-generated Ratings Online.Computers in Human Behavior.2013,29(4):1626-1634.[20]Jong HyupLee,etc.The role of entropy of review text sentiments on online WOM and movie box office sales.Electronic Commerce Research and Applications.2017(22)42-52.[21]Oh Sanghee,etc.Motivations for sharing information and social support in social media.Journal of the Association for Information Science & Technology.2015,66(10):2045-2060.[22]Dixon Prem Daniel R,etc.A latent factor model based movie recommender using smartphone browsing history.International Conference on Research and Innovation in Information Systems.July,2017:1-6.[23]Scott Suzanne,etc.The moral economy of crowdfunding and the transformative capacity of fan-ancing.New Media & Society.2015,17(2):167-182.[24]Kaeun Song,etc.Dissecting movie performance across multiple distribution channels:An elastic justification theory perspective.Telematics and Informatics.2018,35(1):159-167.[25]Friedman Alice T.American Glamour 2.0:architecture,spectacle,and social media.Consumption,Markets & Culture.Dec2017,Vol.20 Issue 6,p575-584.(海?为上海大学新闻传播学院副教授;海翔宇为上海大学新闻传播学院硕士生)
编校:赵〓亮
第五篇:文献3-大数据技术与应用
大数据技术与应用*
【摘要】:随着互联网技术的飞速发展,特别是近年来云计算、物联网、社交网络等新兴服务促使人类社会的数据种类和规模正以前所未有的速度增长,大数据时代正式到来.数据从简单的处理对象开始转变为一种基础性资源,如何更好地管理和利用大数据已经成为普遍关注的话题.大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,数据管理方式上的变革正在酝酿和发生.对大数据的产生背景和基本概念进行剖析,并对大数据的主要应用作简单对比.在此基础上,阐述大数据处理的基本框架,并就云计算技术对于大数据时代数据管理所产生的作用进行分析.最后归纳总结大数据时代所面临的新挑战。【关键字】:大数据
发展趋势 应用 机遇和挑战
一、大数据时代的背景
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。2011年5 月,在“云计算相遇大数据” 为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念。正如《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
二、什么是大数据
大数据(Big Data)是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高,或者其结构不适合原本的数据库系统。为了获取大数据中的价值,我们必须选择另一种方式来处理它。数据中隐藏着有价值的模式和信息,在以往需要相当的时间和成本才能提取这些信息。如沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数据中挖掘信息。而当今的各种资源,如硬件、云架构和开源软件使得大数据的处理更为方便和廉价。即使是在车库中创业的公司也可以用较低的价格租用云服务时间了。对于企业组织来讲,大数据的价值体现在两个方面:分析使用和二次开发。对大数据进行分析能揭示隐藏其中的信息。例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解。对大数据的二次开发则是那些成功的网络公司的长项。例如Facebook通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式。这种通过大数据创造出新产品和服务的商业行为并非巧合,谷歌、雅虎、亚马逊和Facebook它们都是大数据时代的创新者。
(一)大数据的4V特征
大量化(Volume):企业面临着数据量的大规模增长。例如,IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。
多样化(Variety):一个普遍观点认为,人们使用互联网搜索是形成数据多样性的主要原因,这一看法部分正确。然而,数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。
快速化(Velocity):高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现
软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。根据IMS Research关于数据创建速度的调查,据预测,到2020年全球将拥有220亿部互联网连接设备。价值(Value):大量的不相关信息,浪里淘沙却又弥足珍贵。对未来趋势与模式的可预测分析,深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)
三、大数据时代对生活、工作的影响
大数据,其影响除了经济方面的,它同时也能在政治、文化等方面产生深远的影响,大数据可以帮助人们开启循“数”管理的模式,也是我们当下“大社会”的集中体现,三分技术,七分数据,得数据者得天下。
“大数据”的影响,增加了对信息管理专家的需求。事实上,大数据的影响并不仅仅限于信息通信产业,而是正在“吞噬”和重构很多传统行业,广泛运用数据分析手段管理和优化运营的公司其实质都是一个数据公司。麦当劳、肯德基以及苹果公司等旗舰专卖店的位置都是建立在数据分析基础之上的精准选址。而在零售业中,数据分析的技术与手段更是得到广泛的应用,传统企业如沃尔玛通过数据挖掘重塑并优化供应链,新崛起的电商如卓越亚马逊、淘宝等则通过对海量数据的掌握和分析,为用户提供更加专业化和个性化的服务。
大数据在个人隐私的方面,大量数据经常含有一些详细的潜在的能够展示有关我们的信息,逐渐引起了我们对个人隐私的担忧。一些处理大数据公司需要认真的对待这个问题。例如美国天睿资讯给人留下比较深刻印象的是他的一个科学家提出,我们不应该简单地服从法律方面的隐私保护问题,这些远远不够的,公司都应该遵从谷歌不作恶的原则,甚至更应该做出更积极的努力。
四、大数据时代的发展方向、趋势
根据ESM国际电子商情针对2013年大数据应用现状和趋势的调查显示:被调查者最关注的大数据技术中,排在前五位的分别是大数据分析(12.91%)、云数据库(11.82%)、Hadoop(11.73%)、内存数据库(11.64%)以及数据安全(9.21%)。Hadoop已不再是人们心目中仅有的大数据技术,而大数据分析成为最被关注的技术。从中可以看出,人们对大数据的了解已经逐渐深入,关注的技术点也越来越多。既然大数据分析是最被关注的技术趋势,那么大数据分析中的哪项功能是最重要的呢?从下图可以看出,排在前三位的功能分别是实时分析(21.32%)、丰富的挖掘模型(17.97%)和可视化界面(15.91%)。2012年也曾做过类似的调查,当时选择丰富的挖掘模型(27.22%)比实时分析(19.88%)多7.34%。短短一年时间内,企业对实时分析的需求激增,成就了很多以实时分析为创新技术的大数据厂商。从调查结果可以看出:企业在未来一两年中有迫切部署大数据的需求,并且已经从一开始的基础设施建设,逐渐发展为对大数据分析和整体大数据解决方案的需求。与此同时,大数据还面临人才的缺乏的挑战,需要企业和高校联合起来,培养数据领域的复合型人才,帮助企业打赢这场“数据战”。
五、大数据的应用
(一)行业拓展者,打造大数据行业基石
你IBM:IBM大数据提供的服务包括数据分析,文本分析,蓝色云杉(混搭供电合作的网络平台);业务事件处理;IBM Mashup Center的计量,监测,和商业化服务(MMMS)。IBM的大数据产品组合中的最新系列产品的InfoSphere bigInsights,基于Apache Hadoop。该产品组合包括:打包的Apache Hadoop的软件和服务,代号是bigInsights核心,用于开始大数据分析。软件被称为bigsheet,软件目的是帮助从大量数据中轻松、简单、直观的提取、批注相关信息为金融,风险管理,媒体和娱乐等行业量身定做的行业解决方案 微软:2011年1月与惠普(具体而言是HP数据库综合应用部门)合作目标是开发了一系列
能够提升生产力和提高决策速度的设备。
EMC:EMC 斩获了纽交所和Nasdaq;大数据解决方案已包括40多个产品。
Oracle:Oracle大数据机与Oracle Exalogic中间件云服务器、Oracle Exadata数据库云服务器以及Oracle Exalytics商务智能云服务器一起组成了甲骨文最广泛、高度集成化系统产品组合。
(二)大数据促进了政府职能变革
重视应用大数据技术,盘活各地云计算中心资产:把原来大规模投资产业园、物联网产业园从政绩工程,改造成智慧工程;在安防领域,应用大数据技术,提高应急处置能力和安全防范能力;在民生领域,应用大数据技术,提升服务能力和运作效率,以及个性化的服务,比如医疗、卫生、教育等部门;解决在金融,电信领域等中数据分析的问题:一直得到得极大的重视,但受困于存储能力和计算能力的限制,只局限在交易数型数据的统计分析。一方面大数据的应用促进了政府职能变革,另一方面政府投入将形成示范效应,大大推动大数据的发展。
(三)打造“智慧城市”
美国奥巴马政府在白宫网站发布《大数据研究和发展倡议》,提出“通过收集、处理庞大而复杂的数据信息,从中获得知识和洞见,提升能力,加快科学、工程领域的创新步伐,强化美国国土安全,转变教育和学习模式” ;中国工程院院士邬贺铨说道,“智慧城市是使用智能计算技术使得城市的关键基础设施的组成和服务更智能、互联和有效,随着智慧城市的建设,社会将步入“大数据”时代。”
(四)未来,改变一切
未来,企业会依靠洞悉数据中的信息更加了解自己,也更加了解客户。
数据的再利用:由于在信息价值链中的特殊位置,有些公司可能会收集到大量的数据,但他们并不急需使用也不擅长再次利用这些数据。例如,移动电话运营商手机用户的位置信息来传输电话信号,这对以他们来说,数据只有狭窄的技术用途。但当它被一些发布个性化位置广告服务和促销活动的公司再次利用时,则变得更有价值。
六、机遇和挑战
大数据赋予了我们洞察未来的能力,但同时诸多领域的问题亟待解决,最重要的是每个人的信息都被互联网所记录和保留了下来,并且进行加工和利用,为人所用,而这正是我们所担忧的信息安全隐患!更多的隐私、安全性问题:我们的隐私被二次利用了。多少密码和账号是因为“社交网络”流出去的?
眼下中国互联网热门的话题之一就是互联网实名制问题,我愿意相信这是个好事。毕竟我们如果明着亮出自己的身份,互联网才能对我们的隐私给予更好保护。