什么是大报告概念?大报告概念的由来
大报告(bigdata),指无法在一定时间规模内用常规软件工具执行捕捉、管理和处理的报告集合,是需要新处理模式才可具有更强的决策力、洞察发现力和流程优化能力的海量、高上涨率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编撰的《大报告时代》中大报告指不用随机分析法(抽样调查)如此捷径,而采取所有报告执行分析处理。大报告的5V特点(IBM提出):Volume(大批)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
对于“大报告”(Bigdata)研究机构Gartner给出了如此的定义。“大报告”是需要新处理模式才可具有更强的决策力、洞察发现力和流程优化能力来适应海量、高上涨率和多样化的信息资产。
麦肯锡世界研究所给出的定义是:一种范围大到在获取、存储、管理、分析方面大大多出了传统报告库软件工具能力规模的报告集合,具有海量的报告范围、迅速的报告流转、多样的报告类型和价值密度低四大特质。
大报告技术的战略意义不在于掌握庞大的报告信息,而在于对这些含故意义的报告执行专业化处理。换来说之,假使把大报告比作一种产业,那么该种产业达到盈利的核心,在于提升对报告的“加工能力”,通过“加工”达到报告的“升值”。
从技术向上瞧,大报告与云计算的关系就像一枚硬币的正反面一样密不可分。大报告必然无法用单台的计算机执行处理,务必采取分布式架构。它的特色在于对海量报告执行分布式报告挖掘。但它务必依托云计算的分布式处理、分布式报告库和云存储、虚拟化技术。
伴随云时代的到来,大报告(Bigdata)也吸引了逐渐增多的关注。分析专员团队觉得,大报告(Bigdata)一般用来形容一个公司创造的大批非结构化报告和半结构化报告,该数据在下载到关系型报告库用于分析时会花费过多时间和金钱。大报告分析常和云计算联系到一起,由于实时的大型报告集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大报告需要特殊的技术,以有效地处理大批的容忍经历时期内的报告。适用于大报告的技术,包含大范围并行处理(MPP)报告库、报告挖掘、分布式文件系统、分布式报告库、云计算平台、互联网和可扩展的存储系统。
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。