一、大数据概念
大数据,并非单纯指大量数据,它是无法在一定时间内用常规软件工具处理的数据集合。这些数据需新处理模式,以赋予企业更强决策力、洞察发现力和流程优化能力,是海量、高增长且多样化的信息资产 。大数据主要解决海量数据的采集、存储和分析计算问题。
数据存储单位从最小的bit开始,依次是Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB 。它们之间存在特定换算关系,如1 Byte等于8 bit,1KB等于1024 Byte,后续单位也以1024倍递增。
二、大数据的四大显著特点(4V)
1. Volume(大量)
人类生产的印刷材料数据量达200PB,全人类说话数据量约5EB。如今,个人计算机硬盘容量多为TB级,大企业数据量更是接近EB量级,数据规模庞大。
2. Velocity(高速)
这是大数据与传统数据挖掘的显著区别。据IDC报告,2025年全球数据使用量将达163ZB。像天猫双十一,2017年3分01秒交易额超100亿,2020年缩短至96秒,数据处理效率关乎企业存亡。
3. Variety(多样)
数据类型丰富多样,包括结构化和非结构化数据。非结构化数据如网络日志、音视频、图片和地理位置信息等日益增多,对数据处理能力提出更高要求。
4. Valu