跳转到内容

数据

来自轻之舟百科

数据

数据
中文名 数据
英文名 Data
拉丁语单数 Datum
相关概念 信息、知识

数据(拉丁语复数:Data,单数:Datum)是指对事件、对象或现象的记录,通常以符号序列的形式呈现,可在特定介质中存储、检索、传输或处理[1]。数据本身不包含上下文含义,需要通过解释才能转化为信息[2][3]。在现代计算系统中,数据主要以二进制数字形式存在,即使用比特(bit)表示的两个状态(0和1)[4]。数据是计算机科学、统计学、信息科学及人工智能等领域的基础概念。

定义与表示

[编辑 | 编辑源代码]

数据与信息的区别

[编辑 | 编辑源代码]

数据与信息常被混淆使用,但二者存在明确的区别。数据是未经加工的原始记录,是事实和数字的集合,本身不具备特定语境或含义[3]。当数据经过处理、组织并赋予上下文后,才转变为信息[1]。例如,数字序列“151216”本身是数据,但当被解释为“2016年12月15日”时则成为信息[3]

美国国家标准与技术研究院(NIST)将数据定义为“以特定表示形式存在的信息,通常为具有含义的符号序列”[2]。数据可以是模拟形式或数字形式,但自1960年代以来,数字数据因其在设备工程中的便利性以及抗噪能力而几乎成为通用标准[1][4]

数字表示

[编辑 | 编辑源代码]

数字数据使用二进制数字系统表示,由比特(bit)作为基本单位,每个比特只能取0或1两种状态[4]。多个比特组合可表示更复杂的信息,如字符、数字、图像和声音等[3]。来自模拟设备(如温度传感器)的数据可通过模数转换器转换为数字数据。

计量单位

[编辑 | 编辑源代码]

比特与字节

[编辑 | 编辑源代码]

数据的最小存储单位是比特(bit,Binary digit的缩写),其值为0或1[3]。4个比特组成一个“半字节”(nibble)。8个比特组成一个字节(byte)[3],字节是计算机系统中常用的基本数据单位,通常用于表示一个字符(如字母、数字或符号)。

存储单位

[编辑 | 编辑源代码]

数据存储的较大单位包括千字节(KB)、兆字节(MB)、吉字节(GB)、太字节(TB)、拍字节(PB)等。存在两套标准体系[5]

  • 十进制单位(SI,基于1000的幂次):1 KB = 1,000 字节,1 MB = 1,000,000 字节,1 GB = 10⁹ 字节,1 TB = 10¹² 字节,1 PB = 10¹⁵ 字节[5]
  • 二进制单位(IEC,基于1024的幂次,由IEC 80000-13标准于1999年定义):1 KiB = 1,024 字节,1 MiB = 1,048,576 字节,1 GiB = 1,073,741,824 字节,1 TiB = 1,099,511,627,776 字节[5][3]

数据类型

[编辑 | 编辑源代码]

在计算机科学和数据处理领域,数据可按类型分类[3]

  • 数值型:包括整数(integer,即正整数或负整数)和实数(real number,包含小数点的数值)[3]
  • 字符型:包括字母、数字和符号等字符数据,以及由多个字符组成的字符串(string)[3]
  • 日期/时间型:用于存储日期和时间信息,格式多样,如2026-06-08或21:12:05等[3]

在统计学中,数据主要分为两类[6][7]

  • 定性数据(也称分类数据):描述属性或类别,采用非数值形式,如发色、血型、种族等[6]
  • 定量数据:以数值形式表示的测量数据,可进一步分为离散数据(如兄弟姐妹数量、房屋房间数,可数有限值)和连续数据(如身高、体重、时间,在实数范围内可取任意值)[6]

数据生命周期

[编辑 | 编辑源代码]

数据生命周期指数据从产生到最终销毁或归档所经历的完整流程[8][9]。典型的数据生命周期包括以下核心阶段:数据采集、数据存储、数据处理、数据分析、数据共享与部署、数据归档或销毁[8][9]。数据生命周期管理(DLM)涉及管理数据在各阶段流动的策略、工具和流程,旨在确保数据质量、安全性和合规性[9]

大数据

[编辑 | 编辑源代码]

Template:Main 大数据是指规模庞大、类型多样、生成速度快的数据集合,传统数据处理工具难以有效管理。大数据的特征通常用“V”来描述,常见的4Vs包括[10][11]

  • 数据容量(Volume) :数据集的规模巨大,通常以TB、PB甚至EB计。例如,大型社交平台每日处理的数据量可达数PB[11]
  • 数据速度(Velocity)**:数据生成和处理的速度,要求实时或近实时响应,如社交媒体消息流或金融交易检测[10][11]
  • 数据种类(Variety)**:数据来源和格式的多样性,包括结构化数据(如SQL数据库)、半结构化数据(如JSON)和非结构化数据(如图像、音视频、日志)[10][11]
  • 数据真实性(Veracity)**:数据质量和可信度,涉及噪声数据、缺失值和数据一致性问题[10]。另可扩展出第五V——“数据价值(Value)”,指从数据中提炼有意义的洞察[11]

数据隐私与保护

[编辑 | 编辑源代码]

随着数据收集和处理能力的提升,数据隐私成为日益重要的议题。欧盟于2018年正式实施的《通用数据保护条例》(GDPR)是全球范围内影响最深远的个人数据保护法规之一[12]。GDPR确立了数据处理的基本原则,包括合法性、公平性和透明度;目的限制;数据最小化;准确性;存储限制;完整性与保密性等[12]。截至2026年,欧盟数据保护机构已累计开出超过80亿欧元的罚单,超过70万家组织注册了数据保护官(DPO)[12]

数据可视化

[编辑 | 编辑源代码]

Template:Main 数据可视化是将数据以图表、地图、信息图或其他图形形式呈现的过程,旨在使复杂数据更易于理解、分析和行动[13][14]。数据可视化是商业智能和数据科学工作流中的关键环节,帮助分析师发现数据中的模式、趋势和异常值,验证分析模型,并向决策者有效传达发现[14]。《哈佛商业评论》将数据可视化归纳为四个主要用途:创意生成、创意说明、视觉发现和日常数据可视化[13]

在人工智能中的应用

[编辑 | 编辑源代码]

数据是人工智能(AI)和机器学习(ML)模型的基础。训练数据(Training Data)是指用于调整模型内部参数、让AI学习识别模式和进行预测的示例集合[15]。训练数据可包含文本、图像、音频、代码等多种形式,包括有标签数据(用于监督学习,即输入与正确输出配对)和无标签数据(用于无监督学习,模型自行发现隐藏结构)两大类[15]

AI就绪研究数据生命周期包含采集、整理、转换、划分、建模和发布六个阶段,其中每个阶段的决策都会影响下游模型的行为,并可能在过程中引入偏差或错误[16]。大数据集的规模与多样性直接影响模型的表现,而数据质量和标签准确性对模型可靠性至关重要[15]

参考文献

[编辑 | 编辑源代码]