數據
數據
| 數據 | |
|---|---|
| 中文名 | 數據 |
| 英文名 | Data |
| 拉丁語單數 | Datum |
| 相關概念 | 信息、知識 |
數據(拉丁語複數:Data,單數:Datum)是指對事件、對象或現象的記錄,通常以符號序列的形式呈現,可在特定介質中存儲、檢索、傳輸或處理[1]。數據本身不包含上下文含義,需要通過解釋才能轉化為信息[2][3]。在現代計算系統中,數據主要以二進制數字形式存在,即使用比特(bit)表示的兩個狀態(0和1)[4]。數據是計算機科學、統計學、信息科學及人工智慧等領域的基礎概念。
數據與信息常被混淆使用,但二者存在明確的區別。數據是未經加工的原始記錄,是事實和數字的集合,本身不具備特定語境或含義[3]。當數據經過處理、組織並賦予上下文後,才轉變為信息[1]。例如,數字序列「151216」本身是數據,但當被解釋為「2016年12月15日」時則成為信息[3]。
美國國家標準與技術研究院(NIST)將數據定義為「以特定表示形式存在的信息,通常為具有含義的符號序列」[2]。數據可以是模擬形式或數字形式,但自1960年代以來,數字數據因其在設備工程中的便利性以及抗噪能力而幾乎成為通用標準[1][4]。
數字數據使用二進制數字系統表示,由比特(bit)作為基本單位,每個比特只能取0或1兩種狀態[4]。多個比特組合可表示更複雜的信息,如字符、數字、圖像和聲音等[3]。來自模擬設備(如溫度傳感器)的數據可通過模數轉換器轉換為數字數據。
數據的最小存儲單位是比特(bit,Binary digit的縮寫),其值為0或1[3]。4個比特組成一個「半字節」(nibble)。8個比特組成一個字節(byte)[3],字節是計算機系統中常用的基本數據單位,通常用於表示一個字符(如字母、數字或符號)。
數據存儲的較大單位包括千字節(KB)、兆字節(MB)、吉字節(GB)、太字節(TB)、拍字節(PB)等。存在兩套標準體系[5]:
- 十進制單位(SI,基於1000的冪次):1 KB = 1,000 字節,1 MB = 1,000,000 字節,1 GB = 10⁹ 字節,1 TB = 10¹² 字節,1 PB = 10¹⁵ 字節[5]。
- 二進制單位(IEC,基於1024的冪次,由IEC 80000-13標準於1999年定義):1 KiB = 1,024 字節,1 MiB = 1,048,576 字節,1 GiB = 1,073,741,824 字節,1 TiB = 1,099,511,627,776 字節[5][3]。
在計算機科學和數據處理領域,數據可按類型分類[3]:
- 數值型:包括整數(integer,即正整數或負整數)和實數(real number,包含小數點的數值)[3]。
- 字符型:包括字母、數字和符號等字符數據,以及由多個字符組成的字符串(string)[3]。
- 日期/時間型:用於存儲日期和時間信息,格式多樣,如2026-06-08或21:12:05等[3]。
- 定性數據(也稱分類數據):描述屬性或類別,採用非數值形式,如發色、血型、種族等[6]。
- 定量數據:以數值形式表示的測量數據,可進一步分為離散數據(如兄弟姐妹數量、房屋房間數,可數有限值)和連續數據(如身高、體重、時間,在實數範圍內可取任意值)[6]。
數據生命周期指數據從產生到最終銷毀或歸檔所經歷的完整流程[8][9]。典型的數據生命周期包括以下核心階段:數據採集、數據存儲、數據處理、數據分析、數據共享與部署、數據歸檔或銷毀[8][9]。數據生命周期管理(DLM)涉及管理數據在各階段流動的策略、工具和流程,旨在確保數據質量、安全性和合規性[9]。
Template:Main 大數據是指規模龐大、類型多樣、生成速度快的數據集合,傳統數據處理工具難以有效管理。大數據的特徵通常用「V」來描述,常見的4Vs包括[10][11]:
- 數據容量(Volume) :數據集的規模巨大,通常以TB、PB甚至EB計。例如,大型社交平台每日處理的數據量可達數PB[11]。
- 數據速度(Velocity)**:數據生成和處理的速度,要求實時或近實時響應,如社交媒體消息流或金融交易檢測[10][11]。
- 數據種類(Variety)**:數據來源和格式的多樣性,包括結構化數據(如SQL資料庫)、半結構化數據(如JSON)和非結構化數據(如圖像、音視頻、日誌)[10][11]。
- 數據真實性(Veracity)**:數據質量和可信度,涉及噪聲數據、缺失值和數據一致性問題[10]。另可擴展出第五V——「數據價值(Value)」,指從數據中提煉有意義的洞察[11]。
隨著數據收集和處理能力的提升,數據隱私成為日益重要的議題。歐盟於2018年正式實施的《通用數據保護條例》(GDPR)是全球範圍內影響最深遠的個人數據保護法規之一[12]。GDPR確立了數據處理的基本原則,包括合法性、公平性和透明度;目的限制;數據最小化;準確性;存儲限制;完整性與保密性等[12]。截至2026年,歐盟數據保護機構已累計開出超過80億歐元的罰單,超過70萬家組織註冊了數據保護官(DPO)[12]。
Template:Main 數據可視化是將數據以圖表、地圖、信息圖或其他圖形形式呈現的過程,旨在使複雜數據更易於理解、分析和行動[13][14]。數據可視化是商業智能和數據科學工作流中的關鍵環節,幫助分析師發現數據中的模式、趨勢和異常值,驗證分析模型,並向決策者有效傳達發現[14]。《哈佛商業評論》將數據可視化歸納為四個主要用途:創意生成、創意說明、視覺發現和日常數據可視化[13]。
數據是人工智慧(AI)和機器學習(ML)模型的基礎。訓練數據(Training Data)是指用於調整模型內部參數、讓AI學習識別模式和進行預測的示例集合[15]。訓練數據可包含文本、圖像、音頻、代碼等多種形式,包括有標籤數據(用於監督學習,即輸入與正確輸出配對)和無標籤數據(用於無監督學習,模型自行發現隱藏結構)兩大類[15]。
AI就緒研究數據生命周期包含採集、整理、轉換、劃分、建模和發布六個階段,其中每個階段的決策都會影響下游模型的行為,並可能在過程中引入偏差或錯誤[16]。大數據集的規模與多樣性直接影響模型的表現,而數據質量和標籤準確性對模型可靠性至關重要[15]。
- ↑ 1.0 1.1 1.2 Distinctions between data and information: Data | American Association for the Advancement of Science (AAAS)
- ↑ 2.0 2.1 data - Glossary | CSRC, National Institute of Standards and Technology (NIST)
- ↑ 3.00 3.01 3.02 3.03 3.04 3.05 3.06 3.07 3.08 3.09 3.10 Factfile: GCSE Digital Technology Unit 1 – Digital Data, CCEA
- ↑ 4.0 4.1 4.2 Data (computing) | TheFreeDictionary
- ↑ 5.0 5.1 5.2 DataSizeUnit | docs.rs
- ↑ 6.0 6.1 6.2 2.2: Types of Data | Statistics LibreTexts
- ↑ Sampling and Data | FRCC Intro to Statistics Custom
- ↑ 8.0 8.1 Data lifecycle: 6 core stages, use cases & tips | Twilio
- ↑ 9.0 9.1 9.2 Data life cycle: Stages, importance, and best practices | RudderStack
- ↑ 10.0 10.1 10.2 10.3 The Four V's of Big Data | Enterprise Big Data Framework
- ↑ 11.0 11.1 11.2 11.3 11.4 What are the key characteristics of big data (3Vs or 5Vs)? | Milvus
- ↑ 12.0 12.1 12.2 10 years GDPR: A Decade of Europe's Top Privacy Law | GDPR Local
- ↑ 13.0 13.1 What is Data Visualization? | IBM
- ↑ 14.0 14.1 What Is Data Visualization and Why Is It Important? | TechTarget
- ↑ 15.0 15.1 15.2 Training Data - AI Glossary | Geekflare
- ↑ AI-ready Research Data: AI-ready Dataset Lifecycle | Carnegie Mellon University Library