Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the advanced-cron-manager domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /www/wwwroot/www.help4uu.com/wp-includes/functions.php on line 6121
到底什么是数据(data)? | 科技云

到底什么是数据(data)?

什么是数据?

简单来说,数据是信息的一种载体。更严谨一点,我们也可以说,数据是客观世界中被记录、存储的原始符号或信息。

在目前我们所处的时代,通常所说的数据,都是指计算机系统里的那些文本、图片、音频、视频文件,那些二进制的 0 和 1。

到底什么是数据(data)?

整个计算机系统,甚至整个数字世界,都是围绕数据进行工作。CPU,计算数据。内存和硬盘,存储数据。通信网络,传递数据。

因此,在计算机科学中,数据被定义为:“所有能输入计算机并被程序处理的符号的总称”。

需要注意的是,数据本身是没有意义的,是未经加工的“原材料”。经过处理和分析之后,数据才能转化为有意义的信息。

也有人指出,信息是数据经过处理后的结果,是对数据的解释和赋予意义的产物。这句话虽然有点抽象(烧脑),但准确地表达了数据和信息之间的关系。

█ 数据的特性

数据有很多特性。小枣君初步统计了一下,就有 14 个,分别是 ——

符号性:数据以符号形式存在,例如数字,以及刚才提到的文字、图像、音频、视频等。

客观性:数据反映了现实世界事物的属性、状态、关系等情况。它是客观存在的,不随主观意志而改变。

量化性:数据通常以量化的形式存在,便于计数、测量和统计分析。

可比性:数据之间可以进行对比分析,通过比较可以揭示数据之间的关系和差异。

可传递性:数据可以通过各种方式进行传输,如电子文档、纸质报告等,使得信息能够在不同个体或组织间传递。

可存储性:数据可以被存储在数据库、文件系统或其他存储介质中,以便于未来的访问和使用。

可处理性:数据可以通过计算、分析、加工等手段进行处理,以提取有用信息或转化为知识。

多维度:数据可以从多个角度进行观察和分析,如时间、空间、类别等多个维度。

多样性:数据有多种多样的类别和形式,能够满足不同领域和需求。

时效性:数据可能随时间的推移而发生变化,某些数据在特定时间点之后可能失去价值或准确性。

可靠性:数据应该是可靠的,即数据的来源、收集方法和处理过程应该是可信的,以保证数据的准确性。

相关性:数据之间存在相关性,某些数据的变化可能会影响其他数据的表现。

可解释性:数据应该能够被解释和理解,其背后的意义和代表的现实世界情况应该清晰。

限制性:数据可能受到隐私、法律、伦理等因素的限制,使用数据时需要遵守相关规范。

到底什么是数据(data)?

以上这么多的特性,在现实情况中,并不能都满足。

例如,在追求数据时效性的同时,可能需要牺牲部分可存储性。因为实时数据的收集和处理,需要更高的空间和成本。

同样,为了提高数据的可靠性,可能需要投入更多的资源进行数据验证和清洗,这可能会增加数据处理的复杂性和时间成本。

总之,能够尽可能地满足更多特性的数据,就会被认为是高质量的数据。数据的价值,也就更大。在实际应用中,我们需要根据具体场景和需求,权衡数据的各个特性,加以利用。

█ 数据的分类方式

刚才在说数据特性的时候,提到数据有多样性的特点,也就是有多种形式和类别。

对数据有很多种分类方式。例如,现在最常用的,就是按结构进行分类,包括结构化数据、半结构化数据和非结构化数据。

结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。例如,一个班级所有人的年龄、一个超市所有商品的价格,这些都是结构化数据。

到底什么是数据(data)?

结构化数据

非结构化数据,指网页文章、邮件内容、图像、音频、视频等。

半结构化数据,介于结构化和非结构化数据之间。如 XML、JSON 等格式的数据,它们有一定的组织形式,但不如结构化数据那样严格。

目前,非结构化数据的占比是最高的。例如,在互联网领域里,非结构化数据的占比已经超过了 80%。

根据数据的来源,也可以分类。

例如,企业所产生的营销数据、业务系统数据、生产数据等,互联网行业所产生的社交内容数据、订单数据、用户数据等,政府部门所产生的社会治理数据、地理数据、经济数据,等等。

到底什么是数据(data)?

根据数据的性质,还可以分为定位数据(描述空间位置,如坐标)、定性数据(描述事物属性,如“阴雨天气”)、定量数据(反映数量特征,如长度、重量)、定时数据(记录时间特征,如日期、时刻)等。

总之,每种分类方式都有其特定的应用场景和价值。

了解数据的分类,有助于我们更好地理解数据的本质,以及如何在不同场景下有效地管理和利用数据。

█ 数据的度量方式

前面我们也提到,数据具有量化性的特点。也就是说,数据是可以度量的。

我们通常度量数据的单位,大家应该比较熟悉,就是 KB、MB、GB、TB 等。

我们传统 PC 和手机处理的数据,是 GB / TB 级别。例如,我们的硬盘,现在通常是 1TB / 2TB / 4TB 的容量。

在 TB 之上,还有 PB、EB、ZB 等。

TB、GB、MB、KB 的关系,如下:

1 KB = 1024 B  (KB – kilobyte)

1 MB = 1024 KB (MB – megabyte)

1 GB = 1024 MB (GB – gigabyte)

1 TB = 1024 GB (TB – terabyte)

1 PB = 1024 TB (PB – petabyte)

1 EB = 1024 PB (EB – exabyte)

1 ZB = 1024 EB (ZB – zettabyte)

只是看这几个字母的话,貌似不是很直观。我来举个例子吧。

1TB,只需要一块硬盘可以存储。容量大约是 20 万张照片或 20 万首 MP3 音乐,或者是 20 万部电子书。

到底什么是数据(data)?

1PB,需要大约 2 个机柜的存储设备。容量大约是 2 亿张照片或 2 亿首 MP3 音乐。如果一个人不停地听这些音乐,可以听差不多两千年。

1EB,需要大约 2000 个机柜的存储设备。如果并排放这些机柜,可以连绵 1.2 公里那么长。如果摆放在机房里,需要 21 个标准篮球场那么大的机房,才能放得下。

阿里百度腾讯这样的互联网巨头,数据量据说已经接近 EB 级。目前全人类的数据量,是 ZB 级。

到底什么是数据(data)?

数据中心

根据 IDC 的数据,在 2020 年,全球创建、捕获、复制和消耗的数据总量约为 64ZB。而到了 2025 年,全球数据总量可能会达到惊人的 163ZB。如果建一个机房来存储这些数据,那么,这个机房的面积将比 196 个鸟巢体育场还大。

█ 数据的产生阶段

人类社会的数据体量不仅大,增长速度也很快 —— 每年增长 50%。也就是说,每两年就会增长一倍多。

为什么会如此之快?

说到这里,就要回顾一下人类社会数据产生的三个重要阶段。

第一个阶段,是 1940-1990 年。

计算机和数据库被发明之后,数据管理的复杂度大大降低。各行各业开始产生了计算机数据,并记录在数据库中。这时的数据,以结构化数据为主(待会解释什么是结构化数据)。数据的产生方式,是被动的。

第二个阶段,是 1990-2010 年。

伴随着互联网的爆发,网络内容开始迅速增长,增加了很多的专业输出内容(PGC)。Web2.0 出现后,人们开始使用博客、facebook、youtube 这样的社交网络,输出大量的用户原创内容(UGC),从而主动产生了大量的数据。移动智能终端时代的到来,也加速了该阶段数据的产生。

第三个阶段,是 2010 年至今。

随着物联网的发展,各种各样的感知层节点(例如遍布各个角落的传感器、摄像头)开始自动产生大量的数据。企业的数字化转型,构建了大量的系统,沉淀和管理这些数据。人类的数据总量,再次跃升。

到底什么是数据(data)?

经过了“被动-主动-自动”这三个阶段的发展,最终导致了人类数据总量的爆炸式膨胀。

值得一提的是,如今,随着我们逐渐进入 AI 智能时代,很可能会迎来第四次数据暴增阶段。以 AIGC 为代表的智能机器生产内容,正在急剧增加。

█ 数据的作用和意义

数据是信息的载体。它的最基础作用,就是记录和表征。

例如,考勤数据,记录了员工每天的上下班时间、请假、迟到、早退等信息。这些数据不仅帮助我们了解员工的出勤情况,还能进一步分析员工的工作效率、团队协作以及可能存在的管理问题。

再例如,体检数据,记录了我们的身高、体重、血压、血糖等各项生理指标。这些数据不仅有助于我们了解自身的健康状况,还能及时发现潜在的健康问题,为预防和治疗疾病提供重要依据。

到底什么是数据(data)?

除了个人工作和生活领域之外,在科学、商业和公共管理领域,都有对应的系统和数据。这个数据的体量更大,甚至达到了大数据的级别。

通过深入挖掘和分析海量的数据,企业和政府部门可以找到隐藏在数据背后的规律和趋势,为未来的发展和决策提供有力的支持。

到底什么是数据(data)?

在科学领域,实验数据、观测数据、模拟数据等构成了科学研究的基础。这些数据不仅帮助科学家验证理论、发现新现象,还能推动科学技术的进步和创新。

例如,天文学中的天文观测数据,记录了星系的运动、恒星的诞生和消亡等宇宙现象,这些数据为理解宇宙的起源和演化提供了重要线索。

到底什么是数据(data)?

在商业领域,销售数据、客户数据、市场数据等是企业运营和决策的重要依据。通过分析这些数据,企业可以了解市场需求、优化产品设计、提升客户满意度,从而制定更为精准的市场策略和商业计划。

例如,电商平台通过分析用户的购买历史和浏览行为,可以为用户推荐更为符合其需求的商品,提升用户的购物体验和平台的销售额。

到底什么是数据(data)?

在公共管理领域,政府数据、公共服务数据、社会调查数据等是政策制定和实施的基础。这些数据不仅帮助政府了解社会现状、预测发展趋势,还能为政策评估和优化提供依据。

例如,通过分析交通流量数据,政府可以合理规划交通路线、优化公共交通服务,从而缓解城市交通拥堵问题。

到底什么是数据(data)?

█ 最后的话

总而言之,数据在目前这个时代,已经变成了重要的无形资产,也被称为“新石油”。

从个人生活到全球治理,数据都扮演着不可或缺的角色,已成为驱动效率提升、科学发现和社会进步的核心资源。

最近几年愈演愈烈的 AI 浪潮,进一步推动了数据的价值提升。人工智能的三要素,其中一项,就是数据(另外两个是算力和算法)。数据作为 AI 的“燃料”,其质量和数量直接决定了 AI 系统的性能和准确性。

未来,随着数据规模的指数级增长和技术的持续突破,数据的价值将进一步释放。

好啦,以上就是关于数据的基本常识。大家都搞明白了嘛?

本文来自微信公众号:鲜枣课堂(ID:xzclasscom),作者:小枣君

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

文章来源于互联网:IT之家-到底什么是数据(data)?

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注