区分结构化数据、非结构化数据与半结构化数据

发布时间 :2023年12月08日

 【导读】非结构化数据就是结构化数据之外的一切数据。

 

  相对于结构化数据而言,非结构化数据(Unstructured Data)的数据结构不规则或不完整,它不符合任何预定义的模型,简单地说,非结构化数据就是字段可变的数据。

 

 

  非结构化数据不方便用数据库二维逻辑表来表现,没有像结构化数据那样统一的查询语言,每一种存储非结构化数据的系统都有自己特有的查询语言。非结构化数据可以是人为生成的或机器生成的,也可以是文本的或非文本的。

 

 【1】典型的人为生成的非结构化数据来自:

  1、文本文件:文字处理、电子表格、演示文稿、日志等;

  2、社交媒体:来自新浪微博、微信、QQ、脸书、推特、领英等平台的数据;

  3、网站:YouTubeInstagram、照片共享网站等;

  4、 移动数据:短信、位置等;

  5、通讯:聊天、即时消息、电话录音、协作软件等;

  6、多媒体:MP3、数码照片、音频文件、视频文件等;

 

 【2】典型的机器生成的非结构化数据来自:

  1、卫星图像:天气、地形、军事活动等数据;

  2、科学数据:石油和天然气勘探、空间勘探、地震图像、大气数据等;

  3、数字监控:监控照片和视频等;

  4、传感器数据:交通、天气、海洋传感器等。

      

  世界上大多数的数据是以非结构化数据的形式存在。收集、处理和分析非结构化数据是一项重大挑战。在很多知识库系统中,为了查询大量积累下来的文档,需要从PDFWordRtfExcelPowerPoint等格式的文档中提取可以描述文档的文字,这些描述性的信息包括文档标题、作者、主要内容等,这就是非结构化数据的采集过程。

 

  目前对结构化数据存在成熟的分析工具,但用于挖掘非结构化数据的分析工具正处于萌芽和发展阶段。现阶段,结构化数据和非结构化数据的区别,除了分别存储在关系数据库和非关系数据库之外,就在于分析的便利性。

 

 

 

  在结构化数据和非结构化数据之间,还存在一种半结构化数据的类型,其处理的便利性介于结构化与非结构化数据之间。

 

  半结构化数据,虽不完全符合关系型数据库的模型结构,但包含相关标记,可以用来分隔语义元素以及对记录和字段进行分层。半结构化数据常见的类型有:日志文件、XML文档、JSON文档、电子邮件(Email)等。比如,Email由于其元数据具有一些稳定的内部结构,可有一定程度的结构化,但是,消息字段是非结构化的,传统的分析工具无法解析它,因此,我们可将其称为半结构化数据。

 

  一起来看下为什么电子邮件属于半结构化数据。

 

  圣诞节快到了,小美妈妈决定给认识的小伙伴们都发一封祝福的电子邮件。每封电子邮件都必须填写邮件主题、收件人、发件人等信息,这些信息都有固定的格式。例如,收发主题中都必须有@符,这些就是结构化的信息。然而,针对每位朋友,小美妈妈想送去的圣诞祝福是不一样的,需要用不一样的文字语言进行表达,这些文字就写在邮件的正文部分。这些洋洋洒洒的文字相较于前面的内容,形式是比较自由的,属于非结构化数据。

综上情况,数据是结构化还是非结构化,并没有非常明确而严格的界限,取决于使用者要怎么去分析和使用这个数据。以电子邮件来看,如果使用者并不关心邮件的正文内容,即把正文都看成是文本,那么整个邮件都可以认为是结构化的。但如果是想从邮件正文中挖掘出某些有用的信息,正文文本就是非结构化的。

 

  【扩展概念】

 

  非关系型数据库:它的出现是为了弥补关系型数据库因为事务等机制带来的对海量数据、高并发请求的处理在性能上的欠缺。具有如下优点:

 

  1、易扩展,虽然非关系型数据库种类繁多,但是一个共同的特点就是去掉了关系型数据库的关系型特性,数据之间无关系,这样就非常容易扩展,无形之间也在架构层面带来了可扩展的能力;

 

  2、大数据量与高性能,非关系型数据库都具有非常高的读写性能,尤其在大数据量下也表现优秀,这同样得益于它的无关系性,数据库结构简单。

建设数据分析与决策智能业的中国典范
XML 地图