第一章 绪论

数据处理应用实例

关系数据库应用实例

  • 搜索引擎:谷歌、百度
  • 即时通信、多媒体娱乐:微信、抖音
  • 信息管理
  • 位置服务

广域网大型关系数据库应用

州执照颁发和汽车登记局
  • 用户(共享数据库)
    • 52个州执照颁发和汽车登记局
      • 查询驾驶员交通违章、事故或被逮捕的情况
      • 驾驶员考试、颁发与更新驾驶员执照
    • 37个销售汽车牌照的工作室
      • 确定某辆汽车以前是否登记过
    • 州税务局和执法部门
      • 核查相关数据
  1. 所有工作数据来源于一个数据库
  2. 数据库庞大而且复杂,拥有40多个不同的表,其中的某些表包括数十万行数据

Web环境数据库应用

Calvert岛预定中心
  • Calvert岛要在网上发布旅游信息介绍

  • 具体需求

    1. 宣传岛上特色和娱乐机会
    2. 保存Web站点访问者姓名和地址
    3. 保存游客需求,将其传递给相应商家
  • 宣传资料库(只读浏览、维护)

  • 处理顾客和预定数据库

  • 包含结构数据及多媒体数据

  • 应用内容通过标准浏览器传递给用户

  • 通过HTTP、DHTML、XML这样的Internet标准传输数据

关系数据库与数据处理新技术应用实例

大数据分析

互联网搜索问题

搜索 :一种定位你所关心的信息的行为
互联网搜索:信息库是整个互联网,搜索词是在搜索框中输入的内容

  • 需求:用户提交搜索内容,得到相关网页

  • 实现

    • 数据库:整个互联网,每页一行
    • 应用系统(内容服务提供商):生成数据库(爬虫添加数据库,建立索引)
  • 特点

    1. PB级大规模海量数据
    2. 数据不规则,非结构化
    3. 不适用于传统关系数据库
  • NoSQL、NewSQL

关系数据库、大数据、知识图谱

数据类型及数据等级

数据类型:

  • 结构化数据:
    • 能用统一的结构加以表示
    • 如数字、符号
    • 通常存储在数据库里,可以用二维表结构来逻辑表达
  • 非结构化数据:
    • 无法用统一的结构表示
    • 如文本、图像、声音、网页等
  • 半结构化数据:
    • 介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据
    • 如HTML文档就属于半结构化数据,它一般是自描述的,数据的结构和内容混在一起,没有明显的区分

传统数据库分析数据流程

database1

定量数据与定性数据

定量数据

  • 本质上是数值,是衡量某样东西的数量
  • 又称硬数据,通常本质是结构化的
  • 可以存储在关系数据库中快速组织和搜索

定性数据

  • 本质上是类别,描述某样东西的性质
  • 又称软数据,通常是非结构化数据或半结构化,是描述性的和概念性的
  • 根据特性、属性、标签和其他标识符进行分类
  • 关系数据库、NoSQL都可以处理

定量数据与定性数据的区别和联系

  • 定量数据和定性数据是相辅相成的,因此通常首选定量数据进行数据分析。将软数据和硬数据结合,软硬结合可以使我们做出正确的假设并获得正确的见解
  • 今天的降雨量是定量,今天的天气是晴天还是阴天是定性
  • 数据可能同时是定量和定性,如餐厅评分,虽然是数值,但是这个数也可以代表类别

数据处理技术发展

数据库技术的产生与发展

数据管理技术

  • 数据库技术是数据管理的技术
  • 数据管理:对数据进行分类、组织、编码、存储、检索和维护,是数据处理的中心问题
  • 数据管理技术的发展动力
    • 应用需求的推动
    • 计算机硬件的发展
    • 计算机软件的发展

数据管理技术的目标

  • 数据独立性(数据重复使用、程序重复使用)
    • 物理独立性:数据与存储之前独立
    • 逻辑独立性:数据与应用之间独立
  • 数据共享(降低数据的冗余度,节省存储空间,避免数据间的不一致性)
    • 多用户
    • 多应用

数据处理技术相关概念

数据、数据库、数据库系统、数据库管理系统

  1. **数据(data)**:用符号记录下来的可以加以鉴别的信息
  2. **数据库(DB)**:通用化的相关数据集合,它不仅包括数据本身,而且包括关于数据之间的关系。
  3. **数据库管理系统(DBMS)**:为数据库的建立、使用和维护而配置的软件
  4. 数据库应用系统:利用数据库管理数据的信息管理系统
  5. 数据库系统(DBS):计算机系统中引入数据库后的系统构成。