《大话数据结构》学习笔记
第一章 绪论
基本概念
数据:描述客观事物的符号,是计算机中可以操作的对象,是能被计算机识别并输入给计算机处理的符号集合。
数据元素:是组成数据的、有一定意义的基本单位,通常作为整体处理。
数据项:一个数据元素由若干个数据项组成。数据项是数据不可分割的最小单位。
数据对象:性质相同的数据元素的集合,是数据的子集。通常简称为数据。
数据结构:是相互之间存在一种或多种特定关系的数据元素的集合。
数据 | |||||||
---|---|---|---|---|---|---|---|
数据对象 | |||||||
数据元素 | 数据元素 | 数据元素 | 数据元素 | ||||
数据项1 | 数据项2 | 数据项1 | 数据项2 | 数据项1 | 数据项2 | 数据项1 | 数据项2 |
逻辑结构与物理结构
逻辑结构是面向问题的,物理结构(存储结构)是面向计算机的,其基本目标就是将数据及其逻辑关系存储到计算机的内存中。
逻辑结构
逻辑结构:数据对象中数据元素之间的相互关系。
集合结构
各个数据是平等的,同属于一个集合。
线性结构
数据元素之间是一对一的关系
树形结构
数据元素之间是一对多的层次关系
图形结构
数据元素是多对多的关系
物理结构
物理结构(存储结构):数据的逻辑结构在计算机中的存储形式。
数据元素的存储结构有两种:顺序存储和链式存储。
顺序存储结构
把数据元素存放在地址连续的存储单元里,其数据间的逻辑关系和物理关系是一致的。e.g.数组。
链式存储结构
把数据结构存放在任意的存储单元里,这组存储单元可以是连续的也可以是不连续的。因为数据元素的存储关系不能反映其逻辑关系,所以需要用一个指针存放数据元素的地址,通过地址就能找到相关联元素的位置。
抽象数据类型
数据类型
数据类型指一组性质相同的值的集合及定义在此集合上的一些操作的总称。
数据类型是按照值的不同进行划分的。在高级语言中,每个变量、常量和表达式都有各自的取值范围。类型就用来说明变量或表达式的取值范围和能进行的操作。
数据类型可以分为两类:
原子类型:不可再分的基本类型。e.g.整型、字符型等。
结构类型:由若干个类型组合而成,可以再分。e.g.整型数组。
抽象数据类型
抽象数据类型(Abstract Data Type,ADT):一个数学模型及其定义在该模型上的一组操作。抽象数据类型的定义仅取决于它的一组逻辑特性,与其在计算及内部如何表示和实现无关。
“抽象”的意义在于数据类型的数学抽象特性。整型等已经定义并实现的数据类型、计算机编程者在设计软件程序时自己定义的数据类型、定义在模型上的操作,都属于抽象数据类型。
一个抽象数据类型定义了:一个数据对象、数据对象中各数据元素之间的关系以及对数据元素的操作。
抽象数据类型体现了程序设计中问题分解、抽象和信息隐藏的特性。它可以把实际生活中的问题分解为多个规模小且容易处理的问题,然后建立一个计算机能处理的数据模型,并把每个功能模块的实现细节作为一个独立的单元,从而使具体过程隐藏起来。
描述抽象数据类型的标准格式如下:
1 | ADT 抽象数据类型名 |
第二章 算法
算法是解决特定问题求解步骤的描述,在计算机中表现为指令的优先序列,并且每条指令表示一个或多个操作。
算法的特性
算法有五个基本特性:输入、输出、有穷性、确定性和可行性。
输入输出
算法有零个或多个输入,至少有一个输出
有穷性
算法的有穷性指算法在执行有限步骤之后会自动结束而不会出现无限循环,并且每个步骤在可接受的时间完成。
确定性
算法的确定性是指算法的每一步骤都具有确定的含义,不会出现二义性。
算法在一定条件下只有一条执行路径,相同的输入只能有唯一的输出结果。算法的每个步骤被精确定义而没有歧义。
可行性
算法的可行性是指算法每一步都必须是可行的,也就是说每一步都能通过执行有限次数完成。
算法设计的要求
正确性
算法的正确性是指算法至少应该具有输入、输出和加工处理无歧义、能正确反映问题的需求,能够得到问题的正确答案。
可读性
算法设计的另一目的是为了便于阅读、理解和交流。
健壮性
指输入数据不合法时,算法也能做出相关处理而不是产生异常或莫名其妙的结果。
时间效率高和存储量低
时间效率:算法的执行时间。
存储量:算法在执行过程中需要的最大存储空间。
算法效率的度量方法
事后统计方法
主要通过设计好的测试程序和数据,利用计算机计时器对不同算法编制的程序的运行时间进行比较,从而确定算法效率的高低。缺陷较多不使用。
事前分析估算方法
在计算机程序编制前,依据统计方法对算法进行估算。
一个程序在计算机上运行的时间取决于下列因素:
- 算法使用的策略、方法。
- 编译产生的代码质量。
- 问题的输入规模。
- 机器执行指令的速度。
测定运行时间最可靠的方法就是计算对运行时间有消耗的基本操作的执行次数,运行时间与这个计数成正比。
在分析程序的运行时间时,最重要的是把程序看成是独立于程序设计语言的算法或一系列步骤,把基本操作的数量与输入规模关联起来。
算法的时间复杂度
定义
在进行算法分析时,语句总的执行次数T(n)是关于问题规模n的函数,进而分析T(n)随着n的变化情况并确定T(n)的数量级。算法的时间复杂度,也就是算法的时间量度,记作:**T(n) = O(f(n))
**。它表示随问题规模n的增大,算法执行时间的增长率和f(n)的增长率相同,称算作算法的渐进时间复杂度,简称为复杂度。其中f(n)是问题规模n的某个函数。
推导方法
- 用常数
1
取代运行时间中的所有加法常数。 - 在修改后的运行次数函数中只保留最高阶项。
- 如果最高阶项存在且不是
1
,则去除与这个项相乘的常数 - 得到的结果就是时间复杂度。
常数阶
1 | int sum = 0, n = 100; |
运行次数函数是f(n) = 3
,无最高阶项所以时间复杂度为O(1)
。这种与n大小无关的算法,成为常数阶,时间复杂度为1,即为O(1)
。
线性阶
要分析算法的复杂度,关键就是要分析循环结构的运行情况。
1 | for (int i = 0; i < n; i ++) |
时间复杂度为O(n)
,因为循环体中的代码要执行n次。
对数阶
1 | int cnt = 1; |
设cnt
自乘了x次,即2^x = n
,得x = log2n
,时间复杂度为O(logn)
。
平方阶
1 | for (int i = 0; i < n; i ++) |
循环嵌套,每层循环n次,时间复杂度为O(n^2)
。
常见的时间复杂度
常用的时间复杂度耗费的时间从小到大依次是:
O(1) < O(logn) < O(n) < O(n*logn) < O(n^2) < O(n^3) < O(2^n) < O(n!) < O(n^n)
最坏情况与平均情况
我们查找一个有n个随机数字数组中的某个数字,最好的情况是第一个数字就是,那么算法的时间复杂度就是O(1)
,最坏的情况是数组中最后一个位置上的数字是要找的,时间复杂度就是O(n)
。
最坏情况运行时间时一种保证,是最重要的需求,除非特别指定,我们提到的运行时间都是最坏情况运行时间。
平均运行时间也就是我们假定这个数字在每个位置上的可能性是相同的,所以平均查找时间是n/2次。
平均运行时间是所有情况中最有意义的,是期望的运行时间。但是平均运行时间很难通过分析得到,一般通过运行一定数量的实验数据后估算出。
算法空间复杂度
算法的空间复杂度通过计算算法所需的存储空间实现,算法空间复杂度的计算公式记作S(n) = O(f(n))
,其中n
为问题的规模,f(n)
是语句关于n所占存储空间的函数。
线性表
定义
线性表是由同一类型的数据元素构成的有序序列的线性结构。线性表中元素的个数就是线性表的长度,表的起始位置称为表头,表的结束位置称为表尾,当一个线性表中没有元素时,称为空表。
线性表一般需要包含以下功能:
- 初始化线性表:将一个线性表初始化,得到一个全新的线性表。
- 获取指定位置上的元素:直接获取线性表指定位置
i
上的元素。 - 获取元素的位置:获取某个元素在线性表上的位置
i
。 - 插入元素:在指定位置
i
上插入一个元素。 - 删除元素:删除指定位置
i
上的一个元素。 - 获取长度:返回线性表的长度。
实现线性表的的结构一般有两种,分别是顺序存储结构和链式存储结构。
顺序表
基于数组改进,存放数据仍然使用数组,但是通过编写额外功能强化为线性表,底层依然采用顺序存储实现的线性表被称为顺序表
。
以int
类型的线性表为例,先定义一个新的结构体类型
1 | typedef int E; |
为了使用方便,将指向结构体List
的指针起个别名
1 | typedef struct List* ArrayList; |
初始化操作:
1 | void initList(ArrayList list) { |
此时,我们的顺序表长度固定为10,如果想让长度是动态的,就使用一个指针指向底层数组的内存区域,当装不下的时候,我们可以创建一个新的更大的内存空间来存放数据,这样就可以实现扩容了,所以修改:
1 | struct List { |
接着修改初始化函数:
1 | void initList(ArrayList list) { |
1 |