InvoDB/docs/invodb设计手册.md

## 数据库功能简介

创建多个 JSON 集合，每个集合可以存取任意 JSON 结构（不必格式统一）。

```javascript
const invodb = require('invodb')

// 博客文章存储示例
let col = invodb.createCollection('articles')

col.insert({
  'id': '1',
  'title': 'invodb设计原理简介',
  'author': 'YuhangQ',
  'content': '这里是 invodb 的设计原理的文章内容',
  'catalog': '技术文章',
  'tags': ['C++', '数据库', 'database']
})
```

## 数据库文件系统设计

### 页式管理

块（页）大小为 4kb

每一个块编号为 32 位 (4 byte)，低两位置 0。

理论最大文件大小为 2^30 * 4KB = 2^22 MB = 2^12 GB = 4TB

其中固定 0 号页用于存储该数据库中不同集合的信息，集合信息结构如下。

| 表项     | 集合名(字符串) | 第一条记录的逻辑地址 |
| -------- | -------------- | -------------------- |
| 占用空间 | 28 byte        | 4 byte               |

一条表项占据 32b，所以本数据库最多支持 128 个数据集合。

#### 虚拟页式管理

将数据库文件块分为两种，按照顺序编号

物理块：存在于实际的磁盘文件块

逻辑块：虚拟的文件块地址，所有软件逻辑编写均采用逻辑块地址

#### 页表在文件中的存储

为了实现逻辑块编号到物理块的编号映射，文件中需要存储页表。

页表第一页放在物理 1 号页上，它的逻辑页也定义为 1 号页。

文件存储采用最简单的方式，顺序结构。每个表项有三个字段

| 表项     | 逻辑地址(隐含) | 物理地址 | 链接地址 |
| -------- | -------------- | -------- | -------- |
| 占用大小 | 0 byte         | 4 byte   | 4 byte   |

页表每个表项占 8byte，一个页存储的的表项数量为 4kb / 8b = 512 个。

极限情况下，4TB文件的页表，拥有 2^30 个逻辑地址，占用 2^30 * 8b = 2^33b = 2^3 GB = 8GB

页表采用单链表结构，由链接地址指向下一个页。

考虑到页表查询超级常用，页表需要加速索引，我们通过下文介绍的技术增快页表的查询速度。

- 内存加速
- 利用特性保证页表在磁盘文件中连续

### 紧凑的文件结构

引入虚拟页式管理是为了实现以下的操作：

- 删除表项时，会释放一个或多个物理块，造成文件空洞，将最后一个或几个物理块删除并填充进空洞，然后修改页表映射信息即可缩小文件大小，文件信息在文件中依然紧凑。
- 索引数据结构 B+ 树的链接信息比较多，如果没有虚拟编号，那么移动物理块的时候，索引信息需要全部更新，会需要引入更多索引信息的存储，并且会多次访问修改磁盘中的链接信息，严重拖慢速度。
- 磁盘中页表保证连续，从物理 1 号页面开始，连续的一片空间都用于存储页表。当新增页表块的时候，在文件尾新建一个块，然后将紧挨着页表空间的数据块移动到文件尾，然后将新页表块载入前方，保证页表连续且可扩展。

## 数据库索引算法设计

### B+ 树

B+ 树是一种平衡树，拥有对数级的复杂度，对比普通平衡树，单个节点存储的信息量更大，这样树的高度明显降低。

由于 B+ 树的优秀特性，我们将节点的大小定为 4k，装入一个页内，然后存储到文件中。

由于树高较低，随机访问磁盘文件的次数显著降低，极其有利于数据库的效率。

### 主键

对于 JSON 而言，要求用户去设定主键是非常不合理的，由于 JSON 集合没有固定的表结构，可以存入任意形状的 JSON 信息，并不一定拥有一个同名且不冲突的字段。

所以我们为每个 JSON 添加隐藏字段 `__Object_ID__`，值为随机的 UUID，将其设定为主键。

### 主树

按照字段 `__Object_ID__` 的大小关系建立一颗 B+ 树，存储在数据库文件中。

依据任意的一个 `__Object_ID__` 值，可以快速索引到对应文件块的逻辑块号。

然后依据逻辑块号查询页表得到物理块号，之后读取对应的文件内容返回 JSON 数据。

### 从树

为需要查询的每一个字段在第一次查询时分别建立一颗 B+ 树用于索引。这颗 B+ 树同样要存储到数据库文件中。

索引的值指向 `__Object_ID__` ，而不是物理块号。

查询某个字段时，如查询 “成绩大于 60，且小于 90 的所有信息”，按照如下步骤执行：

- 查询 `成绩` 对应的 B+ 树，然后得到所有符合条件的 `__Object_ID__` 集合
- 使用 `__Object_ID__` 查询主树，得到所有符合条件的 `逻辑块号`
- 使用 `逻辑块号` 查询页表，得到 `物理块号`
- 读取文件，构造文件集合，返回结果

## 内存加速

以上数据库系统的设计中，并没有提到内存。这是因为我们的数据库设计的时候就是把所有的信息存储到文件中。

所以我们的数据库可以在一个最小模式上，以极低的内存占用依然高效地正常运行。

在相对内存充裕的机器上，使用一部分内存进行数据库的加速是非常有必要的，一些情况下可以加速数个数量级。

### 页表查询加速

使用 Map 数据结构在内存中构造 `逻辑地址 - 物理地址` 的直接映射，作为 Cache。

Cache 的大小可以设定的激进一些，在 128M 的页表 Cache 下，大概可以索引 1000 万个文件块。

利用少量的内存，使得页表的查询开销可以忽略不计。Cache 空间非常大，直接采用最简易 FIFO 淘汰策略也能得到非常好的缓存性能。

### 文件块加速

使用 Map 数据结构在内存中构造 `逻辑地址 - 文件块信息` 的直接映射，作为 Cache。

由于我们的所有算法都是通过文件块访问磁盘文件的，使用文件块 Cache 可以对本程序所有部分进行加速。

同样在 128m 的文件块 Cache 下，可以缓存 3 万个左右的文件块。

在充分预热的情况下，我们可以推测：内存的命中率是非常高的，本数据库的效率会非常好。

## INVODB 技术总结

`InvoDB` 的架构设计还是非常精巧的，使用了并不复杂的多种技术实现了大部分操作复杂度达到常数级。

对于较复杂的查询，经过预热，均摊情况下也是对数复杂度，可以说本数据库也具有一定实际使用的价值。

开发完工后我们会和 MySQL、SQLite、MongoDB 等常用数据库进行跑分 PK，看看谁更快。