MySQL索引的几种用途

现在的位置: 首页 > 数据库 > 正文

RSS

上篇下篇

MySQL索引的几种用途

2020年02月17日 ⁄ 数据库 ⁄ 共 2890字 ⁄ 字号小中大 ⁄ 评论关闭

　　MySQL 索引的作用是什么?一般回答，加速查询，减少磁盘 IO.

　　索引为什么可以加速查询，减少磁盘 IO 呢?

　　因为索引就像一份字典的目录，可以帮你找到数据的位置。

　　嗯，这只是一个比喻，你知道 MySQL 索引的数据结构是长什么样子的吗?

　　呃，MySQL 大多数索引都是用的基于 B-tree 的变种，我们习惯叫它 B+ tree，其他的索引还有 hash 索引、R-trees 索引这些。

　　好，那你能把 B+tree 画出来，然后讲一下它是如何帮助 MySQL 更快的查询数据的吗?

　　很多同学都知道索引的作用是什么、索引是 B+ tree 等等，但是却很少有人能清楚的画出 B+ tree 是如何帮助 MySQL 加速查询的，而不知道这个，也就意味着你无法判断，什么样的 sql 语句会走索引，什么样的 sql 语句走不了索引，而知道这个，则从此一通百通。

　　MySQL 的 B+tree 什么样子?

　　聚簇索引

　　事实上，在你还没有执行 create index 语句的时候，MySQL 里面就已经有棵 B+ tree了。

　　执行建表语句：

　　CREATE TABLE `student` (

　　`id` BIGINT UNSIGNED AUTO_INCREMENT NOT NULL COMMENT '主键id',

　　`student_no` VARCHAR(64) COMMENT '学号',

　　`name` VARCHAR(64) COMMENT '学生姓名',

　　`age` INT COMMENT '学生年龄',

　　PRIMARY KEY (`id`)

　　) ENGINE=InnoDB CHARSET=utf8mb4 COMMENT='学生信息表';

　　插入 5 条数据：

　　insert into student(student_no,name,age) values(101,"Alice",18);

　　insert into student(student_no,name,age) values(102,"Bob",19);

　　insert into student(student_no,name,age) values(104,"Brandt",15);

　　insert into student(student_no,name,age) values(105,"David",19);

　　insert into student(student_no,name,age) values(109,"David",18);

　　在你插入的过程中，MySQL就会用你指定的主键，在这里是递增主键，维护起一颗 B+ 树，用 BPlusTree Visualization 的模拟工具来模拟这颗树的样子：

　　如果你有时间，也建议你到这个网站去，从 1 到 5，一个一个插入，你会看到 B+ tree 在插入的过程中是怎么维护它的几个特性的：

　　有序：节点左边比右边小;

　　自平衡：左右两边数量趋于相等;

　　节点分裂：在遇到节点元素过载时，是如何分裂成两个的，其实这个也是 MySQL 页分裂的原理。

　　模拟工具只能支持插入一个值，所以你看不到主键之外的其他数据，实际上，B+ tree 的叶子节点是带有行的全部数据的。

　　如果没有这棵 B+ tree，你要根据主键查询，比如：

　　select * from student where id = 5;

　　对不起，数据是无序的，你只能全表扫描。

　　现在有了这棵 B+ tree，数据被有规律的存储起来的，查找 id=5 。

　　你要访问磁盘的次数，是由这棵树的层数决定的。为了方便说明，我在文章里举的例子的数据量不会太大，所以用不用索引，性能提升的效果不明显，但是你可以自行脑补大数据量的画面。

　　如果你没有指定主键呢?没关系，唯一键也可以。

　　连唯一键也没有?也没关系，mysql会给你建一个 rowid字段，用它来组织这棵 B+ tree.

　　反正 MySQL 就一个目的，数据要有规律的存储起来，就像之前在 link 数据库是什么里说的，这是数据库和文件系统的不一样的地方。

　　这个 MySQL 无论如何都会建起来，并且存储有完整行数据的索引，就叫聚簇索引 (clustered index)。

　　二级索引

　　聚簇索引只能帮你加快主键查询，但是如果你想根据姓名查询呢?

　　对不起，看看上面这棵树你就知道，数据并没有按照姓名进行组织，所以，你还是只能全表扫描。

　　不想全表扫描，怎么办?那就给姓名字段也加个索引，让数据按照姓名有规律的进行组织：

　　create index idx_name on student(name);

　　这时候 MySQL 又会建一棵新的 B+ tree。

　　你会发现这棵树的叶子节点，只有主键ID，没有完整数据，这时候你执行：

　　select * from student where name = "David";

　　MySQL 到你刚刚创建的这棵 B+ tree 查询，快速的查到有两条姓名是“David”的记录，并且拿到它们的主键，分别是 4 和 5，但是你是要 select * 呀，怎么办?

　　别忘了，MySQL 在一开始就给你建了一颗 B+ tree 了，把这两棵树，放在一起，拿着这两个主键ID，去聚簇索引找，事情不就解决了?

　　这个不带行数据信息的索引，就叫二级索引 (secondary index)，也叫辅助索引。

　　复合索引

　　如果我在根据姓名和年龄同时查询呢?

　　select * from student where name = "David" and age = 18;

　　还是那个道理，数据虽然按照 name 有规律的组织了，但是没有按照 age 有规律组织，所以我们要给 name 和 age 同时建索引：

　　create index idx_name_age on student(name,age);

　　这时候 MySQL 又会建一棵 B+ tree，这下 B+ tree 的节点里面，不只有name，还有age了，而且排序时，是先用 name 比较大小，如果 name 相同，则用 age 比较。

　　还是那句话，这里举的例子数据量很少，你可以想象下有一万个叫“David”的学生，年龄随机分布在13到20之间，这时候如果没有按照 age 进行有规律的存储，你还是得扫描一万行数据。

　　别人都只会用公式，他却时刻牢记这些公式是怎么来的，别人考试就只会套用公司，他却可以用这些公式以外的知识解决问题。

　　MySQL 索引也是，很多人都知道索引就像字典的目录，索引是 B+ tree，但是知道这些有什么用呢?

　　知识是需要往深里学，才能转化为能力的，你知道的多，并不代表你能解决的问题就多，反而那些知道的没那么多，但是对他知道的东西，都研究透彻的人，才能一通百通。

　　当你知道了 MySQL 的聚簇索引-二级索引长成这个样子后，还用去背什么“最左匹配”吗?

　　随便问个问题，只给 student 表建 idx_name_age 这个复合索引，这两个 sql 语句，会走索引吗?

　　select * from student where name = "David";

　　select * from student where age = 18;

　　甚至，这么精妙的数据结构设计，就知道用来加速查询吗?

　　至少现在我能想到的，索引可以拿来干的事情，就至少有四种。

【上篇】如何用 SQL 处理文本数据
【下篇】Java回调有几种写法

作者: admin

该日志由 admin 于4年前发表在数据库分类下，最后更新于 2020年02月17日.
转载请注明: MySQL索引的几种用途 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

MySQL索引的几种用途

作者: admin

书签

最新文章New

本站推荐

返回首页