mongodb指南（翻译）（二十三） – developer zone – 索引（七）索引优化建议

现在的位置: 首页 > 综合 > 正文

RSS

mongodb指南（翻译）（二十三） – developer zone – 索引（七）索引优化建议

2012年05月29日 ⁄ 综合 ⁄ 共 2271字 ⁄ 字号小中大 ⁄ 评论关闭

首先，mongodb中的索引同MySQL中的很类似，因此很多在MySQL中创建高效索引的技术也适用于mongodb。

再者，而且可能更加重要的是，索引优化建议也只能到此为止。对于你的应用，最好的索引依赖于几个重要的因素，包含你期望的查询种类，读/写频率，甚至系统的剩余内存。这意味着最好的策略就是对数据集准备多套索引配置方案，然后观察那个表现最好。

索引策略

这里有一些创建良好索引的基本原则。

创建匹配查询的索引

如果你仅对一个关键字查询，那么使用单键索引就可以了。例如，你可能正在搜索博客发布的缓动环(slug)：

db.posts.find({ slug : 'state-of-mongodb-2010' })

在这种情景下，基于单个关键字的唯一索引是最好的：

db.posts.ensureIndex({ slug: 1 }, {unique: true});

但是，对多个关键字进行查询并排序也是很普遍的。在这些时候，复合索引是最合适的。这里有个例子是中查询包含最近新加的名为“mongodb”标签的评论：

db.comments.find({ tags : 'mongodb'}).sort({ created_at : -1 });

那么合适的索引是：

db.comments.ensureIndex({tags : 1, created_at : -1});

需要注意的是，如果我们期望对"created_at"进行升序排序，那么这个索引的效率会很低。

一个查询一个索引

有时候我们会认为对多个关键字的查询会使用多个索引；在Mongodb中不是这样的。如果你的查询是针对多个关键字的，并且你希望提高查询的效率，那么建立一个复合索引是很有必要的。

确保你的索引可以驻留在内存中

shell提供了一个命令查询某个集合的索引大小：

db.comments.totalIndexSize();
65443

留意低效率的单键索引

假定你有一个字段名为“status”，它的值为“new”或者“processeed”。如果你对它建立一个索引，其效率会很低，这意味着该索引在定位记录上帮助不大并且可能会占用很多空间。
一个更好的方法，当然依赖于你的查询，创建包含低效率字段的复合索引。例如，你可以对"status"和"created_at"创建复合索引。

另一个选择，同样也依赖于你的用例，可以使用分开的集合，为每一种状态建立一个集合。已经有了这么多的建议，实验和基准测试可以帮你选择最好的。

使用explain

Mongodb有一个explain命令查看你的查询如何被执行，特别是有没有使用到一个索引。
可以在驱动中使用explain，也可以在shell中：

db.comments.find({ tags : 'mongodb'}).sort({ created_at : -1 }).explain();

这会返回很多有用的信息，包含扫描的对象个数，查询耗费时间（单位毫秒），尝试使用的索引，最终使用的索引。

如果你从来没有使用过explain，那么现在是时候了。

理解explain的输出

这里有explain命令输出的三个主要字段：

cursor：cursor的值可以是BasicCursor或BtreeCursor。第二个值指明使用的索引。
nscanned：扫描的文档个数。
n:查询返回的文档个数。你需要使得n与nscanned非常接近。需要避免的情况是，查询扫描了集合中所有的文档。这种情况下nscanned等于集合中文档个数。
millis：查询耗费时间。

关注你的应用中读/写比率

它之所以重要，是因为当你添加一个索引，你就会对所有的插入、更新、删除操作都额外增加了负担。如果你的应用是读繁忙类型，如多数web应用，增加的索引通常是个好东西。但是如果你的应用是写繁忙类型的，增加索引时要特别小心，因为每个索引都会对写操作增加一定的负担。

通常情况下，不要害怕增加索引。索引通常应当增加以完成你的查询。记住总是有一个好的理由添加一个新的索引，并确保你已经比较了替代策略。

索引特性

这些例子假定一个基于三个字段的复合索引：a,b,c。这样来创建索引：

db.foo.ensureIndex({a: 1, b: 1, c: 1})

这里有一些建议来使用这个索引：

1. 排序的列一定是使用到的索引列的最后一个

好：

find(a=1).sort(a)
find(a=1).sort(b)
find(a=1, b=2).sort(c)

不好：

find(a=1).sort(c)
虽然c是索引的最后一个列，但a是使用到的最后一个列，所以你只能对a或b排序。

2. 范围查询也必须是索引的最后列。这是上面1中的一个原则。

好：

find(a=1,b>2)
find(a>1 and a<10)
find(a>1 and a<10).sort(a)

不好：

find(a>1,b=2)

3. 仅对一个列进行范围查询和排序

好：

find(a=1,b=2).sort(c)
find(a=1,b>2)
find(a=1,b>2 and b<4)
find(a=1,b>2).sort(b)

不好：

find(a>1,b>2)
find(a=1,b>2).sort(c)

4.通过对相等性（无范围）查询的列进行重排序来节约索引

假定你有两个查询：

find(a=1,b=1,d=1)
find(a=1,b=1,c=1,d=1)

一个基于a,b,c,d的单个索引就可以满足这两个查询了。

如果，你需要对最后的值进行排序，你就可能需要2个索引了。

5. Mongodb的$ne和$nin操作符，使用索引是没有效率的

当需要排序少量文档时，最好将数据读到客户端后进行排除。

【上篇】Reactive Extensions入门
【下篇】Manage Plug-ins

作者: omer

该日志由 omer 于12年前发表在综合分类下，最后更新于 2012年05月29日.
转载请注明: mongodb指南（翻译）（二十三） – developer zone – 索引（七）索引优化建议 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

mongodb指南（翻译）（二十三） – developer zone – 索引（七）索引优化建议

作者: omer

书签

最新文章New

本站推荐

返回首页