现在的位置: 首页 > 综合 > 正文

Oracle Tuning的一些总结2

2013年01月05日 ⁄ 综合 ⁄ 共 17266字 ⁄ 字号 评论关闭

2.2.3 等待事件分析
接下来,statspack报告中描述的是等待事件(Wait Events),这是Oracle中比较复杂难懂的概念。
Oracle 的等待事件是衡量Oracle 运行状况的重要依据及指标。
等待事件的概念是在Oracle7.0.1.2 中引入的,大致有100 个等待事件。在Oracle 8.0 中这个数目增加到了大约150 个,在Oracle8i 中大约有200 个事件,在Oracle9i 中大约有360 个等待事件。
主要有两种类别的等待事件,即空闲(idle)等待事件和非空闲(non-idle)等待事件。
空闲事件指Oracle 正等待某种工作,在诊断和优化数据库的时候,我们不用过多注意这部分事件。
常见的空闲事件有:
? dispatcher timer
? lock element cleanup
? Null event
? parallel query dequeue wait
? parallel query idle wait - Slaves
? pipe get
? PL/SQL lock timer
? pmon timer- pmon
? rdbms ipc message
? slave wait
? smon timer
? SQL*Net break/reset to client
? SQL*Net message from client
? SQL*Net message to client
? SQL*Net more data to client
? virtual circuit status
? client message

非空闲等待事件专门针对Oracle 的活动,指数据库任务或应用运行过程中发生的等待,这些等待事件是我们在调整数据库的时候应该关注与研究的。
一些常见的非空闲等待事件有:
? db file scattered read
? db file sequential read
? buffer busy waits
? free buffer waits
? enqueue
? latch free
? log file parallel write
? log file sync

下面接合statspack中的一些等待事件进行讲述。

Top 5 Wait Events
~~~~~~~~~~~~~~~~~ Wait % Total
Event Waits Time (cs) Wt Time
-------------------------------------------- ------------ ------------ -------
db file scattered read 26,877 12,850 52.94
db file parallel write 472 3,674 15.13
log file parallel write 975 1,560 6.43
direct path write 1,571 1,543 6.36
control file parallel write 652 1,290 5.31
-------------------------------------------------------------

db file scattered read: DB文件分散读取。这个等待事件很常见,经常在top5中出现,这表示,一次从磁盘读数据进来的时候读了多于一个block的数据,而这些数据又被分散的放在不连续的内存块中,因为一次读进来的是多于一个block的。
通常来说我们可以认为是全表扫描类型的读,因为根据索引读表数据的话一次只读一个block,如果这个数字过大,就表明该表找不到索引,或者只能找到有限的索引,可能是全表扫描过多,需要检查sql是否合理的利用了索引,或者是否需要建立合理的索引。
当全表扫描被限制在内存时,它们很少会进入连续的缓冲区内,而是分散于整个缓冲存储器中。尽管在特定条件下执行全表扫描可能比索引扫描更有效,但如果出现这种等待时,最好检查一下这些全表扫描是否必要,是否可以通过建立合适的索引来减少对于大表全表扫描所产生的大规模数据读取。
对于经常使用的小表,应该尽量把他们pin 在内存中,避免不必要的老化清除及重复读取。

db file sequential read: DB文件连续读取。通常显示单个块的读取(通常指索引读取),表示的是读进磁盘的block被放在连续的内存块中。
事实上大部分基本代表着单个block的读入,可以说象征着 IO 或者说通过索引读入的比较多。因为一次IO若读进多个的block,放入连续的内存块的几率是很小的,分布在不同block的大量记录被读入就会遇到此事件。因为根据索引读数据的话,假设100条记录,根据索引,不算索引本身的读,而根据索引每个值去读一下表数据,理论上最多可能产生100 buffer gets,而如果是full table scan,则100条数据完全可能在一个block里面,则几乎一次就读过这个block了,就会产生这么大的差异。
这种等待的数目很多时,可能显示表的连接顺序不佳,或者不加选择地进行索引。
对于高级事务处理(high-transaction)、调整良好(welltuned)的系统,这一数值很大是很正常的,但在某些情况下,它可能暗示着系统中存在问题。
你应当将这一等待统计量与Statspack 报告中的已知问题(如效率较低的SQL)联系起来。检查索引扫描,以保证每个扫描都是必要的,并检查多表连接的连接顺序。
DB_CACHE_SIZE 也是这些等待出现频率的决定因素。有问题的散列区域(Hash-area)连接应当出现在PGA 内存中,但它们也会消耗大量内存,从而在顺序读取时导致大量等待。它们也可能以直接路径读/写等待的形式出现。

Free Buffer Wait: 释放缓冲区。
这种等待表明系统正在等待内存中的缓冲,因为内存中已经没有可用的缓冲空间了。如果所有SQL 都得到了调优,这种等待可能表示你需要增大DB_BUFFER_CACHE。释放缓冲区等待也可能表示不加选择的SQL 导致数据溢出了带有索引块的缓冲存储器,没有为等待系统处理的特定语句留有缓冲区。
这种情况通常表示正在执行相当多数量的DML(插入/更新/删除),并且可能说明DBWR 写的速度不够快,缓冲存储器可能充满了相同缓冲器的多个版本,从而导致效率非常低。为了解决这个问题,可能需要考虑增加检查点、利用更多的DBWR 进程,或者增加物理磁盘的数量。

Buffer Busy Wait: 缓冲区忙。
该等待事件表示正在等待一个以unshareable方式使用的缓冲区,或者表示当前正在被读入buffer cache。也就是当进程想获取或者操作某个block的时候却发现被别的进程在使用而出现等待。一般来说Buffer Busy Wait不应大于1%。
检查缓冲等待统计部分(或V$WAITSTAT),看一下等待是否位于段头。如果是,可以考虑增加自由列表(freelist,对于Oracle8i DMT)或者增加freelist groups.
其修改语法为:
SQL> alter table sp_item storage (freelists 2);
Table altered。

对于Oracle8i而言,增加freelist参数,在很多时候可以明显缓解等待,如果使用LMT,也就是 Local Manangement Tablespace,区段的管理就相对简单还可以考虑修改数据块的pctusedpctfree值,比如增大pctfree可以扩大数据的分布,在某种程度上就可以减少热点块的竞争。

如果这一等待位于undo header,可以通过增加回滚段(rollback segment)来解决缓冲区的问题。
如果等待位于undo block上,我们可能需要检查相关应用,适当减少大规模的一致性读取,或者降低一致性读取(consistent read)的表中的数据密度或者增大DB_CACHE_SIZE。
如果等待处于data block,可以考虑将频繁并发访问的表或数据移到另一数据块或者进行更大范围的分布(可以增加pctfree 值,扩大数据分布,减少竞争),以避开这个"热点"数据块,或者可以考虑增加表中的自由列表或使用本地化管理的表空间(Locally Managed Tablespaces)。
如果等待处于索引块,应该考虑重建索引、分割索引或使用反向键索引。反向键索引在很多情况下,可以极大地缓解竞争,其原理有点类似于hash分区的功效。反向键索引(reverse key index)常建在一些值是连续增长的列上,例如列中的值是由sequence产生的。

为了防止与数据块相关的缓冲忙等待,也可以使用较小的块:在这种情况下,单个块中的记录就较少,所以这个块就不是那么"繁忙";或者可以设置更大的pctfree,使数据扩大物理分布,减少记录间的热点竞争。
在执行DML (insert/update/ delete)时,Oracle向数据块中写入信息,对于多事务并发访问的数据表,关于ITL的竞争和等待可能出现,为了减少这个等待,可以增加initrans,使用多个ITL槽。
以下是一个生产系统v$waitstat 试图所显示的等待信息:
SQL> select * from v$waitstat where count<>0 or time <>0;
CLASS COUNT TIME
------------------ ---------- ----------
data block 453 6686
undo header 391 1126
undo block 172 3

latch free: latch释放
latch 是一种低级排队机制,用于保护SGA 中共享内存结构。
latch就像是一种快速地被获取和释放的内存锁。latch用于防止共享内存结构被多个用户同时访问。如果latch不可用,就会记录latch释放失败(latch free miss)。
有两种与闩有关的类型:
■ 立刻。
■ 可以等待。
假如一个进程试图在立刻模式下获得闩,而该闩已经被另外一个进程所持有,如果该闩不能立刻可用的话,那么该进程就不会为获得该闩而等待。它将继续执行另一个操作。
大多数latch 问题都与以下操作相关:
没有很好的是用绑定变量(library cache latch)、重作生成问题(redo allocation latch)、缓冲存储器竞争问题(cache buffers LRU chain),以及buffer cache中的存在"热点"块(cache buffers chain)。
通常我们说,如果想设计一个失败的系统,不考虑绑定变量,这一个条件就够了,对于异构性极强的系统,不使用绑定变量的后果是极其严重的。
另外也有一些latch 等待与bug 有关,应当关注Metalink 相关bug 的公布及补丁的发布。
当latch miss ratios大于0.5%时,就应当研究这一问题。
Oracle 的 latch 机制是竞争,其处理类似于网络里的CSMA/CD,所有用户进程争夺latch,对于愿意等待类型(willing-to-wait)的latch,如果一个进程在第一次尝试中没有获得latch,那么它会等待并且再尝试一次,如果经过_spin_count 次争夺不能获得latch, 然后该进程转入睡眠状态,持续一段指定长度的时间,然后再次醒来,按顺序重复以前的步骤.在8i/9i 中默认值是 _spin_count=2000。
如果SQL语句不能调整,在8.1.6版本以上,Oracle提供了一个新的初始化参数: CURSOR_SHARING,可以通过设置CURSOR_SHARING = force 在服务器端强制绑定变量。设置该参数可能会带来一定的副作用,对于Java的程序,有相关的bug,具体应用应该关注Metalink的bug公告。

enqueue
enqueue 是一种保护共享资源的锁定机制。该锁定机制保护共享资源,如记录中的数据,以避免两个人在同一时间更新同一数据。enqueue 包括一个排队机制,即FIFO(先进先出)排队机制。
Enqueue 等待常见的有ST、HW 、TX 、TM 等
ST enqueue 用于空间管理和字典管理的表空间(DMT)的分配。对于支持LMT 的版本,可以考虑使用本地管理表空间,对于Oracle8i,因为相关bug 不要把临时表空间设置为LMT. 或者考虑预分配一定数量的区。
HW enqueue 指段的高水位标记相关等待;手动分配适当区段可以避免这一等待。
TX 是最常见的enqueue 等待。TX enqueue 等待通常是以下三个问题之一产生的结果。
第一个问题是唯一索引中的重复索引,你需要执行提交(commit)/回滚(rollback)操作来释放enqueue。
第二个问题是对同一位图索引段的多次更新。因为单个位图段可能包含多个行地址(rowid),所以当多个用户试图更新同一段时,等待出现。直到提交或回滚, enqueue 释放。
第三个问题,也是最可能发生的问题是多个用户同时更新同一个块。如果没有自由的ITL 槽,就会发生块级锁定。通过增大initrans 和/或maxtrans 以允许使用多个ITL 槽,或者增大表上的pctfree值,就可以很轻松地避免这种情况。
TM enqueue 在DML 期间产生,以避免对受影响的对象使用DDL。如果有外键,一定要对它们进行索引,以避免这种常见的锁定问题。

Log Buffer Space: 日志缓冲空间
当你将日志缓冲(log buffer)产生重做日志的速度比LGWR 的写出速度快,或者是当日志转换(log switch)太慢时,就会发生这种等待。为解决这个问题,可以增大日志文件的大小,或者增加日志缓冲器的大小.
另外一个可能的原因是磁盘I/O 存在瓶颈,可以考虑使用写入速度更快的磁盘。

log file switch (archiving needed)
这个等待事件出现时通常是因为日志组循环写满以后,第一个日志归档尚未完成,出现该等待可能是 IO 存在问题。
解决办法:
可以考虑增大日志文件和增加日志组
移动归档文件到快速磁盘
调整log_archive_max_processes .

log file switch (checkpoint incomplete): 日志切换(检查点未完成)
当你的日志组都写完以后,LGWR 试图写第一个log file,如果这时数据库没有完成写出记录在第一个log file 中的dirty 块时(例如第一个检查点未完成),该等待事件出现。
该等待事件说明你的日志组过少或者日志文件过小。
你可能需要增加你的日志组或日志文件大小。

Log File Switch: 日志文件转换
所有的提交请求都需要等待"日志文件转换(必要的归档)"或"日志文件转换(chkpt.不完全)"。确保归档磁盘未满,并且速度不太慢。 DBWR 可能会因为输入/输出(I/O)操作而变得很慢。你可能需要增加更多或更大的重做日志,而且如果DBWxR 是问题症结所在的话,可能需要增加数据库书写器。

log file sync: 日志文件同步
当一个用户提交或回滚数据时,LGWR 将session 会话的重做由redo buffer 写入到重做日志中。
log file sync 必须等待这一过程成功完成(Oracle 通过写redo log file 保证commit 成功的数据不丢失),这个事件说明提交可能过于频繁,批量提交可以最大化LGWR 的效率,过分频繁的提交会引起LGWR频繁的激活,扩大了LGWR 的写代价。
为了减少这种等待事件,可以尝试每次提交更多的记录。
将重做日志置于较快的磁盘上,或者交替使用不同物理磁盘上的重做日志,以降低归档对LGWR的影响。
对于软RAID,一般来说不要使用RAID 5,RAID5 对于频繁写入得系统会带来较大的性能损失,可以考虑使用文件系统直接输入/输出,或者使用裸设备(raw device),这样可以获得写入的性能提高。

log file single write
该事件仅与写日志文件头块相关,通常发生在增加新的组成员和增进序列号时。头块写单个进行,因为头块的部分信息是文件号,每个文件不同。更新日志文件头这个操作在后台完成,一般很少出现等待,无需太多关注。

log file parallel write
从log buffer 写redo 记录到redo log 文件,主要指常规写操作(相对于log file sync)。
如果你的Log group 存在多个组成员,当flush log buffer 时,写操作是并行的,这时候此等待事件可能出现。
尽管这个写操作并行处理,直到所有I/O 操作完成该写操作才会完成(如果你的磁盘支持异步IO或者使用IO SLAVE,那么即使只有一个redo log file member,也有可能出现此等待)。
这个参数和log file sync 时间相比较可以用来衡量log file 的写入成本。通常称为同步成本率。

control file parallel write: 控制文件并行写
当server 进程更新所有控制文件时,这个事件可能出现。
如果等待很短,可以不用考虑。如果等待时间较长,检查存放控制文件的物理磁盘I/O 是否存在瓶颈。
多个控制文件是完全相同的拷贝,用于镜像以提高安全性。对于业务系统,多个控制文件应该存放在不同的磁盘上,一般来说三个是足够的,如果只有两个物理硬盘,那么两个控制文件也是可以接受的。在同一个磁盘上保存多个控制文件是不具备实际意义的。
减少这个等待,可以考虑如下方法:
减少控制文件的个数(在确保安全的前提下)
如果系统支持,使用异步IO
转移控制文件到IO 负担轻的物理磁盘

control file sequential read/ control file single write
控制文件连续读/控制文件单个写
对单个控制文件I/O 存在问题时,这两个事件会出现。
如果等待比较明显,检查单个控制文件,看存放位置是否存在I/O 瓶颈。
使用查询获得控制文件访问状态:
select P1 from V$SESSION_WAIT
where EVENT like 'control file%' and STATE='WAITING';
解决办法:
移动有问题的控制文件到快速磁盘
如果系统支持,启用异步I/O

direct path write: 直接路径写
该等待发生在,等待确认所有未完成的异步I/O 都已写入磁盘。
你应该找到I/O 操作频繁的数据文件,调整其性能。
也有可能存在较多的磁盘排序,临时表空间操作频繁,可以考虑使用Local 管理表空间,分成多个小文件,写入不同磁盘或者裸设备。

SQL*Net message from dblink
该等待通常指与分布式处理(从其他数据库中SELECT)有关的等待。
这个事件在通过DBLINKS 联机访问其他数据库时产生。如果查找的数据多数是静态的,可以考虑移动这些数据到本地表并根据需要刷新,通过快照或者物化视图来减少跨数据库的访问,会在性能上得到很大的提高。

slave wait: 从属进程等
Slave Wait 是Slave I/O 进程等待请求,是一个空闲参数,一般不说明问题。

2.2.4 High Load SQL 分析
对于一个特定的应用程序或者系统来讲,要调整优化其性能,最好的方法是检查程序的代码和用户使用的SQL语句。
如果使用了 level 5 级别的 snapshot ,那么statspack生成的报告中就会显示系统中高负荷SQL语句(High Load SQL)的信息,而其详细信息可以在 stats$sql_summary 表中查到。缺省情况下 snapshot 的级别是 level 5。
按照 buffer gets, physical reads, executions, memory usage and version count 等参数的降序排列顺序,把SQL语句分为几个部分罗列在报告中。

2.2.5 报告的其他部分
statspack报告的其他部分包括了 Instance Activity Stats,Tablespace IO Stats,Buffer Pool Statistics,Buffer wait Statistics,Rollback Segment Stats,Latch Activity,Dictionary Cache Stats,Library Cache Activity,SGA breakdown difference 以及 init.ora 参数,等等。目前本文不对这些内容进行详细讨论,请参加其他详细文档。

2.3 trace session (……)

2.4 基于成本的优化器技术内幕
Oracle基于成本的优化器(Oracle's cost-based SQL optimizer ,简称CBO),是Oracle里面非常复杂的一个部分, 它决定了Oracle里面每个SQL的执行路径。CBO是一项评价SQL语句和产生最好执行计划的具有挑战性的工作,所以也使它成Oracle最复杂的软件组成部分。
众所周知,SQL的执行计划,几乎是Oracle性能调整最重要的方面了。所以想要学会如何调整Oracle数据库的性能,就要学会如何对SQL进行调整,就需要深入透彻理解CBO。
CBO的执行路径,取决于一些外部因素,内部的Oracle统计数据,以及数据是如何分布的。
我们将要讨论下面的话题:
CBO的参数:我们从基本的优化器参数开始学习,然后学习每个优化器参数是如何影响Oracle的优化器的执行的。

CBO的统计:这里我们将讨论,使用Analyze或者DBMS_STATS来收集正确的统计数据,对Oracle 优化器而言,是多么的重要。我们还将学习如何把优化器的统计数据,从一个系统拷贝到另外一个系统,这样可以确保开发环境和产品数据库环境下,SQL的执行路径不会变化。

下面我们开始讨论CBO优化模式以及影响CBO的Oracle参数

2.4.1 CBO的参数
CBO受一些重要参数的影响,修改这些参数后可以看到CBO性能上戏剧性的变化。首先从设置CBO的optimizer_mode参数开始,然后讨论其他重要参数的设置。

在 Oracle 9i 中,optimizer_mode 参数有四种取值,决定了四种优化模式: rule, choose, all_rows, 和 first_rows,其中 rule 和 choose 两种模式表示目前已经过时的基于规则的优化器模式(rule-based optimizer,简称RBO),所以我们在此着重讨论后两种CBO模式。

优化模式的设置可以在系统级进行,也可以对某个会话(session)进行设置,或者对某个SQL语句进行设置。对应的语句如下:
alter system set optimizer_mode=first_rows_10;
alter session set optimizer_goal = all_rows;
select /*+ first_rows(100) */ from student;

我们首先需要知道对一个SQL语句来说,什么是最好的执行计划(the best execution plan)?是使SQL语句返回结果的速度最快,还是使SQL语句占用系统资源最少?显然,这个答案取决于数据库的处理方式。

举一个简单的例子,比如有下列SQL语句:
select customer_name
from
customer
where
region = 'south'
order by
customer_name;

如果最好的执行计划是返回结果的速度最快,那么就需要使用 region 列和 customer_name 列上的索引,从 customer 表中按照正确的顺序快速读取所有的列,而不用管是否从物理上读取了很多不连续的数据块导致的大量IO操作。(见下图)

假设这个执行计划从开始到返回结果耗时 0.0001 秒,同时产生了 10000 个 db_block_gets ,但是如果你的目标是计算资源的最小化呢?如果这个SQL语句是在一个批处理程序中执行,也许对返回结果的速度要求就不那么重要了,而另一个执行计划则可能耗费更少的系统资源。
在下图所示的例子中,并行的全表扫描由于不需要按照排序重新读取数据块,所以耗系统资源较少,并且IO操作也不多。当然,由于SQL语句执行过程中没有排序,得到预期结果的时间就长了,而资源耗费少了。假设这个执行计划从开始到返回结果耗时 10 秒,同时产生了 5000 个 db_block_gets

Oracle提供了几个 optimizer_mode 的设置参数,使你能够得到想要的最好的执行计划。

optimizer_mode = first_rows
设置为这种CBO模式以后,SQL语句返回结果的速度会尽可能的快,而不管系统全部的查询是否会耗时较长或者耗系统资源过多。由于利用索引会使查询速度加快,所以 first_rows 优化模式会在全表扫描上进行索引扫描。这种优化模式一般适合于一些OLTP系统,满足用户能够在较短时间内看到较小查询结果集的要求。

optimizer_mode = all_rows
设置为这种CBO模式以后,将保证消耗的所有计算资源最小,尽管有时查询结束以后没有结果返回。all_rows 的优化模式更倾向于全表扫描,而不是全索引扫描和利用索引排序,因此这种优化模式适合于数据查看实时性不是那么强的数据仓库、决策支持系统和面向批处理的数据库(batch-oriented databases)等。

optimizer_mode = first_rows_n
Oracle 9i 对一些预期返回结果集的数据量小的SQL语句优化模式进行了加强,增加了四个参数值:first_rows_1、first_rows_10、 first_rows_100、first_rows_1000。CBO通过 first_rows_n 中的 n 值,决定了返回结果集数量的基数,我们可能仅仅需要查询结果集中的一部分,CBO就根据这样的 n 值来决定是否使用索引扫描。

optimizer_mode = rule
基于规则的优化器模式,RBO,是早期Oracle版本使用过的一种优化模式。由于RBO不支持自1994年Oracle版本的新特性,如 bitmap indexes,table partitions,function-based indexes等,所以在以后Oracle版本中已经不再更新RBO,并且也不推荐用户使用RBO这种优化模式了。

从上面的讨论可以看出,optimizer_mode 参数的设置对CBO是非常重要的,决定了CBO的基本模式,同时还有一些其他的参数也对CBO有着极大的影响。由于CBO的重要性,Oracle提供了一些系统级的参数来调整CBO的全局性能,这些调整参数包括索引扫描与全部扫描的选择、表连接方式的选择,等等。下面简单讨论一下。

optimizer_index_cost_adj
这个参数用于调整使用索引的访问路径的成本算法,参数值越小,索引访问的成本就越低。

optimizer_index_caching
这个参数告诉Oracle在内存缓冲区中索引的数量。该参数的设置会影响CBO如何决定使用表连接(嵌套循环)的索引还是使用全表扫描。

db_file_multiblock_read_count
这个参数的值被设置较大的时候,CBO就会认为离散的、多数据块的读取会比顺序读取的代价更低,使得CBO更倾向于全表扫描。

parallel_automatic_tuning
这个参数值被设置为 on 的时候,表示使用并行的全表扫描,由于并行的全表扫描比较快,所以CBO认为索引的访问是高成本的,同时就更倾向于全表扫描。

hash_area_size
如果不使用 pga_aggregate_target 参数的话,该参数有效。该参数的设置大小决定CBO是否更加倾向于 hash joins ,而不是嵌套循环和表连接的索引合并。

sort_area_size
如果不使用 pga_aggregate_target 参数的话,该参数有效。该参数的设置大小影响CBO决定是否进行索引访问和结果集的排序,参数值越大,在内存中排序的可能性就越大,CBO也就更加倾向于排序。

由于对这些参数值的修改会影响到系统中成千上万的SQL语句的执行计划,所以Oracle并不推荐修改这些参数的缺省值。

在对CBO的参数有了大致的了解以后,下面讨论如何根据提供给CBO的数据帮助CBO制定出一个好的执行计划。

2.4.2 CBO的统计
对于CBO来说,最重要的是定义和管理好你的统计数据,为了使CBO能够为你的SQL语句产生一个最好的执行计划,必须要有与SQL语句相关的表和索引统计数据。只有当CBO知道了相关的信息,如表的大小、分布、基数以及列值的可选性等,才能对SQL语句作出正确的判断,从而得到最好的执行计划。

下面讨论一下如何获得高质量的CBO统计数据,如何为你的数据库系统创建一个适当的CBO环境。

CBO产生最好执行计划的能力来自于统计数据的有效性,获得统计数据的比较过时的方法是 analyze table 和 dbms_utility ,这两种方法对SQL语句的性能有一些危害,因为我们知道,CBO是使用对象统计数据(object statistics)来为所有的SQL语句选择最好的执行计划。
dbms_stats 应用功能包是产生统计数据较好的方法,特别对大型分区表而言。下面看一个使用 dbms_stats 的例子。
exec dbms_stats.gather_schema_stats(
ownname => 'SCOTT',
options => 'GATHER AUTO',
estimate_percent => dbms_stats.auto_sample_size,
method_opt => 'for all columns size repeat',
degree => 34
)

上面例子中的options参数的几个可选值需要说明一下。
GATHER 重新分析整个schema,产生统计数据;

GATHER EMPTY 仅分析那些还没有统计数据的表;

GATHER STALE 仅重新分析那些发生了10%变化的表(变化原因可能是 inserts, updates , deletes )

GATHER AUTO 仅重新分析那些还没有统计数据和发生了10%变化的表,该选项相当于 GATHER EMPTY 和 GATHER STALE 同时使用。

使用 GATHER AUTO 和 GATHER STALE 两个选项需要进行监控,如果你执行了 ALTER TABLE XXX MONITORING 命令,Oracle利用 dba_tab_modifications 视图跟踪表的变化,记录了最近一次统计数据分析以来的 insert , update , delete 的准确记录数。
SQL> desc dba_tab_modifications;
Name Type
----------------- ---------------
TABLE_OWNER VARCHAR2(30)
TABLE_NAME VARCHAR2(30)
PARTITION_NAME VARCHAR2(30)
SUBPARTITION_NAME VARCHAR2(30)
INSERTS NUMBER
UPDATES NUMBER
DELETES NUMBER
TIMESTAMP DATE
TRUNCATED VARCHAR2(3)

比较有趣的一个选项是 GATHER STALE ,比如在一个数据更新频繁的OLTP系统中,几乎所有的统计数据都会很快的过时,而我们必须记住 GATHER STALE 选项是在表中10%的记录发生变化时才对该表重新分析产生统计数据,因此除了只读表以外的所有表几乎使用 GATHER STALE 选项重新分析产生统计数据,所以 GATHER STALE 选项主要还是用于一些主要是只读表组成的系统中。

 

在上面使用 dbms_stats 的例子中,我们看到了一个参数 estimate_percent ,它的值是 dbms_stats.auto_sample_size, 这个参数值是 Oracle 9i 才开始使用的,这个参数值的出现极大方便了统计数据的分析产生。
我们知道,统计数据的质量越高,CBO产生最好执行计划的能力就越强,但是由于数据库统计采样大小的问题,对一个大型数据库系统做一个完整的统计数据分析产生将会耗时数天,最好的办法就是在高质量的统计数据和数据库统计采样大小之间得到一个平衡点。
在早一些的Oracle版本中,为了得到统计数据,DBA不得不猜测一个最好的数据采样大小百分比。但是从 Oracle 9i 开始,可以通过 dbms_stats 包来自己指定 estimate_percent 参数的值了,那就是 dbms_stats.auto_sample_size
通过这种方式设置了自动采样大小以后,我们可以通过下列数据字典视图的 sample_size 字段来验证这些自动产生的统计采样大小。
DBA_ALL_TABLES
DBA_INDEXES
DBA_IND_PARTITIONS
DBA_IND_SUBPARTITIONS
DBA_OBJECT_TABLES
DBA_PART_COL_STATISTICS
DBA_SUBPART_COL_STATISTICS
DBA_TABLES
DBA_TAB_COLS
DBA_TAB_COLUMNS
DBA_TAB_COL_STATISTICS
DBA_TAB_PARTITIONS
DBA_TAB_SUBPARTITIONS

使用自动统计采样以后,Oracle会根据表的大小和列值的分布在5%到20%之间取值。记住:你的统计数据质量越高,CBO作出的决定就越对你有利。

 

现在我们对CBO统计数据应该有一些了解了,下面来看看在一个成功的Oracle系统是如何管理CBO统计数据。

2.4.3 CBO的正确环境
成功使用CBO的关键是稳定性,下面是一些成功使用CBO的基本事项。

●只在必需的时候才进行统计数据的重新分析
Oracle DBA们最容易犯的一个普遍错误就是经常性的对系统的统计数据进行重新分析。记住:做这件事的唯一目的是改变SQL语句的执行计划,如果这个执行计划没有被破坏,就不要去修复它。如果你对SQL语句的性能还满意的话,重新分析产生统计数据以后可能会产生较大的性能问题,并给开发团队带来影响。实际运用中,也是极少数的Oracle系统才会周期性的对统计数据进行重新分析。
一般来讲,一个数据库应用系统的基本架构是不会轻易改变,大数据量的表仍然是很大,索引列的分布、基数值等等也很少变化。只有下列几种情况的数据库才可能经常对整个系统的统计数据重新分析:
1、用于数据分析的数据库
有一些由于科学试验数据分析的数据库系统,经常会更换整个一套的试验数据,那么这种情况下当数据库重新load了一套数据以后,可以立即重新对统计数据进行分析。
2、高度变化的数据库
这是极少数的例子,表的大小或者索引列的数据在剧烈的变化,比如一张表有100条记录,一周以后就变成10000条记录。这种情况下也可以考虑周期性的进行统计数据分析。

●强迫开发人员调整自己的SQL
很多开发人员错误的认为,他们的任务就是编写SQL语句然后从数据库中获得正确的数据。但是实际上编写出SQL语句只是开发人员一半的工作,在一个成功的Oracle应用系统中,会要求开发人员的SQL语句采用最优化的方式访问数据库,并且保证SQL语句的执行计划在新的SQL之间的可移植性。
令人惊讶的是,在许多Oracle应用系统中都不怎么考虑具体SQL语句的执行计划,认为CBO是很智能的,无论如何都可以为我们提供最好的SQL语句执行计划。
同一个查询在SQL语句中可能有不同方式的写法,而每一种写法都可能有不同的执行计划。观察下面的例子,每一个查询的结果都是一样的,但是执行计划却相去甚远。

-- 使用了不正确的子查询
select
book_title
from
book
where
book_key not in (select book_key from sales);

Execution Plan
----------------------------------------------------------
0 SELECT STATEMENT Optimizer=CHOOSE (Cost=1 Card=1 Bytes=64)
1 0 FILTER
2 1 TABLE ACCESS (FULL) OF 'BOOK' (Cost=1 Card=1 Bytes=64)
3 1 TABLE ACCESS (FULL) OF 'SALES' (Cost=1 Card=5 Bytes=25)

-- 使用了两张表的外连接
select
book_title
from
book b,
sales s
where
b.book_key = s.book_key(+)
and
quantity is null;

Execution Plan
----------------------------------------------------------
0 SELECT STATEMENT Optimizer=CHOOSE (Cost=3 Card=100 Bytes=8200)

1 0 FILTER
2 1 FILTER
3 2 HASH JOIN (OUTER)
4 3 TABLE ACCESS (FULL) OF 'BOOK' (Cost=1 Card=20 Bytes=1280)
5 3 TABLE ACCESS (FULL) OF 'SALES' (Cost=1 Card=100 Bytes=1800)

-- 使用了三个正确的子查询
select
book_title
from
book
where
book_title not in (
select
distinct
book_title
from
book,
sales
where
book.book_key = sales.book_key
and
quantity > 0);

Execution Plan
----------------------------------------------------------
0 SELECT STATEMENT Optimizer=CHOOSE (Cost=1 Card=1 Bytes=59)
1 0 FILTER
2 1 TABLE ACCESS (FULL) OF 'BOOK' (Cost=1 Card=1 Bytes=59)
3 1 FILTER
4 3 NESTED LOOPS (Cost=6 Card=1 Bytes=82)
5 4 TABLE ACCESS (FULL) OF 'SALES' (Cost=1 Card=5 Bytes=90)
6 4 TABLE ACCESS (BY INDEX ROWID) OF 'BOOK' (Cost=1 Card=1)
7 6 INDEX (UNIQUE SCAN) OF 'PK_BOOK' (UNIQUE)

我们看到,正确的SQL语句写法产生的执行计划是如此的不同。明智的开发人员知道如何去编写能够产生最好执行计划的SQL语句,明智的Oracle应用系统也会主动训练开发人员去编写最有效的SQL语句。

下面是一些帮助开发人员优化SQL语句的技巧:
1、 使用 autotrace 和 TKPROF 功能去分析SQL语句的执行计划;
2、 保证所有生产环境中的SQL语句都是在测试环境中经过优化的;
3、 制定一个性能优化的标准,而不是只要求开发人员编写出最快的SQL语句。根据这种标准,好的开发人员应该能够写出最有效的SQL语句。

●谨慎管理CBO统计数据
成功的Oracle系统会谨慎管理他们的CBO统计数据,以保证CBO在测试环境和生产环境中以同样的方式工作。一个聪明的DBA会在得到高质量的CBO统计数据以后,把这些统计数据移植到测试环境中,这样SQL语句的执行计划在测试环境和生产环境中就是一样的了。

对DBA来说,一个重要的工作就是收集和发布CBO统计数据,并随时保持一套当前运行环境的最精确的统计数据。在一些情况下,可能会有不止一套的优化统计数据。比如,对OLTP运行的最好的统计数据可能对数据仓库运行却不是最好的,在这种情况下,DBA就需要保持两套统计数据,并根据不同的运行条件导入系统。

可以使用 dbms_stats 包中的 export_system_stats 存储过程来完成CBO统计数据的导出。下面的例子中,我们把当前CBO统计数据导出到一张名叫 stats_table_oltp的表中。
dbms_stats.export_system_stats(‘stats_table_oltp’)

导出以后,我们就可以把这张表拷贝到别的实例中,当系统的运行模式改变以后,使用 dbms_stats 包中的 import_system_stats 存储过程来完成CBO统计数据的导入。
dbms_stats.import_system_stats(‘stats_table_oltp’)

●千万不要随便改动CBO参数的值
改动CBO相关参数的值是非常危险的,因为一个小小的改动可能就会对整个系统的执行性能带来极大的负面影响,只有在经过严格的系统测试以后才能改动这些参数的值。可能带来极大影响的参数值包括:optimizer_mode, optimizer_index_cost_adj, and optimizer_index_caching。而其他参数,比如 hash_area_size , sort_area_size,参数值的改变就不是那么危险了,可以在会话级进行改变以帮助CBO优化查询。

●保证静态的执行计划
成功的CBO应用会通过谨慎管理统计数据来锁定SQL执行计划,同时保证存储的优化计划的稳定性,或者在具体的SQL语句中加入一些细节上的提示。
记住:重新分析一个系统的统计数据,可能会导致成千上万的SQL语句改变其执行计划。许多Oracle应用系统要求所有的SQL语句在测试环境中经过验证,保证在功能上和生产环境是一致的。

2.4.4 CBO的思考
尽管我们已经对CBO的不少细节有了了解,但是由于随着Oracle新版本的不断推出,CBO变得越来越强大,同时也越来越复杂,我们仍然有许多关于CBO的知识需要学习。
下面是一些关于CBO调整的提纲性的建议,供准备进行CBO调整的DBA们思考。

●DBA可以提供一些Oracle参数的配置对CBO进行控制,但是只能在有限的环境下谨慎的改变这些参数;

●CBO依靠统计数据来产生SQL语句的优化的执行计划,可以通过 dbms_stats 包来分析、产生统计数据;

●DBA们的一项重要任务就是收集、管理CBO统计数据,这些数据可以被收集、存储,也可以在相关的实例中进行移植,以保证执行计划的连贯性。

●在没有使用 export_system_stats 存储过程导出原来的统计数据以前,重新对系统的统计数据进行分析是十分危险的,因为成千上万的SQL语句的执行计划将可能全部改变,而你却不能恢复原来的 SQL性能。只有在系统的数据发生巨大变化时,才可能需要对整个系统的统计数据进行重新分析。

本小节是关于CBO的一些技术讨论,原文来自 Donald K. Burleson 在OTN上的一篇文章,具体URL路径是:
http://otn.oracle.com/oramag/webcolumns/2003/techarticles/burleson_cbo_pt1.html

 

抱歉!评论已关闭.