大数据的删除怎么弄

现在的位置: 首页 > 云计算 > 正文

大数据的删除怎么弄

2020年01月08日 ⁄ 云计算 ⁄ 共 1112字 ⁄ 字号小中大 ⁄ 评论关闭

　　从海量数据表中删除一半数据，看似简单，使用delete命令，如果真这么干，SQLServer产生的事务日志暴增，估计会把服务器硬盘爆掉。数据库的恢复模式会影响日志文件的增长，在删除海量数据时，根据采用的方法，相应地把恢复模式设置为simple，或bulk_logged模式，能够在很大程度上减少删除操作产生的事务日志，从而避免日志暴增。

从海量数据中删除数据

　　在删除数据时，把表上的多余索引删除（注意，是删除多余的索引），只保留一个必需的索引；在数据删除完成之后，再重建索引，能够提高数据删除操作的性能。有人做过实验，从存储1.6亿条记录的大表中删除数据，每删除400万条要消耗1.5-3小时，越到后面速度越慢，为什么？这是因为，每次删除数据时，数据库都要相应地更新索引，这是很慢的硬盘IO操作，并且，越到后面，索引碎片越多，更新索引就越慢，这就是在删除400万条记录时，一开始只消耗1.5小时，后面要消耗3小时原因。

　　最后，根据保留数据占总数据量的比例，选择不同的方法删除数据。如果大表中保留的数据较少，可以先把保留的数据存储到临时表中，然后，把原始表删除，这样能够利用大容量日志操作，来减少日志的增长和提高数据插入的速度。

　　一些看似简单的数据操作，当作用于海量数据集时，就会出现“意料之外，却在情理之中”的问题，海量数据操作，需要采用特殊方法，才能“曲径通幽”。在删除海量数据时，需要注意日志的增长，索引碎片的增加和数据库的恢复模式，特别是利用大容量日志操作，来减少日志的增长和提高数据插入的速度。对于大数据去重，通过一些小小的改进，比如创建索引，设置忽略重复值选项等，能够提高去重的效率。

　　将数据插入到临时表中，把原表drop

　　如果原始表有一半以上的数据要被删除，从原始表中执行delete命令删除数据，效率十分低下，可以考虑，把原始表中的数据通过select语句筛选出来，然后批量插入导新表中，这种方式利用了大容量日志（BulkLogged）操作的优势。由于SELECTINTO，INSERTSELECT是大容量日志操作，select命令不会产生大量日志文件，因此，执行插入比执行删除的效率更高。最后，执行drop命令，删除整个原始表，几乎不消耗任何时间。

　　循环删除，避免日志文件暴增

　　在从海量数据表中删除大量数据时，为了避免日志文件暴增，通常采用循环删除方法：首先设置恢复模式为simple，然后每次删除操作都只删除部分数据，这样，当单个删除操作执行完成时，事务日志会被及时清理，事务日志一般保持单个删除操作的事务日志量。

　　结束语：以上就是关于大数据的删除怎么弄的全部内容，更多内容请关注学步园。

【上篇】Jenkins入门–安装
【下篇】Centos7上安装与配置Elastic Stack

作者: admin

该日志由 admin 于4年前发表在云计算分类下，最后更新于 2020年01月08日.
转载请注明: 大数据的删除怎么弄 | 学步园 +复制链接

抱歉!评论已关闭.

学步园