现在的位置: 首页 > 综合 > 正文

大数据碎碎念

2018年11月05日 ⁄ 综合 ⁄ 共 1232字 ⁄ 字号 评论关闭

现在一开电脑,尤其是一些IT性质的网站论坛,所谓大数据真是铺天盖地,很有气势。

好像每个搞IT的同仁不说点关于大数据的东西,都不好意思跟人打招呼。

 

关于这种疯狂,我们已经看得够多了。什么SOA、Ajax、RIA、HTML5......

 

当繁华过后,这写概念本身又能给我们留下点什么呢?

 

我们还不是得跟往常一样,像狗一样的写着下一秒就可能被否定的代码?

 

我不赞成炒概念,但是也不是说见着炒概念的就要批个你死我活。如果能靠这些概念忽悠让你所谓的成功一把,那也是您的能耐,至少这说明您可以不用像吾等守着电脑,一行行的敲代码了。

当然这种成功严格意义上只属于成功者个人,而不是这个行业。因为,如果你换一个人去忽悠,可能就会死的很惨很惨。

 

好了,说点和题目关系比较大的,大数据。

 

 

这其实不是什么新鲜的概念和技术了,就像当年Ajax出来的时候,其实也TMD就是浏览器暴露了一个可编程的js对象而已。而又因为很多浏览器的历史原因使这个对象的实现又各有不同,这时就需要一个已经写好的if else来封装一下这个脾气怪异的编程对象。。。其实整个过程就是这样,平常的不能再平常。

 

大数据也一样,大数据就是量比较大的数据而已。当然你把一条数据复制10亿条,量也不小,但这毫无意义。

 

真正的互联网大数据首先是内容丰富的。是基于互联网产品真实应用场景,由用户按照自己真实的意愿进行操作,由系统真实记录而形成的一条条反映客观情况的数据的集合。

 

其实每条数据之间没有任何关系,但把他们都放在一起就有了关系。

 

就像抛硬币,每次都各自独立,互相之间毫无关联。但当你抛很多次,并把这些情况汇总到一起的时候,你就会发现一些规律。

 

其实自从有了互联网,尤其是web2.0,关于通过基于网站数据分析,和数据挖掘的事就一直存在。

就像对于电商网站,从数据库里面统计下每天卖了多少商品,哪个商品卖的好一样。这真TMD是平常到不能再平常的事情了。

 

只是现在上网的人多了,网站多了,网络应用和产品更丰富了,我们收集到的数据更多了。

这时我们再做我们熟悉的事儿的时候就变的有点困难了,毕竟数100只羊和数100亿只羊虽然理论上一样,但操作方面却不一样,不过也就仅此而已。

 

这时市面上就出现了很多牛逼的数羊机器,有集中式的也有分布式的、有大厂商的也有社区的、有批处理的也有流式的、有关注吞吐量的也有关注实时性的,五花八门、琳琅满目,但这不过只是在不同时候用起来更称手的数羊机器而已。

 

我想强调的是,这些机器无论再牛逼也不是数据,即不能创造也不能改变数据。数据只和数据自己有关。

 

而数据分析和挖掘则是人类一个永恒的话题,起于互联网之前,也不会终于互联网之末。

 

 

其实就如抛硬币,我们都知道抛硬币正反面概率的经验值各是0.5,而我们也都知道只有当抛很多次的时候,统计值才会接近于经验值。只抛1次,则毫无意义。这里的“很多次”就是我们说的大数据的“大”。

 

其实所谓的大数据研究,就是抛很多次硬币而已。

 

而这是一个相当古老的话题。。。

抱歉!评论已关闭.