现在的位置: 首页 > 综合 > 正文

前言

2014年10月11日 ⁄ 综合 ⁄ 共 1767字 ⁄ 字号 评论关闭

网络是社会创造的而不是技术创造的。我设计她是为了社会效益--使得大家能协同工作,而不是作为一个技术玩具。网络的终极目标是支持和改善我们在世界上象网络一样的存在。我门使家庭,社团,公司各自更紧密的联系在一起。我们使得千里之外的人互信互利,同时消除躲在人们心中黑暗角落的猜疑。--Tim Berners-Lee 

谁适合读这本书?

如果你有基本的编程背景,并且对挖掘和分析社交网络数据感兴趣,想要把握住随之而来的机会,那么你来对地方了。在读完这本书的前几页后,我们就将开始动手实践。我是个直性子,然而,要事先声明的是,读者最可能要抱怨的是,本书的所有章节都太短。但是在象这种日新月异且充满机遇的领域,这种情况往往是必然的。也就是说,我相信80比20理论,我深信这本书很好的呈现了你想探索的这个领域20%有趣的知识,但需要你花80%的可用的时间。

这本书很短,但它的覆盖面很广。一般来讲,宽度较深度来说要多一些, 这就导致书中一些主题需要更详细的探讨,当然,也有一些深入的部分去探讨有趣的数据挖掘和数据分析技术。你既可以一章一章左右为难的读完本书,来拓宽你在处理社交网络数据的视野,也可以选择一些特别感兴趣的章节来读。换句话来说,每一章节都是一口大小的且完全独立, 但是我特别花心思来按一定顺序编排这些材料,,使得这本书作为一个整体来读会很有趣。

最近几年,社交网站,例如Facebook, Twitter 和 LinkedIn, 从流行,到主流,已经转变成世界普遍现象了。在2010年第一季度, 最流行的社交网站Facebook已经超过Google,成为最经常访问的网站,正好说明了人们上网习惯的改变。断言网络更多是一个社会环境而不是搜索信息的工具,可能还有些言过其实。然而,社交网络正在满足人们很多基本需求,而搜索引擎却不是为这些方面设计的。社交网络正在改变我们线上和线下的生活,它们使得技术能给我们带来最好的(有时候是最坏的)东西。由于社交网络的爆发,现实世界和虚拟世界的界线进一步变窄了。

基本上,本书的每一章都会针对社交网络,以数据挖掘,数据分析,可视化等技术来回答以下几种问题:

  • 谁可能认识谁,他们有哪些共同的朋友?
  •  人们之间交流的频度是怎么样的?
  • 人们交流在多大程度上是对称的呢?
  • 在网络上,谁是最安静的人,而谁又是最善谈的人呢?
  • 在网络上,谁是最有影响力的人,而谁又是最受欢迎的人呢?
  • 人们正在谈论什么(它是否有趣)?

回答这些类型的问题的一般方法是将两个或多个的人联系在一起,找出表明联系存在的上下文。而回答这些类型的问题仅仅是复杂处理过程的开始, 但是你必须从某处开始着手,毕竟低处的水果容易采摘嘛, 我们要感谢那些设计良好的社交网络APIs,以及众多开源的工具。

粗略的来讲,本书将社交网络看作人,活动,事件,概念等组成的图。作为行业领袖,Google和Facebook都在开始积极推进以图为中心的术语而不是以网络为中心,他们几乎是同时推出以图为基础的API。事实上,Tim Berners-Lee已经暗示他本应该用Giant Global Graph (GGG)这个词而不是World Wide Web(WWW),因为在定义因特网的拓扑结构时,“网”和“图”两个词很容易互换。无论Lee对网络的最初观点被怎么看待,但随着社交数据的发展,网络正变得越来越丰富。当我们回顾几年前,很容易发现,原有的社交网络所创造的第二和第三级(译:不知指什么)的影响,使得我们认识到真正的语义网络,二者之间的距离正在缩短。

谁不适合读这本书?

如果您要从头开发自己的自然语言处理程序,探索新的可视化库, 或者创建任何技术前沿的东西,都不在这本书的范围内。您会感到非常失望,如果您买这本书是因为这些原因之一。然而,用短短的几百页,去阐明文本分析或记录匹配也是不现实的,这也不是我的目标,但是也不意味着,这本书不会帮你获得一些对困难问题的合理解决方案,将这些解决方案运用到社交网站领域,会是一个很有趣的过程。它也不意味着将极大的兴趣投入到上述这些有意思的研究领域不是个好主意。像这样一本简短的书不是不可能满足你很多方面的需求的。

在这个时代是很明显的,这本书默认你是能连上因特网的。这也不是一本假期读物,因为它涉及很多超链接,其中很多在GitHub -- 一个社会化的git仓库,很多示例代码放在上面了。


【上篇】
【下篇】

抱歉!评论已关闭.