发掘内容粒度，需要仿生学

现在的位置: 首页 > 综合 > 正文

发掘内容粒度，需要仿生学

2013年05月17日 ⁄ 综合 ⁄ 共 1490字 ⁄ 字号小中大 ⁄ 评论关闭

psytopic.com
    基于抓虾的按人订阅的模式，我看到了sayonly的这篇高论《发掘内容的粒度》，这就是人们阅读的一种方式。
    这种方式是自然的，是因为我们经常会听某位老师的系列讲座，纵论天下，跨越几千年；会把某位作家的所有作品通读，这就是按人订阅的原型。
    当然，并不是唯一的一种。
    我们最通常的模式，实际上是按主题订阅。
    也就是我们看电视看杂志看报纸的时候，看到某一个新闻事件或者视角，觉得蛮有趣的，于是展开阅读，并且第二天如果有后续报道，我们也会优先阅读。
这就是主题阅读方式。

发掘内容的粒度，需要仿生学。模仿用户行为，抓虾、GoogleReader、Bloglines模仿按人阅读。
那么按主题阅读呢？

    人们还有一种天然的阅读方式。我的朋友了解我，他的小圈子在阅读的书籍，也会优先推荐给我阅读。这可能就是sayonly说的“SN阅读方式”。
    现在有两种路径可以做到这一点。
    第一种，豆瓣式。
    第二种，机器硬算。
    我们这个团队做过试验，可以针对你sayonly的博客专门给你推荐可能感兴趣的文章。
    但是，机器两年之内干不过人。所以，我至今没想明白，怎么把人的发散性跳跃性和机器的严谨计算结合。

    假定发掘粒度这个词，sayonly指三种含义：
    发掘出你可能感兴趣阅读的人；
    发掘出你可能感兴趣的主题【可能你知道这个主题，也可能你还不知道它的存在，比如新热点，比如久远的主题】
    发掘出你可能感兴趣阅读的文章。

    那么，针对发掘出你可能感兴趣的主题，以及发掘你可能感兴趣阅读的文章，我们做了一个小小的有趣的尝试：http://www.onejoo.com/ 。
    从页面上看玩聚(OneJoo)似乎不成熟，但它的背后揉合了以下技术：
    a.玩聚的热点都是机器自动发现的，每天定时经过了大规模文本挖掘计算得到的当天的互联网热点；机器每天都在算。
    b.玩聚的每一个专题的文章也绝大多数来自于机器的聚类计算或者从热点导过来的。
    c.对于每一个专题，机器都会每天计算后续追踪报道，根据语义。
       http://www.onejoo.com/TopicMix.asp?iden=1&topicid=840 [限速标志牌，司机躲不过的“陷阱”？] , http://www.onejoo.com/TopicMix.asp?iden=1&topicid=826 [山西设百万奖金奖励一把手], http://www.onejoo.com/TopicMix.asp?iden=1&topicid=825 [职业乞丐增多，专家建议发放“行乞信用证明”],http://www.onejoo.com/TopicMix.asp?iden=1&topicid=836 [李宇春抢刘翔风头体育界集体抗议？]，这几个专题页面的“时间脉络”模块都清晰地显示了“李宇春抢刘翔风头”等热门话题被机器后续追踪到的每日博客评论。

    玩聚用到的技术：
        热点新发现计算；
        时间脉络计算；
        聚类计算；
        爬虫，在酷讯大打嘴仗的今天如果爬虫现在还算做技术活儿的话。