用户名:
chairwolf
自由自在,多姿多彩。放浪形骸,散淡人生。来如雷霆收震


发送站内短信
查看博客个人资料
发表文章

文章目录


精华荟萃      更多


精华            更多


最近文章


热门文章


最近评论


 

搜索

 
 总点击: 25700658

我为什么支持绽铃子的CPU缓存项目在海归网的讨论?   Comments

请注意,是支持项目的讨论,而不是项目本身。老狼对CPU,跟这里的大多数人一样,绝对是个外行。所以我对项目本身的看法,本身就有一个前提,那就是:这是一个外行的看法。投资人我估计也差不多。投资人刚好是某个领域的内行的,这个概率估计很低。他只能去雇内行。

老狼是理科出身。经常我被问到一个问题,就是我对那些 supernatural 的东西,比如命运、风水和鬼神之类,信不信。我是这么回答的:我所受到的教育和训练,至少给我一个素养,就是对于任何假设,没有得到足够的证据支持之前,我都不去接受或者拒绝。

我对一切事物都是 open mind. Nothing is impossible. 虽然我是理科出身,但我也承认很多东西光靠科学无法解决。不说那些N维空间和超自然的玄事,就是商业运作,其方法也主要分成两支:科学和艺术。作决策的时候,有人主要靠数据,有人主要靠直觉。大部分人是两者结合,缺一不可。军事上也一样。

但我们现在是在谈技术问题。不管直觉、顿悟或者灵性等在“发现”上有没有起作用,但“实证”阶段还是跑不掉的。比如爱因斯坦的相对论,虽然主要的不是实验的成果,而是天才的发现,但是发现了以后,还是需要用物理实验去验证的。就是说,不管你用什么方法,甚至你可以不用科学的方法。但只要这是技术问题,只要这是现实问题,那就需要用科学方法去验证。因为现实的问题和技术问题的起码前提是可重复性。就是只要给出A,就必有B。算命你可以把方法说的玄而又玄,风水、面相、称骨或者紫微斗数什么的,但必须要看结果,就是你根据这个方法所给出的预测,到底有没有实现。

现在我们来看绽铃子的技术。不管绽铃子以前说过什么跟科学不相干的东西,我们在此也不去管那些东西到底对不对,但至少,对于这个CPU的缓存技术来说,他是按照科学的路子走的,就是第一,申请专利;第二,以逻辑和实验去验证他的发现。第一步他已经做了,做的是否到家,这个见仁见智。我的看法是,人不可能是全才。每个人都有很多他所不知道的东西。所以面面俱到是不可能的。而个人的资源太弱小。一个人在短暂的一生中,在激烈的竞争中想要有所成就,只能“攻其一点,不及其余”,在自己的漏洞给自己带来实质性的危害之前攻陷关键阵地,给自己盘活全局留下“气眼”。所以我对老中总去挑别人的漏洞,看起来成理,实际上我是不以为然的。嗯,你做得滴水不漏,so? 人的时间是一个常数,你做了这个,就没法做那个了。这就是所谓的机会成本。所以必须得有取舍。回头我另外写一篇关于细节的文章,专门来谈这个问题。

至于第二个问题则是绽铃子目前棋局的关键。这里有两个假设,就是 1)缓存墙问题的确是CPU发展的重大障碍;2)绽铃子不可能一步到位,找到像Intel或者AMD那样的大买家,去用他所满意的价位去直接购买他的技术。所以在这之前,他必须唤起这些“傲慢的专家”的注意,并且以扎实的数据去证实自己的技术。在这个过程中,以竞争的实际压力,去迫使各方采取更加积极的姿态。

但是进一步的实证就需要钱了。在以上假设之下,绽铃子既然不能一步到位,那就可能需要分几步走。第一步当然是逻辑证明,第二步可以是模拟,然后第三步可能是一个 prototype。我完全是个门外汉,所以只能粗粗地猜想。然后要确定这几步的成本,根据这个去明确的寻找每一个阶段的投资人,然后由这些由小到大的投资人去组成一轮又一轮的接力。随着技术价值的不断被证明,吸引到越来越多、越来越大的投资。当然这是顺利的情况,这中间是一定有风险的。这需要行内的人去清晰地将风险表述清楚。

其实以上都不是我主要关心的东西。实际上,就跟资金找技术是一个沙里淘金的行为一样,技术找投资也是一个沙里淘金的行为。两者最终走到一起,都是一个小概率事件。所以当事人能做的,无非是增大碰撞率(曝光率),也就是增加总体事件,另外尽量地增加每次碰撞的成功率。这个需要技术的持有人,尽量耐心、平和、认真地去解答投资人的所有疑问,并在一定的程度上作出妥协, and vice versa。

对于我来说,正如大部分的创业,从统计上来说是一定会失败的一样,大部分的项目,从统计上来说也是没有结果的。但这不是我们不去做的理由。淘金者如果只愿意去直接挖出纯金来,说这么多的沙子你还把我弄这儿来说这是金矿,这不是开玩笑吗?那这种淘金者多半会饿死。海归网能够扮演的角色就是提供一种筛选机制,给投资人和项目持有人搭个桥梁,让项目在相对而言各方面的行家都比较多的环境里,受到各种质疑和挑剔,而不是根据各人的感觉,根本去排斥这种presentation和讨论。当然在这种质疑和挑剔中,会有负面的效果。就是一些投资人会被一些负面的评论给吓退了。这有三种可能,一是对方认同这些质疑;二是经过讨论和对话,对方认为项目在风险、资金量、行业等方面,不适合自己;三是对方作出了错误的选择。但不管是哪种可能,都不必可惜。一个项目的最后成功,就像唐僧取经要经历九九八十一难一样,以后的路程会更加艰辛的。所以一开始就打退堂鼓的,后面会退的可能性也相当大,那时候会浪费的时间更多,更麻烦,不必太惋惜的。所以希望项目的持有人,一定要有一颗平常心。谋事在人,成事在天。

到现在为止,至少在我这个外行眼里,尚没有内行出手,以专业、逻辑和事实,将绽铃子的理论驳倒的。反而有不止一个内行,对绽铃子的理论很感兴趣,想跟他继续切磋。所以至少我们可以判断,绽铃子的理论,至少不至于是太不靠谱的大忽悠。他敢于在这里公开present自己的技术并接受质疑,本身就是一种很大的 credit. 因为在公开的讨论中,各种视角都会呈现,其技术的各种软肋都会被指出,从而也就大大地减低了投资者被忽悠的风险。

总而言之,我们既然是沙里淘金,就决不能说你必须是一块纯金才能放在这里讨论,沙子全他妈给我滚蛋。那还要我们这个地方干什么。一目了然的好东西,根本就轮不到你,早他妈蜂拥围上去了,价格也会高到天上去。我们基本的假设就是我们是一个外行,即使是内行,也会有看走眼的时候,所以 Never say never. 《战国策》里面的那个千金买马的故事,应该对我们有一些启示。重金买回来的,竟然是马的尸骨,而昭王要的是千里马!这不乱搞吗?实际上,马骨尚且都重金购买,何况真正的千里马呢?反过来说,如果我们连绽铃子的项目都不能相容,不让在这里讨论,那其他的项目就更不敢在这里献丑了。至少,绽铃子的技术还有正式申请的美国专利,并且他为此投入了相当于人民币几十万元,这说明他还是足够serious的。而其他大部分项目,连专利都没有。绽铃子的项目不能讨论,别的项目就更不能讨论了,一讨论就是犯傻露怯。其结果,门可罗雀好了,大家大眼瞪小眼,谁都别献丑卖乖。不说话就没有错,都他妈的最高明、最正确。不做事情最稳当。海归网应该是一个百花齐放、百家争鸣的局面,甭管谁高谁低,都有权利在这里占有一席之地。可以表达自己的质疑、批评,但没有必要攻击个人。因为这里的都是些虚拟的人,我们谁都不认识。关键是这个事是不是对。道理说清楚了,就可以了。至于别人是怎么判断的,让别人根据自己的价值标准、能力和是非判断去,我们不去操心。因为我们自己心中的是非,未必就是别人心中的是非,也不必一定要成为别人心中的是非。只有大家都有一个开放的心态,我们才可能有一个足够宽容、可以成事的环境。这实际上对我们大家自己都有好处。

21240 次点击    关键字: none

16 回复 -- “我为什么支持绽铃子的CPU缓存项目在海归网的讨论?”

  1. 笑狮子, on January 1st, 1970 at 8:00 am, said:

    标题:老狼创建的归网,就是这么一个平台,应该说是无价的,甚至在国内是唯一的。

  2. 网客JT, on January 1st, 1970 at 8:00 am, said:

    标题:[CPU cache 问题技术讨论] 自称外行的请勿入,勿语。

    老狼说: 

    引用:
    尚没有内行出手,以专业、逻辑和事实,将绽铃子的理论驳倒的。反而有不止一个内行,对绽铃子的理论很感兴趣,想跟他继续切磋。所以至少我们可以判断,绽铃子的理论,至少不至于是太不靠谱的大忽悠。

    为了表示支持,我开一技术thread, 希望大牛们跳出来挑战一番,最起码活跃了论坛。

    Start with Cache 101:

    T0=T
    T1=(1-a)*T + a*Th + Tm

    随着a增大, T1<T0

    其中:
    T: memory access 的时间。
    a:  cache hit rate, 即所取数据在cache里而不需要access memory的百分比。
    Th:  cache access的时间, Th<<T (远远小于的意思)
    Tm: cache management 带来的overhead, 包括dirty entry write back, 即cache里被改变的数据,要在适当时间写回memory; 包括cache algorithm本身需要耗费的时间.

    T0: 没有cache的平均memory access 时间, 
    T1: 有cache后的平均memory access 时间。

    注: 上面所有的“时间”,都是以CPU cycle来计量,是细节问题,就理解为“操作要耗费的时间”即可。

    cache 101 的基本问题:

    Th<<T, 所以, T1<T0, 即cache带来的overhead 远低于其带来的好处。 所以CPU 都用cache.

    cache 102的基本问题:

    什么样的cache algorithm (& corresponding design)更有效?
    CPU 业界数十年积累,采用的是LRU, 所有算法里最简单的算法。 为什么? 先不提。

    改善cache algorithm, 会提高a, 即hit rate, 从而会改善T1。 Wang Qufei 博士的发现,就是
    1) 如果采用Weighted LRU, 对特定的application (如web server), 会大幅度提高a,
    2) 并且对其它的application, a 也不降低。

    其1) 肯定是对的, 因为。。。那没有办法不对。 LRU 是几乎最差的算法(因为是最简单的算法)。

    其2) 。。。权当也是对的。

    王博士继续宣布:

    3) 如果采用该WLRU 算法, intel 的CPU performance 会radically improve.
    4) radically improve的程度,是可以完全解决"内存墙" 的问题。
    5) 。。。。

    请支持或反对WLRU 具有革命性后果的内行同学,批判或反对一下上述的综述。 (按论坛规矩, 没有反对的就是赞成 :-)

    hint: 上述1) 和 2) 如果代表了王博士“发现”的主要内容, 那么: 这个发现discovery 一定是valid, at least partially, 所以大家不必存疑。

    《未完待续》

    有CS 、EE 背景的同学,可以瞄一眼这里罗列的cache algorithm的laundry list, 可以了解在众多的算法中, 王同学的算法归于哪类。
    http://en.wikipedia.org/wiki/Cache_algorithm

    也可以看看这篇论文:Outperforming LRU with an Adaptive Replacement Cache Algorithm, 2004 年发表在IEEE Computer。
    导读: 1) 看看其introduction对该领域背景的概括(不要骂人家一句愚蠢就完了),尤其是:

    Discarding the least-recently-used page is the policy of choice in cache management. Until recently, attempts to outperform LRU in practice had not
    succeeded because of overhead issues and the need to pretune parameters. 。。。 the need for the workload-
    specific pretuning that plagued many previous proposals to improve LRU.

    2) 看看对improve cache algorithm的科研成果能带来的dramatic 行业冲击的预估(which is none, nil, zero…)

    http://www.almaden.ibm.com/cs/people/dmodha/ARC.pdf

  3. Sarakawa, on January 1st, 1970 at 8:00 am, said:

    标题:写得非常好,加颗星!并期待下文。

    建议开成主贴,不要跟在老狼的帖子后面。

    另外,我补充一下:绽玲子说过WLRU不仅仅对web应用有很好的效果,对图像类(比如游戏,3D图像….等等)的应用也很好的效果,你只说了web部分,请进一步分析时补充这一点。

  4. 网客JT, on January 1st, 1970 at 8:00 am, said:

    标题:问你个简单的问题,

    有助于理解哪些是胡言乱语,哪些是真东西。

    cpu cache为什么有L1, L2 之分? 换言之,为什么要设两层(甚至三层)cache?

    只讲主要的trade-off consideration就行了。

    By the way, specific applications (i.e. web server), 作为一个argument, 等价于 spefici applications (i.e. web server, graphic applications, games, etc).

    The point is, application specific or not.

  5. Sarakawa, on January 1st, 1970 at 8:00 am, said:

    标题:我这么理解:L1是CPU的cache,L2是L1的cache,Ram是L2(相对硬盘,IO…等)的cache…

    其逐层做buffer的本质,其实都是相同的,类似一个迭代和递归的过程。故tradeoff条件可以推导如下:

    注: 因为我不是做CPU这行的,所以给出的公式和推导过程可能不会很合乎规范,不过按照你在帖子说的很清楚的时间计算方程和tradeoff条件,大概我们可以这么推演:

    把L1和L2两级缓存看成一个大的缓存,按照你给出的公式,有:

    T0=T
    T1=(1-a)*T + a*Th + Tm

    再把L1和L2拆开,把L2看成L1与Ram之间的cache,又有:

    T0′=T’
    T1′=(1-a’)*T’ + a’*Th’ + Tm’

    tradeoff条件应该是:T0>T1,并且T0′>T1′,

    匆忙之间做的推导,如果不对的地方请多指教。突然感觉又回到中学参加数学夏令营时学习建模的时代了! :lol: :lol: :lol: :lol:

  6. Sarakawa, on January 1st, 1970 at 8:00 am, said:

    标题:另外还有一个关于specific applications的忘了说。

    一个算法在一类specific application上有好的效果,和在好几类specific applications上有好的效果,不可以同日而语——尤其是,如果其中一个specific application是非常耗时,且其应用很广泛的话,那这个algo的意义就更无法简单类比了。

    所以,绽玲子claim他的WLRU对Video/3D应用等也很有效果,你不能视而不见。我知道你以前提出过一个观点是:针对一个(或者一类)specific application做optimization,那很容易,也没什么用,这个观点我同意。

    可是如果一个algo对好几类重要应用都有好的效果,就不一样了。

  7. HappyPoorMan, on January 1st, 1970 at 8:00 am, said:

    标题:老兄写得很好

    我是外行,擅自闯入还乱发言,先抱歉。

    不过您说得很清楚,连我都看懂了。不管绽大师说的WLRU对某种应用是否有提高,但对general purpose的cpu是无效的。

    有点象热力学第二定律,对于孤立系统,你可以减少系统某部分的熵,但不能减少整个系统的熵。

    天下没有免费的午餐。

  8. 网客JT, on January 1st, 1970 at 8:00 am, said:

    标题:这个问题有个简单明了的答案。 你说得没到点儿上。

    你问问你support的大师, 他要能把这个答案说出来,才算是具有CPU Cache方面基础常识。(你没有)

    说不出来, 直接归入恶意忽悠类。

    等着看吧。

  9. Sarakawa, on January 1st, 1970 at 8:00 am, said:

    标题:我修改了一下,请再阅

    不好意思,刚刚回头看了一下,觉得第一次给出的那个推导过程不是很简洁,公式写的也有点问题,我再修改了一下。匆忙之间做的推导,总有瑕疵,请多包涵。

    另外,我suport的是“理性讨论”这个立场,不是绽玲子的算法或者他本人的任何东西,这个参与讨论问题必备的根本原则,你没有。 :mrgreen: :mrgreen: :mrgreen:

  10. 绽铃子, on January 1st, 1970 at 8:00 am, said:

    标题:天下就是有免费的午餐。不然,电灯,电话,汽车哪里来的。

  11. 绽铃子, on January 1st, 1970 at 8:00 am, said:

    标题:在我的博士论文里面,有对基本上所有其他替换算法的实验和评价。

    比你列的那篇论文详细,深刻多了。

    目前为止,只有我的发明,彻底打败了LRU。

    因为,我在最基本的理论上有突破,有新发现。

    你如果继续探究下去,就知道这个新发现和突破的重大意义。

  12. 绽铃子, on January 1st, 1970 at 8:00 am, said:

    标题:SPEC CPU2000 基准测试程序,我都比较了。你还敢说是application specific

    世界上,没有任何CPU,敢于象我一样,把 SPEC,web server,3D,digital video,全部做完的。

    Intel 没有,Nvidia也没有, IBM更不行。

  13. 绽铃子, on January 1st, 1970 at 8:00 am, said:

    标题:要不要我抄一段我的论文给你看。我以前科普过,L1缓存就是衣兜,

    L2缓存就是提包或者背包,L3缓存就是拉杆箱。

    Intel的Core i5, i7系列是三级缓存。 L2只有256KB,L3是8MB,12MB。

    为什么这么设计?

    你能答上来,我卖了专利,分你1%。

  14. SeamusGOGOGO, on January 1st, 1970 at 8:00 am, said:

    标题:分给我吧。

    区别在于死规则和优化组合。

  15. SBYY, on January 1st, 1970 at 8:00 am, said:

    标题:天JJYY

    天JJYY
      那卖一个WLRU的FPGA仿真给我们看看不就OK了
      天天讲空话,总是看不到东西,
      实验室里的东西离实用还差10万八千里,
      实验室里的东西再说也没有用的,
      没有商业化的东西就像汉芯一样,
      有谁再用?
      骗完经费了,把东西一扔就不管了,
      对一些不懂得S13说,我们中国国汉芯多么多么先进,
      多么多么领先,
      我们的WLRU多么多么先进,
      多么多么领先,
      20年后,谁知道 绽X子 ????
      估计20年后大家还是知道Intel 奔腾100 windows
      几年后S13绽X子还在jjyy
      我们研究出了虎芯NAND  多么多么先进,多么多么领先,
       一些S13研究出了一个CPU就JJYY比Intel强,人家Intel不考虑兼容性,比你强1000000000000000000000000000000000000000000倍,
      CPU设计现在都是非常简单的事情了,一个人培训30天就会了,用一个CPLD做一下就出来CPU了,还以为多难呢!!!

  16. SBYY, on January 1st, 1970 at 8:00 am, said:

    标题:装1年的B,不容易啊

    装1年的B,不容易啊

发表回复

校验码:  


你可以 回复, 或者 trackback 到你的网站.