GPO:深挖 ASIC 芯片设计成本,我们问了 ProgPow 核心开发团队九个问题

Odaily星球日报译者|Moni

概述

只要与ProgPow和Ethash算法有关,市场上就会出现各种对矿机硬件设计和开发成本的推测,通常后面还会跟上一个权威声明:请相信发表预测的作者,因为他/她在相关行业领域里拥有丰富经验。这些推测有时会与加密货币ASIC芯片生产有关,还有些时候则是关于集成电路设计。对于那些更熟悉代码、却不太了解扇出和上升时间的读者来说,本文可能会对他们深入了解ProgPow算法有所帮助。程序员总是会给人一种无所不能的感觉,从编写脚本到开发iPhoneAPP,从嵌入式系统到Windows操作系统。但是,会写代码开发应用程序不代表你能成为APPStore应用商店后端的权威人士,能够开发实时多任务操作系统也不代表你能成为扩展Windows操作系统成本权衡领域里的达人。当然,作为ProgPow算法核心开发团队,IfDefElse在此并不是说Windows设计师不是“优秀的程序员”,但必须要说明的是,由于不同人的技术背景不同,很容易造成对不同领域的理解和假设偏差,特别是在讨论规模经济话题的时候。同样地,一名硬件设计师可能也会涉猎不同的领域,比如为一款电动牙刷设计芯片,或是为网络设备构建一个芯片架构。生产10万个电动家牙刷芯片的工程师可能不会理解生产100万个芯片的网络工程师所考虑的可用规模经济,同样一个加密货币ASIC芯片设计师可能对GPU-ASIC芯片设计知之甚少——这些行业彼此之间的联系并不是很多,有的甚至是国与国之间的差距。在概述中我们还要提的最后一点,就是编程和工程其实都是一种技巧,除非你每天都在编程写代码,否则很快就会落后、无法成为权威,因为这方面的知识更新迭代很快。或许这也是为什么新的加密货币ASIC制造商很难进入基于SHA-256算法的挖矿市场,毕竟一个新手程序员想要赶超已经研究SHA-256算法六年的工程师是不太可能的。另一方面,加密货币生态系统里其实并没有太多文章介绍硬件知识。当然,加密货币本身就是一个以软件为主导的行业,而且绝大多数硬件工程都是在一些私人公司内部“闭门”研究的。有些“硬件砖家”正在竭尽全力向软件工程师保证他们能够战胜加密货币生态系统——我们已经在门罗币、比特币、以及ZCash等加密货币上看到了这种情况已经出现。但现实是,这种挑战至今仍没有发生,想想看,如果比特大陆或Innosilicon试图制造CPU,你认为他们能够战胜英特尔和AMD吗?解析ASIC芯片设计成本

Yuga Labs游戏主管:最新游戏Forge的用户数量是前一款游戏的两倍:金色财经报道,Yuga Labs首席游戏官Spencer Tucker表示,其最新视频游戏Forge的用户数量是前一款游戏Dookey Dash的两倍,Forge第10天的用户留存率为42%。

根据 CryptoSlam!数据,Yuga今年早些时候推出了Dookey Dash,该游戏的Sewer Pass NFT产生了超过1.1亿美元的交易量,继Dookey Dash之后,Yuga在6月推出了新视频游戏HV-MTL Forge第一季,为了玩游戏,玩家需要拥有一个 HV-MTL NFT,根据OpenSea的数据,这些NFT 目前的底价为0.57ETH(约合 1,045 美元),自3月份首次推出以来已产生近6400万美元的交易量。

Tucker表示,HV-MTL Forge有六个赛季和两种模式,第二种模式将在未来几周内启动。[2023/8/3 16:15:11]

规模经济总是普遍存在的——不管是从成本角度,还是经验角度。对于ASIC芯片设计成本,芯片设计师们似乎总是存在很大争论,下面就让星球君带大家一起看看解析一下受到业内关注的九个问题:问题一:不管挖矿算法是ProgPow,还是ETHash,哈希值都是由外部动态随机存取存储器的存储带宽决定的,是这样吗?事实并非如此。ProgPow的哈希值是由两个因素决定的:1、计算核心2、内存带宽这就是为什么Ethash和ProgPow之间存在差异,如下图1和图2所示:图1:英伟达芯片产品挖矿哈希率比较

图2:AMD芯片产品挖矿哈希率比较

现阶段,ETHash挖矿更有利可图,针对该算法的内存需求明显增加,对于高带宽存储器的需求不断增长也促使下一代高速存储器技术被开发了出来,比如GDDR6和HMB2。对于高带宽内存的需求并非全部来自“Ethash”,整个高带宽内存市场规模高达150亿美元,其中只有很少一部分来自采矿行业。高带宽内存的核心市场需求主要包括:GPU、现场可编程门阵列、人工智能、高性能计算、以及游戏。相比于1.2万亿美元的人工智能市场、300亿美元的PC游戏市场、350亿美元的手持游戏机市场、以及290亿美元的高性能计算市场,挖矿行业的高带宽内存需求真的是“微不足道”。问题二:由于ProgPow现有架构和算法与ETHash存在相似之处,Innosilicon的下一款ASIC芯片将会为ProgPow量身定制吗?事实上,ProgPow和ETHash之间唯一的相似之处就是在全局内存中使用了无环图。从计算的角度来看,ETHash只需要一个固定的“keccak_f1600”内核和一个模数函数。另一方面,ProgPow需要的则是能够执行16通道宽的随机数学序列,同时还要能够访问高带宽一级缓存。设计一个能够执行ProgPow数学序列的计算内核,比设计一个能够实现类似“keccak”这样的固定函数哈希要难得多。另外需要注意的是,ETHash的哈希值只取决于内存带宽,而ProgPow算法则同时取决于内存带宽和随机数学序列的核心计算——理解这一点非常重要。工作量证明的本质其实是通过耗费硬件和能源成本进行数学计算证明,作为一种算法,ETHash在数学证明中并不会耗费大部分硬件费用。相反,ETHash只捕获内存接口,这就是为什么你可以使用一个用于加密货币挖矿的ASIC芯片来把数学计算中没有被捕获到的部分给消减掉。问题三:由于GPU是通用加速芯片,因此设计、制造和测试GPU的周期通常需要大约十二个月,而且还需要进行大量硬件模拟和软件开发工作,使其能够覆盖不同的计算方案和场景。ProgPoW希望能够捕获全部硬件成本,由于该算法更新的部分能够捕获运行不同计算场景的计算硬件——直到架构褶皱——因此对于ASIC芯片设计来说,可能需要耗费不止3-4个月的时间。由于时间跨度较长,随之会引发出另一个问题:为什么浮点运算被省略掉了?这个问题的答案其实也非常简单:浮点运算不能跨芯片移植,不同芯片往往会以不同方式来处理与特殊值相关的边界案例。边角案例也被成为病态案例,是指其操作参数在正常范围以外的问题或是情形,而且多半是几个环境变数或是条件都在极端值的情形,即使这些极端值都还在参数规格范围内。其中最大的分歧在于非数字数值的处理,这会在使用随机输入时自然发生,引用维基百科页面的解释:如果有多个非数字数值输入,其有效负载结果应该来自其中一个非数字数值输入,但标准却没有具体说明。这意味着,如果要使用浮点运算的话,基本上每个浮点都需要进行“if)val=0.0”检查配对,这种检查通常可以在硬件中完成,因此也会让用于加密货币挖矿的ASIC芯片从中受益。接下来,哈希率和“hash-per-watt”又是什么呢?哈希率是衡量能源成本的指标,只要每个人都以同样的方式进行衡量,每单位的能源消耗就不那么重要——矿工也会继续投入尽可能多的能源挖矿。不过即便你把测量单位从1ETHash切换成1ProgPow-hash,运营成本的经济性其实也不会发生变化。全局哈希率会评估每个人对保护网络共享的总经济权重,只要每个人的贡献都被公平地衡量且使用相同的单位,对于普通矿工来说,切换到ProgPow算法不会带来什么变化。当然,有人会说如果以太坊实施了ProgPow算法可能会有助于把矿工集中在拥有高端GPU的大矿场里,同时也会刺激矿场把GPU升级到最新型号。但是ProgPow算法开发团队IfDefElse需要再次重申的是:规模经济永远都会存在,而且也是现实世界里无法避免的事实。问题四:相比于GPU,ASIC芯片生产商可以使用较小的GDDR6内存来获得成本优势。在保持内存成本水平的同时,16个GDDR64GB的内存条能够实现两倍的带宽优势,是这样吗?首先,拥有两倍的带宽优势就需要两倍的计算,这其实是一种线性扩容,并不能看做是一种优势。其次,我们目前应该还没有为GDDR6准备好生产4GB内存芯片的准备。全球第三大内存芯片厂商Micron只生产8GB芯片,三星则生产8GB和16GB芯片。对于内存芯片而言,GDDR6IO接口区域是非常昂贵的,而且与存储器单元相比,每一代接口都占用了更多的实际存储器管芯,由于端口物理层不能像存储器单元那样通过工艺手段缩小。不可否认,真正推动内存市场的是一些“长周期买家”,比如游戏机、GPU等,他们也倾向于支持容量更大的内存。事实上,如今的内存供应商没有动力去大批量生产一个4GB的内存,毕竟市场对这种内存容量的需求并不大。问题五:RTX2090芯片中有许多模块占用了大量芯片模片区面积,而且对ProgPow毫无用处,包括PCIE、NVLINK、L2Cache、3072分片单元、64个ROP、192个时间测量单元等,如何看待这个问题?RTX2080不是讨论这个问题的好参照物,由于一些新功能,英伟达的RTX系列芯片中有些模块占据了大部分芯片模片区面积,比如光线追踪核心等。ProgPow设计则是与英伟达和AMD生态系统中的存量芯片产品搭配使用的,因此无法使用英伟达和AMD新款芯片产品中的新功能。如果想有一个更好类比的话,或许AMDRX5xx系列或是英伟达GTX1xxx系列是个不错的参照。正如我们之前所述,GPU中也有部分功能没有被ProgPow利用,比如:浮点逻辑、二级缓存、以及纹理缓存和ROP等。分片单元是向量数学被执行的地方,这绝对是ProgPow所要求的。用于加密货币挖掘的ASIC芯片还希望添加能够实现“keccak”功能的区域。作为ProgPow算法的开发团队,我们估计ProgPowASIC芯片的模片区面积会比同等GPU小30%——但是,即便是在最好的情况下,其功耗最多也只会降低20%。相比之下,虽然GPU上有些逻辑模块没有被充分应用而造成部分芯片模片区面积浪费,但功耗却是最小的。问题六:与大芯片相比,小芯片的收益会更高吗?怎么说好呢,这听上去像是在普及芯片制造知识,或许我们需要写一篇《芯片制造101》的培训文档。此外,对于收益计算公式可以参考一篇2006年发表的文章《CompareLogic-ArrayToASIC-ChipCostperGoodDie》,其中你会发现,早在13年之前芯片收益和流程控制就已经有很大创新了。对于具有单个功能单元的芯片,模片区面积较小的芯片收益会比模片区面积较大的芯片更高。但是对于现代GPU来说,情况并非如此。如今的GPU几乎可以任意恢复、组合,小型复制单元的缺陷基本上可以忽略。只要每个可压缩功能单元足够小,那么GPU芯片收益几乎可以和功能模块更大的芯片一样高。为了更好地解释这个概念,我们可以举一个简单的脑洞实验:1、假设你有一个大芯片“GiantChipA”,它占据了整个晶片。这个“GiantChipA”是由10万个可拆卸子组件组成,但是其中必须确保80%的子组件是无缺陷的,才能保证“GiantChipA”正常工作,而在嵌入过程中,坏的子组件会被绕过。2、另外,假设你还有一个小芯片“TinyChipB”,它只有一个功能模块组成,但是这个小芯片却小到足以在同一个晶片上装配10万个子组件。在这种情况下,只要一个子组件坏了,意味着整个“TinyChipB”芯片就是坏的。3、如果每个晶片上平均分布了2万个有缺陷的子组件,那么“GiantChipA”的收益可以为100%,因为他们可以将20%有缺陷的子组件拆掉,而“TinyChipB”的收益可能仅为80%,因为他们无法拆掉有缺陷的子组件。如果你看看AMD的Polaris20系列产品和英伟达的GP104产品,会在模拟镜头下发现这些GPU中部署了大量微小的“可拆卸”子模块组成。

Coinbase Prime与Talos合作推动机构用户的访问:金色财经报道,Coinbase Prime 与 Talos 达成合作协议,Coinbase Prime 将为 Talos 客户提供现货流动性和托管服务,Coinbase Prime 客户能够访问 Talos 的交易产品。

此前报道,Talos 于 2022 年 5 月宣布以 12.5 亿美元估值完成 1.05 亿美元 B 轮融资,General Atlantic 领投,花旗集团、富国银行、a16z 等参投。[2023/4/26 14:28:29]

问题七:ASIC矿机电压可以很轻松地降低到0.4V,只有GPU的二分之一……这样低电压的ASIC设计已经被比特币挖矿设备ASIC矿机制造商所采用,所以现在我们没有理由不相信他们不会把这种策略应用在ProgPowASIC矿机上,能谈谈这个问题吗?当芯片仅由计算构成,那么低电压设计才能奏效,比如一个专门针对SHA256d挖矿算法计算的ASIC矿机。集成其他原件——比如SRAM,这也是ProgPow数据缓存所必需的——的难度极大,也不可能在低电压下工作。问题八:同样的节能效果也能在LPDDR4xDRAM上实现,其功耗比GDDR6还低,谈谈这个问题吧。不能仅考虑能耗问题,LPDDR4x的带宽比GDDR6低很多,前者每个引脚带宽是4.2Gb/s,后者则是16Gb/s。LPDDR4x计算芯片上需要四倍的内存芯片和四倍的内存接口才能达到GDDR6相同的性能,这样一算,其成本其实是显著增加的。值得注意的是,高带宽计算芯片的接口通常是有限的,这意味着芯片模块面积必须要足够大,周边几乎不允许任何信号从芯片脱落到印制电路板上,LPDDR4x设计需要大约四倍的芯片周长焊盘数才能达到相同的带宽,也就是说,其成本不仅仅在存储芯片上,计算芯片区域的成本同样也要计算在里面,所以综合算下来其实总成本并不低。更糟糕的是,由于任何芯片都是以速度为导向的,当芯片模块面积更大的时候,意味着浪费的功率也会更多。所以,不妨让我们再想想为什么如今的GPU不能再LPDDR4x上运行。首先,LPDDR4x在带宽成本上的表现并不尽如人意,对于给定的带宽量级,LPDDR4x的成本要高出四倍以上,继而导致成本显著增加——LPDDR4x在9W功率时256GB/s带宽的成本约为150美元,相比之下GDDR6在11W功率时同样带宽成本还不到40美元,因此LPDDR4x并没有让矿工省到什么钱。问题九:像英伟达这样的GPU生产商雇佣了大约8000人来开发GPU,这些GPU也非常复杂;而像LinZhi这样的ASIC生产商只雇佣了十几个人,而且只开发用于ETHash挖矿算法的ASIC矿机。这些公司的劳动力成本相差100被,因此可不可以说ASIC芯片在成本和上市时间方面比GPU芯片更具优势。在此要说的是,规模经济是一个重要因素。GPU行业也是在全球各种销售渠道中摊销,目前总市场规模大约为4200亿美元,其中AMD市值约为116亿美元,英伟达约为1545亿美元,最大的英特尔约为2548亿美元。仅就内存市场而言,还需要在这个总规模达到5000亿美元的行业里分摊物理端口和晶片的成本,其中拥有320,671名员工的三星电子市值约为3259亿美元,他们也是在美国最活跃的专利申请者;第二名是拥有34,100名员工的MicronTechnology,其市值约为601亿美元,但是第一个开发出20Gbps高速GDDR6内存的芯片制造商;海力士拥有187,903名员工,市值约为568亿美元,他们开发了全球首款1Ynm16GbDDR5DRAM。相比之下,用于加密货币挖矿的ASIC芯片行业总市值不过1460亿美元,其中730亿属于比特币。另外我们还要看看上市时间和技术接受模型,在此不妨以著名的S9矿机继任者开发时间作为参考。如果经过充分研发、并且计算难度不是很高的SHA256d算法计算芯片都需要耗费三年时间才能进行迭代,那么又有什么可以保证像GPU一样的、支持ProgPow算法的ASIC矿机快速投产上市呢?我们还可以分析一下最近挖掘以太坊加密货币的ASIC矿机情况,GDDR6芯片样品试用期已经有一年时间了,到目前仍然没有发布能够被广泛应用的新版本产品。ProgPow核心开发团队IfDefElse的最后一点想法ProgPow其实针对是一种挖矿硬件,这种硬件受到了规模经济的支持,具有高可见性并获得了较大竞争优势。ProgPow核心开发团队IfDefElse规模并不大,而且团队成员也都有全职工作,所以他们无法及时回复所有问题和文章,更没时间在各种加密货币和区块链线上论坛里喋喋不休。虽然IfDefElse对硬件设计和开发非常感兴趣,但他们仍然建议涉足这一领域的人需要保持谨慎,因为硬件和软件一样,是一个多元化的领域,即便你是一个对加密货币挖矿ASIC芯片非常熟悉的大咖,但在GPU-ASIC领域里可能无法成为一个专家。

基于Cardano的汽车项目将在斯里兰卡启动:1月19日消息,eTukTuk是一个基于Cardano的汽车项目,近日该公司宣布,将在斯里兰卡启动其业务。eTukTuk旨在通过可持续的、动态的多收入模式来解决全球电动汽车充电站的高成本和缺乏问题。

(thecryptobasic)[2023/1/19 11:21:34]

过去一周Circle USDC流通量减少5亿美元:金色财经报道,据Circle官网,10月6日至10月13日期间,Circle共发行21亿美元USDC,赎回26美元USDC,USDC流通量减少5亿美元。截至10月13日,USDC总流通量为457亿美元,储备量为458亿美元,其中现金101亿美元,短期美国国债357亿美元。[2022/10/16 14:29:23]

ANT Capital创始合伙人:USDT存在百分百兑付风险,但因挤兑而奔溃的概率非常低:5月21日消息,ANT Capital的创始合伙人Jun YU分享称,虽然 USDT 仍然存在没办法百分之百兑付的风险,但是 USDT 因为被挤兑而崩溃的概率是非常小的。目前 Tether 公司持有资产价值约 824 亿美金,负债约为 822 亿美金(其中约 821 亿为稳定币发行),但公司在给持有资产估值并没有考虑到流动性风险和违约风险,也没有为其做相应的预期信任损失准备金。具体而言,Tether 公司的资产中,85.64%拥有比较好的流动性,但是其中现金比例很低,只占 5%不到,更多是美国国库券(47.56%)商业票据、 商业票据及存单、货币基金等。另外的 14.36%资产则是其他投资、公司债券、 基金、贵金属和担保贷款构成。总结来说,USDT总体来讲是安全的,但是仍然存在小概率风险,目前最安全的稳定币资产还是USDC。[2022/5/22 3:33:12]

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

地球链

[0:15ms0-0:868ms