LIGHT:Lighthouse:从测试网崩溃中学到的教训

作者:BlairFraser

翻译:阿剑

来源:以太坊爱好者

一个测试网倒下,千千万万个测试网站起来

一个星期以前,我们宣布使用Lighthouse客户端启动一个大型的公开测试网。测试网成功启动并且运行了一周,首次证明了使用生产环境配置的Eth2测试网也是可以跑起来的。

启动测试网时,我们曾说,“我们要尝试把这个测试网搞崩,而且我有自信我们能够成功”。测试网确实挂了,而且是两次。第一次是在周六上午,第二次是在周一早上。第一次挂掉之后,我们成功恢复了测试网运行;但第二次崩溃时,我们决定就此收手,不再恢复。

ConsenSys为其智能合约审计服务ConsenSys Diligence推出TURN Token,将于8月15日发售:7月20日消息,以太坊基础设施开发商ConsenSys宣布为其智能合约审计服务ConsenSys Diligence推出TURN Token,该Token为安全审计的买卖双方创建了一个新的开放市场,将于北京时间2022年8月15日20:00至8月19日20:00在turnplatform.bid限时发售。

TURN是用于Token化服务的NFT,每个TURN都是与ERC721兼容的Token,代表可以提供40小时的审计时间。TURN Token将直接授予客户或在铸币时出售,可以在需要审计服务的客户之间进行二次交易,因此可以优化服务参与和调度流程的价格发现。它们每个都代表智能合约审计员的时间片段,并且允许自由市场对其进行定价。[2022/7/20 2:24:59]

这里说的“崩溃”、“挂掉”,都是指测试网无法敲定epoch。而没法敲定epoch的原因是超过1/3的验证者都掉线了。在设计上,这个测试网遇到问题不会死撑,而是会快速且明确地表现出失败。

Roger Ver:只有不允许比特币链上扩容才需要Blockstream及Lighting Labs相关产品:7月21日,Bitcoin.com创始人Roger Ver发推称,只有在不允许比特币实现链上规模化的情况下,才需要由前两家公司(Blockstream和Lighting Labs)资助比特币协议开发的产品。没有人会对比特币不被允许扩展感到惊讶。(注:Blockstream和Lighting Labs均致力于闪电网络开发;Roger Ver BCH团队主要致力于比特币链上区块扩容,闪电网络主要致力于比特币侧链开发)[2020/7/21]

这个测试网的基石是4个AWSt2.medium实例;每个实例都作为公开的引导节点,负载4096个验证者。实际上,我们也很惊讶,它们居然能撑这么久;对于少数硬件配置一般的机器来说,这是巨大的负担;它们中只要有两个离线了,测试网就没法继续敲定了。

动态 | 西甲联赛(LaLiga)代币今日16点上线GCOX交易所:据GCOX交易所消息,西甲联赛(LaLiga)代币项目已于今日16点在GCOX交易所首发上线(GMT+8),此次共计发行10亿枚LaLiga代币,其用途主要围绕着LaLiga在足球赛事方面的丰富经验展开。据悉,GCOX作为LaLiga在加密货币和区块链领域的首个官方合作伙伴,今后双方将一起为粉丝和全球加密社区提供独家商品和服务。[2020/1/15]

我们分析了这两次崩溃事件,也学到了很多。我们团队已经回到开发工作中,希望能在下周发布一个新的测试网。你可以在v0.1.1milestone这个页面上了解我们的进展。

Lightning移动钱包将加快比特币支付速度:据bitcoinmagazine消息,Lightning Wallet是首个全面整合闪电网络节点的钱包,该钱包已经在5月31日上线谷歌应用商店。可同时提供链上比特币交易以及链下闪电网络交易。该钱包是基于SPV bip37开发的,用户能够很快的通过专用渠道发送和接收比特币。截止目前,Lightning Wallet已经有2135个开放节点以及5566个通道。[2018/6/7]

教训

测试网崩溃的主要原因

测试网第一次崩溃的直接原因是软件的联网部件中的一个循环,它会“看到”某个见证数据不断地重复发布。该循环在我们部署的四个信标节点中的两个节点上出现了,耗尽了它们的资源,使得它们无法生产区块和见证数据。这个问题是导致两次崩溃的直接原因。

我们已经更新了我们的gossipsub实现,现在,每条内容都是根据其内容来寻址的,这就意味着,如果我们收到两条内容相同的消息,gossipsub协议会忽略掉第二条消息。我们也在Lighthouse客户端的代码中加入了复制消息检查,以此防止收发复制消息。

测试网崩溃的次要原因

数据量暴涨

两个信标节点挂掉以后,测试网就不可能敲定区块了。不过,剩下的两个节点仍在继续发出和接收区块,这也是我们希望看到的情形。但是,网络失去确定性之后,它们就无法修剪和压缩它们的数据库,这就导致它们的数据库以每小时几GB的速度增长。因为我们将测试网节点的硬盘限制在32GB,最终,它们的磁盘被旧数据塞满、无法再接受新区块了。这就导致另外两个节点也离线了。

在这种情况下,要想恢复测试网运行也很简单,只需加大硬盘、重启节点即可。我们也对这种恢复方式很满意,因为这就意味着,一些配有大硬盘的节点在两次崩溃中都几乎不会受到什么影响。

在我写作本文之时,Michael正在开发针对这个问题的解决方案,思路是让数据库的膨胀速度降低32倍。虽然我们很高兴看到在100epoch不能敲定之后节点能够恢复,但目前的情况相当于,一个硬盘不足64gb的节点只有约10个小时的生存时间。恢复能力对Lighthouse客户端是非常重要的,而Michael的更新会将10小时延长到13天。

分叉选择

我们也观察到,网络的分叉选择时间延长到了8秒。在我们看来,这是不可接受的,必须要去解决它。我们意识到,这个问题是由于过度从磁盘中加载信标链状态导致的,所以我们已经写了一个PR来解决这个问题。

社区反馈

很高兴看到人们参与到Lighthouse测试网中来并运行自己的验证者,有400多名参与者参与了我们的测试网!感谢他们的反馈!下面这些建议是他们一再提到的:

需要更快的同步时间:我们正在努力了,预计在0.1.1版本中,同步速度可以快上1.5~2倍。

更好的docker文档:Scott正在优化这些文档,而且新的测试网会用docker来部署。

更稳定的eth1节点:我们提供了一个公开的eth1节点,方便用户的使用,但事实证明,这个节点还导致了某些验证者宕机。在下一个测试网发布的时候,我们会在不同的地区部署少量节点,并在这些节点间做负载均衡。

更多API端点:becaoncha.in团队联系上了我们,并希望他们的区块浏览器能够得到更多的API端点。我们已经提交了一个PR,估计会在0.1.1版本时合并。

?

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

地球链

[0:15ms0-0:826ms