Filecoin运维像网管一样吗?难点是什么?

容显科技
个人专栏
热度: 5468
对于Filecoin运维工程师而言,稳定运维和部署更新是最重要的两个环节,也是运维工程师面临的两大难点。

Filecoin挖矿可以说是数字货币领域中,难度最大的挖矿模式之一,主要体现在其对网络、磁盘、CPU、内存等要求非常高,稍有不慎就可能面临挖不到块以及被惩罚的情况。

伴随着Filecoin主网正式上线,“运维”的重要性在整个行业里越发地体现出来。

事实上,运维这个职能范畴对于绝大多数人来说认知模糊,特别是在分布式存储领域,“运维”常常和“机房”、“IDC”等名词相伴,导致很多投资者对于运维的了解停留在物理层面,以搬运机器、上架下架服务器、管理网电等为标杆,认为运维就像是网管一样,只需维护机器运行就可以。

更多问题与解答请咨询V(ipfskefu)

FILECOIN

然而,Filecoin运维工程师更多的是,针对业务的定制化原生工具开发的方面。负责维护并确保整个服务的高可用性,同时不断优化系统架构提升部署效率、优化资源利用率提高整体的ROI。

那么,对于Filecoin运维工程师而言,稳定运维和部署更新是最重要的两个环节,也是运维工程师面临的两大难点。

1、难点一稳定运维

众所周知,Filecoin对矿工节点的要求非常严苛,算力增长需要完成复制证明,出块需要完成WinningPoSt,而避免受到惩罚需要每天完成WindowPoSt。如何保证设备的稳定运行并且完成相关证明,是Filecoin运维工程师们面临的又一大挑战。

算力的稳定主要跟WindowPoSt相关。Filecoin系统会将每一天分为48个窗口期,矿工每隔半个小时需要完成一次WindowPoSt。一旦矿工出现块高度同步不稳定、Sector计算时间不稳定以及消息上链不稳定等情况,就有可能无法按时完成WindowPoSt,进而导致算力被惩罚,抵押品也将被扣除。

针对上述影响因素,原力区有部分解决方案可供参考:

1)采用高可用部署架构,检测到高度不同步之后切换到备机运行。针对大集群部署多个备用节点,通过自动切换功能,当一个节点出现异常后立即切换到另一个正常节点同步高度。

2)优化存储性能,优化扇区读取方式,通过提高读写并发降低读写时间。这样带来的好处是能够给计算和消息上链预留更充裕的时间。

3)增加消息验证机制,发现消息没上链自动进行重发。目前Filecoin网络出现消息上链失败的情况是没有任何提醒的,只会在30分钟后收到算力被惩罚的提醒。为了确保消息正常上链,需要增加一个自制工具来验证消息是否上链成功。如果未成功,及时进行消息重发。

保证了算力的持续稳定,能否按时完成WinningPoSt顺利出块也是至关重要的。WinningPoSt要求矿工在获得出块权后,需要在30秒内先后完成Sector读取、计算和消息上链,时间更加紧迫。

上述针对WindowPoSt的解决思路也同样适用于WinningPoSt,来保证出块的稳定。

FILECOIN

2、难点二部署更新

在部署方面,Filecoin运维工程面临的难点包括:机型多、配置杂;程序角色多,配置启动方式不一;服务器数量庞大;需要高可用架构实现程序不间断运行等等。

为了能够充分发挥Filecoin挖矿设备的性能,Filecoin运维工程师们需要根据设备磁盘容量、CPU性能、内存大小等配置的不同,进行合理化的搭配,以实现多角色程序顺利且持续的运行。

但算力的增长还需要设备的不断投入,随着不同规格设备的不断增多,如何应对大批量设备的部署管理成为了运维团队的一大难点。V丨ipfskefu

对此,原力区有部分解决方案可供参考:

1)针对设备配置杂乱的情况,通过使用配置管理工具将所有设备配置信息进行抓取和规整;

2)将集群的配置信息录入数据库;

3)基于以上两个工具,通过IPFS原力区自研的更新部署调度器,进行统一化协调管理,完成自动配置部署。

自动化部署的好处是可以大大降低人力管理的成本,提高效率。但部署只是第一步,后期的稳定运维也是非常大的难点。

声明:本文为入驻“火星号”作者作品,不代表火星财经官方立场。
转载请联系网页底部:内容合作栏目,邮件进行授权。授权后转载时请注明出处、作者和本文链接。 未经许可擅自转载本站文章,将追究相关法律责任,侵权必究。
提示:投资有风险,入市须谨慎,本资讯不作为投资理财建议。
免责声明:作为区块链信息平台,本站所提供的资讯信息不代表任何投资暗示,本站所发布文章仅代表个人观点,与火星财经官方立场无关。鉴于中国尚未出台数字资产相关政策及法规,请中国大陆用户谨慎进行数字货币投资。
语音技术由科大讯飞提供

评论0