去中心化推理的介绍
去中心化协作智能网络的工作原理
引言
我们正处于AI和web3领域新时代的边缘。传统的AI推理主要依赖于集中式数据中心和高性能计算集群,只有少数人能够访问。然而,随着技术的进步,去中心化协作智能网络(DCI Network)的出现,正在改变这一现状。
背景
神经网络
神经网络是由人工神经元组成的层级结构。随着神经网络复杂性的增加,计算需求和内存占用也随之增加。复杂的模型拥有更多的层、更多的神经元和更大的架构,这导致了大量的数学运算需要计算。
深度神经网络的推理阶段
推理阶段涉及输入数据通过网络层处理以产生输出。内存占用和计算操作(GOP)是影响推理阶段的关键因素。如果设备缺乏足够的内存来容纳整个网络,它将无法执行推理。即使内存充足,有限的计算能力也可能导致处理延迟,使得在较弱设备上的推理变得不切实际。
当前挑战与解决方案
大型语言模型(LLMs)的挑战
- 高成本和复杂性:LLMs需要强大的硬件才能高效运行,这使得在本地环境或设备上的部署成本高昂。
- 延迟问题:在当前基于时间敏感的应用中,数据在云服务器之间的来回传输会引入显著的延迟,导致性能不佳或在使用案例中存在安全隐患。
- 隐私问题:将敏感数据传输到集中式服务器会带来高隐私风险。一旦数据离开设备,我们无法控制其使用或存储方式。
缓解挑战的策略
- 量化:降低模型参数的精度,减少内存占用。但过度降低精度可能会降低模型准确性,且并非所有硬件都支持低精度操作。
- 蒸馏:训练一个较小的模型(“学生”)来复制较大模型(“教师”)的性能,从而减少模型大小。
- 剪枝:从模型中移除不必要的参数,减少计算负载。
去中心化协作智能网络(DCI Network)
分布式模型并行
通过将神经网络图划分为子图并分配给特定设备,显著减少每个设备的计算需求。
层分片的关键概念
- 模型分区:将模型划分为多个段(子图),每个段包含一个或多个层,并分布在不同设备上。
- 顺序执行:推理按顺序通过各个层进行,每个中间结果从一个设备传递到另一个设备。
DCI网络的挑战
- 分布选择:如何选择最优配置?这包括确定网络的分区和任务分配。搜索空间可能过大,需要算法指导选择。
- 设备特性:有多少设备可用,它们是相同的还是具有不同的特性?是否存在性能建模(延迟和能量),还是需要进行分析以做出决策?
- 指标和约束:主要优化哪些指标(如速度、能量)?如果有多个指标,它们之间是否有优先级?是否存在任何硬性约束需要考虑?
- 适应性:系统是否应适应动态变化(如带宽波动、设备数量变化),还是应在编译时一次性配置,之后保持静态?
架构
节点功能
- 推理:计算模型的推理。
- 验证:验证其他节点的推理结果以生成奖励。
网络拓扑
DCI网络是一个P2P网络,节点通过图结构进行发现。
推理
分布式模型并行
通过将模型图划分为子图并分配给多个设备,解决硬件限制问题。
环形内存加权分区策略
根据设备内存比例分配模型层。
层感知环形内存加权分区策略
动态调整模型层分配,考虑设备性能和模型层计算需求。
验证
基于证明的验证
- 零知识证明(zkML):利用zk-SNARKS生成证明,确保模型参数和用户数据的机密性。
- 乐观欺诈证明(opML):假设推理是正确的,验证节点可以通过欺诈证明指出错误推理。
基于加密经济学的验证
通过多节点并行推理和结果验证,提高安全性和效率。
延迟(设备间通信)
网络邻近感知
通过测量节点间的延迟和带宽,优化子图形成和节点分配。
Chord DHT和带宽加权邻近
使用Chord分布式哈希表(DHT)优化节点间的通信路径。
选择性参与
根据节点的计算能力(TFLOPS)分配推理任务,优化资源利用。
最终考虑
通过去中心化推理网络,实现AI任务的分布式高效执行,同时保持高安全性和公平激励。