微软-大模型转三进制-速度快4倍能耗降至1-国科大开启1Bit时代 (微软大模型叫什么名字)

教程大全 2025-07-08 22:24:08 浏览

把大模型的权重统统改成三元表示,速度和效率的提升让人害怕。

今天凌晨,由微软、国科大等机构提交的一篇论文在 AI 圈里被人们争相转阅。该研究提出了一种 1-bit 大模型,实现效果让人只想说两个字:震惊。

如果该论文的方法可以广泛使用,这可能是生成式 AI 的新时代。

对此,已经有人在畅想 1-bit 大模型的适用场景,看起来很适合物联网,这在以前是不可想象的。

人们还发现,这个提升速度不是线性的 —— 而是,模型越大,这么做带来的提升就越大。

还有这种好事?看起来英伟达要掂量掂量了。

近年来,大语言模型(LLM)的参数规模和能力快速增长,既在广泛的自然语言处理任务中表现出了卓越的性能,也为部署带来了挑战,并引发人们担忧高能耗会对环境和经济造成影响。

因此,使用后训练(post-training)量化技术来创建低 bit 推理模型成为上述问题的解决方案。这类技术可以降低权重和激活函数的精度,显著降低 LLM 的内存和计算需求。目前的发展趋势是从 16 bits 转向更低的 bit,比如 4 bits。然而,虽然这类量化技术在 LLM 中广泛使用,但并不是最优的。

最近的工作提出了 1-bit 模型架构,比如 2023 年 10 月微软研究院、国科大和清华大学的研究者推出了BitNet,在降低 LLM 成本的同时为保持模型性能提供了一个很有希望的技术方向。

BitNet 是第一个支持训练 1-bit 大语言模型的新型网络结构,具有强大的可扩展性和稳定性,能够显著减少大语言模型的训练和推理成本。与最先进的 8-bit 量化方法和全精度 Transformer 基线相比,BitNet 在大幅降低内存占用和计算能耗的同时,表现出了极具竞争力的性能。

此外,BitNet 拥有与全精度 Transformer 相似的扩展法则(Scaling Law),在保持效率和性能优势的同时,还可以更加高效地将其能力扩展到更大的语言模型上, 从而让 1 比特大语言模型(1-bit LLM)成为可能。

BitNet b1.58 继承了原始 1-bit BitNet 的所有优点,包括新的计算范式,使得矩阵乘法几乎不需要乘法运算,并可以进行高度优化。同时,BitNet b1.58 具有与原始 1-bit BitNet 相同的能耗,相较于 FP16 LLM 基线在内存消耗、吞吐量和延迟方面更加高效。

此外,BitNet b1.58 还具有两个额外优势。其一是建模能力更强,这是由于它明确支持了特征过滤,在模型权重中包含了 0 值,显著提升了 1-bit LLM 的性能。其二实验结果表明,当使用相同配置(比如模型大小、训练 token 数)时,从 3B 参数规模开始, BitNet b1.58 在困惑度和最终任务的性能方面媲美全精度(FP16)基线方法。

如下图 1 所示,BitNet b1.58 为降低 LLM 推理成本(延迟、吞吐量和能耗)并保持模型性能提供了一个帕累托(Pareto)解决方案。

BitNet b1.58 介绍

BitNet b1.58 基于 BitNet 架构,并且用 BitLinear 替代 nn.Linear 的 Transformer。BitNet b1.58 是从头开始训练的,具有 1.58 bit 权重和 8 bit 激活。与原始 BitNet 架构相比,它引入了一些修改,总结为如下:

用于激活的量化函数与 BitNet 中的实现相同,只是该研究没有将非线性函数之前的激活缩放到 [0, Q_b] 范围。相反,每个 token 的激活范围为 [−Q_b, Q_b],从而消除零点量化。这样做对于实现和系统级优化更加方便和简单,同时对实验中的性能产生的影响可以忽略不计。

与 LLaMA 类似的组件。LLaMA 架构已成为开源大语言模型的基本标准。为了拥抱开源社区,该研究设计的 BitNet b1.58 采用了类似 LLaMA 的组件。具体来说,它使用了 RMSNorm、SwiGLU、旋转嵌入,并且移除了所有偏置。通过这种方式,BitNet b1.58 可以很容易的集成到流行的开源软件中(例如,Huggingface、vLLM 和 llama.cpp2)。

实验及结果

该研究将 BitNet b1.58 与此前该研究重现的各种大小的 FP16 LLaMA LLM 进行了比较,并评估了模型在一系列语言任务上的零样本性能。除此之外,实验还比较了 LLaMA LLM 和 BitNet b1.58 运行时的 GPU 内存消耗和延迟。

表 1 总结了 BitNet b1.58 和 LLaMA LLM 的困惑度和成本:在困惑度方面,当模型大小为 3B 时,BitNet b1.58 开始与全精度 LLaMA LLM 匹配,同时速度提高了 2.71 倍,使用的 GPU 内存减少了 3.55 倍。特别是,当模型大小为 3.9B 时,BitNet b1.58 的速度是 LLaMA LLM 3B 的 2.4 倍,消耗的内存减少了 3.32 倍,但性能显著优于 LLaMA LLM 3B。

表 2 结果表明,随着模型尺寸的增加,BitNet b1.58 和 LLaMA LLM 之间的性能差距缩小。更重要的是,BitNet b1.58 可以匹配从 3B 大小开始的全精度基线的性能。与困惑度观察类似,最终任务( end-task)结果表明 BitNet b1.58 3.9B 优于 LLaMA LLM 3B,具有更低的内存和延迟成本。

内存和延迟:该研究进一步将模型大小扩展到 7B、13B 和 70B 并评估成本。图 2 显示了延迟和内存的趋势,随着模型大小的增加,增长速度(speed-up)也在增加。特别是,BitNet b1.58 70B 比 LLaMA LLM 基线快 4.1 倍。这是因为 nn.Linear 的时间成本随着模型大小的增加而增加,内存消耗同样遵循类似的趋势。延迟和内存都是用 2 位核测量的,因此仍有优化空间以进一步降低成本。

能耗。该研究还对 BitNet b1.58 和 LLaMA LLM 的算术运算能耗进行了评估,主要关注矩阵乘法。图 3 说明了能耗成本的构成。BitNet b1.58 的大部分是 INT8 加法计算,而 LLaMA LLM 则由 FP16 加法和 FP16 乘法组成。根据 [Hor14,ZZL22] 中的能量模型,BitNet b1.58 在 7nm 芯片上的矩阵乘法运算能耗节省了 71.4 倍。

该研究进一步报告了能够处理 512 个 token 模型的端到端能耗成本。结果表明,随着模型规模的扩大,与 FP16 LLaMA LLM 基线相比,BitNet b1.58 在能耗方面变得越来越高效。这是因为 nn.Linear 的百分比随着模型大小的增加而增长,而对于较大的模型,其他组件的成本较小。

吞吐量。该研究比较了 BitNet b1.58 和 LLaMA LLM 在 70B 参数体量上在两个 80GB A100 卡上的吞吐量,使用 pipeline 并行性 [HCB+19],以便 LLaMA LLM 70B 可以在设备上运行。实验增加了 batch size,直到达到 GPU 内存限制,序列长度为 512。表 3 显示 BitNet b1.58 70B 最多可以支持 LLaMA LLM batch size 的 11 倍,从而将吞吐量提高 8.9 倍。


1、用原理图层次化设计法设计一个4位二进制加法器。 2、编写VHDL程序完成设计一个4位二进制加法器。

原理图由一个半加器和三个全加器组成。

国科大开启1Bit时代

VHDL程序相对比较简单。

LIBRARYieee;

ENTITYadder4bitIS

PORT(a,b:INstd_logic_vector(3downto0);

s:outstd_logic_vector(3downto0);

co:OUTstd_logic);--carryout

ENDadder4bit;

ARCHITECTUREaOFadder4bitIS

SIGNALtemp:std_logic_vector(4downto0);

temp<=a+b;

co<=temp(4);

s<=temp(3downto0);

完成一个word文档应该注意哪些事项?

(1)排板问题:字体,行距,字符缩进等(2)排完之后,可以通过,打印预览看看效果!这样更有利于文档的位置最佳化和排板的规范化!

那位专家能提供几款高端一点的图形工作站配置啊~用来作3D处理和广告视频制作的

专业设计型 入门级型 CPU 双Intel XEON DP 2.8GHZ 单Intel 奔腾4 520 2.8GHz(盒) 主板 超微 SUPER X5DPA-GG 华硕 P5GDC Deluxe 内存 金士顿 1GB ECC DDR 266 金士顿 512MB DDR 400 X 2 硬盘 希捷 捷豹 36G(转/分SCSI) 迈拓 DiamondMax Plus9 200G SATA 显示器 飞利浦 109P (19) 三星 997DF(19) 专业显卡 ELSA ATIFireGL V5100 ELSA ATi FireGL V3100 网卡 集成 集成 光驱 明基 DW822A 三星 16X DVD刻录机(白金专业版) 鼠标+键盘 PS/2普通键鼠套装 PS/2普通键鼠套装 机箱+电源 工作站专用机箱电源 工作站专用机箱电源 专业显卡 对于大多数攒机人员 ,选购时最关注的莫过于是专业显卡。 作为图形工作站中最重要的配件之一,笔者就从这里先说起。 对于专业显卡的选择,用户可以保留自己的看法,因为我曾碰过这种现象,某高校用先购好专业显卡,然后才叫攒机人员结合显卡配置一台工作站。 因此,可以看出专业显卡在用户应用中的重要地位,也确实不同应用类型对专业显卡有着不同的要求。 就目前而言,PCI-E规格总线的高速发展,对于专业图形图像创作领域而言无疑是起着非常深远的意义,更快速的数据传输速率、更高的可靠性将进一步提升工作站专业创作人士的工作效率。 因此基于PCI-E规格总线的系统平台已经成为目前构建专业图形图像工作站的首选。 艾尔莎作为ATi在亚太地区专业卡领域的唯一合作伙伴,在春节之前刚刚发布了旗下新一代工作站显卡ELSA ATI FireGL V5000,为专业人士提供了更多的选择空间。 而这款产品距上市尚有一段时间,为此与这款产品处于相同定位,同为艾尔莎“5”字头的中端产品ELSA ATI FireGL V5100无疑为现在攒机的广大用户提供了切实的选择。 该款显卡基于ATi FireGL V5100绘图芯片,搭载256bit 128 MB显存,核心频率及显存频率分别高达450 MHz 和700 MHz,以上规格参数足以胜任包括3dsmax、Catia、Maya等在内的各种主流图形图像创作软件。 此外,这款产品不仅搭配了双DVI-I接口,还支持3D Stereo技术,可以在Windows 及Linux系统环境下工作,可以说真正最大限度的满足了众多用户的不同需求。 而在SPECviewperf 8.0测试中领先于其它同层次产品的表现和全面通过Solidworks等专业软件的认证,该产品成为目前市场中性价比最高的PCI-E图形工作站绘图卡产品。 这也是笔者在这里选择这款原生产品作为专业设计类型图形工作站的依据之一。 作为入门级工作站的PCI-E原生解决方案,艾尔莎旗下的ELSA ATI FireGL V3100工作站图形加速卡是最早上市的产品之一。 该款产品采用ATi FireGL V3100绘图核心,拥有2条几何引擎和4条像素管线,搭载128兆128bit显存,硬件上的配置足以满足一般图形用户的需求,而且由于PCI-E规格自身的优势,该款产品上、下行传输速率高达4GB/s,相比AGP接口而言有一倍的提升。 此外,在高数据传输带宽的保证下,所支持的包括 SMARTSHADER、SMOOTHVISION和HYPER Z在内的众多特效也能得到最大限度的发挥。 CPU、主板、内存 为达到系统整体效能的提高,中央处理器、内存以及其他相关处理部件的处理速度必须能匹配。 像很多3D图像处理过程中大量渲染密集型过程,如最终需要CPU的浮点运算、I/O吞吐量。 下面我们就从I/O瓶颈考量问题入手谈谈显卡基础支持。 如今,CPU选择上存在着分歧。 认为再高的32位处理器,在解决I/O瓶颈问题上只能治标不能治本,就好象减肥不能仅依靠节食一样,即使是加上再多的内存,带宽也的不到根本性的解决。 确实当动画越来越逼真、模型越来越细腻的时候,伴随着文件变大、素材库变大,庞大的数据处理,64位才是解决之道。 但你没想过,选用一块64位的系统,将影响到整体硬件的架构,主板、内存、散热系统、机箱、电源等等的相关

本文版权声明本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系本站客服,一经查实,本站将立刻删除。

发表评论

热门推荐