bitnet

微软官方 1-bit LLM 推理框架,在 CPU 上运行 1.58-bit 量化大语言模型,速度提升 1.4-6x、能耗降低 55-82%,单 CPU 可运行 100B 参数模型,达到人类阅读速度

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "bitnet" with this command: npx skills add cn-big-cabbage/bitnet

BitNet — 1-bit LLM 本地高效推理

bitnet.cpp 是微软研究院发布的官方 1-bit LLM 推理框架,基于 llama.cpp 构建,专为 BitNet b1.58 系列模型优化。在 x86 CPU 上速度提升 2.37-6.17 倍,能耗降低 71-82%;在 ARM CPU 上速度提升 1.37-5.07 倍,能耗降低 55-70%。单台消费级 CPU 即可以 5-7 tokens/秒的速度运行 100B 参数模型,达到人类阅读速度,彻底改变本地 LLM 部署的经济性。

核心使用场景

  • CPU 本地 LLM 推理:无需 GPU,在消费级 CPU 上运行数十亿参数模型
  • 边缘设备部署:极低能耗,适合嵌入式设备、笔记本电脑、服务器 CPU
  • 隐私敏感场景:完全本地运行,数据不离开设备
  • 大规模批量推理:多线程优化,节省数据中心能源成本
  • 学术研究:研究 1-bit LLM 量化技术和推理优化

AI 辅助使用流程

  1. 环境搭建 — AI 创建 conda 环境并安装编译依赖(Python、CMake、Clang)
  2. 克隆仓库 — AI 执行 git clone --recursive https://github.com/microsoft/BitNet.git
  3. 下载模型 — AI 使用 huggingface-cli download 下载官方 BitNet 模型
  4. 编译环境 — AI 运行 python setup_env.py 量化模型并编译推理内核
  5. 运行推理 — AI 执行 python run_inference.py 进行对话或文本生成
  6. 性能测试 — AI 运行 python e2e_benchmark.py 测量吞吐量和延迟

关键章节导航

  • 安装指南 — 依赖安装、conda 环境、模型下载
  • 快速开始 — 编译量化、运行推理、对话模式
  • 高级用法 — GPU 推理、性能测试、多线程配置
  • 故障排查 — 编译错误、模型加载失败、性能问题

AI 助手能力

使用本技能时,AI 可以:

  • ✅ 搭建 conda 环境并安装编译依赖(CMake、Clang)
  • ✅ 克隆 BitNet 仓库并安装 Python 依赖
  • ✅ 使用 huggingface-cli 下载指定 BitNet 模型
  • ✅ 运行 setup_env.py 完成量化和环境配置
  • ✅ 执行 run_inference.py 进行对话推理
  • ✅ 运行 e2e_benchmark.py 测试推理性能
  • ✅ 配置多线程参数优化吞吐量

核心功能

  • 极速 CPU 推理 — x86 CPU 提升 2.4-6.2x,ARM CPU 提升 1.4-5.1x
  • 超低能耗 — 比传统 INT8 推理节能 55-82%
  • 大模型单 CPU — 100B 模型在单 CPU 以 5-7 tokens/秒运行
  • 官方量化内核 — I2_S、TL1、TL2 三种针对不同硬件优化的内核
  • GPU 支持 — 官方 GPU 推理内核(2025 年发布)
  • 多模型支持 — BitNet-b1.58 2B/3B、Llama3-8B-1.58bit、Falcon3 系列
  • 对话模式-cnv 标志启用交互式聊天(系统提示支持)
  • 性能基准 — 内置 e2e_benchmark.py 测量 tokens/秒和能耗

快速示例

# 克隆并进入项目
git clone --recursive https://github.com/microsoft/BitNet.git
cd BitNet

# 安装依赖
conda create -n bitnet-cpp python=3.9 && conda activate bitnet-cpp
pip install -r requirements.txt

# 下载官方模型并量化
huggingface-cli download microsoft/BitNet-b1.58-2B-4T-gguf --local-dir models/BitNet-b1.58-2B-4T
python setup_env.py -md models/BitNet-b1.58-2B-4T -q i2_s

# 运行对话推理
python run_inference.py \
  -m models/BitNet-b1.58-2B-4T/ggml-model-i2_s.gguf \
  -p "You are a helpful assistant" \
  -cnv

安装要求

依赖版本要求
Python>= 3.9
CMake>= 3.22
Clang>= 18
conda推荐(环境隔离)
磁盘空间模型约 1-20 GB

项目链接

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

Trinity Lite

每日自动化能力进化工具。运行后会:1)自检发现能力缺陷,2)自动阅读学习,3)生成新洞察,4)验证能力提升。适合希望持续提升AI能力的用户,每天运行看到具体进步。

Registry SourceRecently Updated
General

CamScanner Erase Handwriting

Use CamScanner to erase handwriting from images while preserving the printed content and original layout. Powered by a high-precision image enhancement engin...

Registry SourceRecently Updated
General

Local Model Quantization Router

Recommend local LLM model routes and quantization levels using hardware, privacy, task complexity, context size, and budget constraints. Use for Qwen/Ollama/...

Registry SourceRecently Updated
General

Siluzan CSO

当用户提问的内容涉及以下内容时,可以使用本SKILL(1)多媒体平台内容(视频/图文)发布与运营(YouTube、TikTok、Instagram、LinkedIn、X、视频号),以及账号授权、数据报表、任务管理;(2)公众号、小红书等内容文案/选题生成——选题/拆解/口播成稿、三库选题;(3)RAG 知识库检索...

Registry SourceRecently Updated