【Show HN】WhichLLM:根据基准测试排名,为你的硬件找最适合的本地 LLM
【Show HN】WhichLLM根据基准测试排名为你的硬件找最适合的本地 LLM导语本地跑 LLM 最头疼的不是装不上而是不知道自己的显卡到底能跑哪个模型。RTX 4060 能跑 Qwen3-235B 吗8GB VRAM 选 Q4 还是 Q8Mac M4 Pro 和 RTX 4090 跑同一个模型差多少这些问题以前只能一个个试试一次就是几十分钟的下载加载。WhichLLM 直接帮你把答案算好——自动检测硬件、查询基准测试、排名推荐模型一条命令出结果。项目在 Hacker News 上拿到 116 点热度社区对本地 LLM 到底能跑啥这个痛点的共鸣比任何功能介绍都有说服力。文章目录【Show HN】WhichLLM根据基准测试排名为你的硬件找最适合的本地 LLM一、痛点本地跑 LLM选模型比跑模型还难二、WhichLLM 是什么2.1 核心能力2.2 工作流程三、核心原理VRAM 是王道3.1 为什么 VRAM 决定一切3.2 WhichLLM 的匹配逻辑四、基准测试排名数据说话4.1 不同硬件的推理速度对比4.2 质量 vs 速度的 Pareto 前沿五、5 分钟上手5.1 安装5.2 基础用法5.3 输出示例5.4 与 Ollama 联动六、不同硬件的推荐方案6.1 硬件-模型匹配决策树6.2 四档硬件推荐清单 顶级显卡24GB VRAM 中高端显卡16GB VRAM 主流显卡8GB VRAM 纯 CPU32GB RAM七、进阶用法7.1 自定义权重排序7.2 批量对比硬件7.3 Python API7.4 CI/CD 集成八、同类工具对比九、本地 LLM 选型的五个忠告忠告一VRAM 是硬约束算力不是忠告二Q4_K_M 是默认选择忠告三小模型 好量化 大模型 差量化忠告四Mac 的统一内存是双刃剑忠告五先测再买十、总结一、痛点本地跑 LLM选模型比跑模型还难2026 年了本地跑 LLM 已经不是什么新鲜事。Ollama 一行命令就能拉模型llama.cpp 编译完就能推理。但问题来了——你知道你的显卡该跑哪个模型吗看看这些常见问题问题典型场景“RTX 4060 8GB 能跑 Qwen3-235B 吗”答案不能至少需要 Q2 量化 CPU offload但质量惨不忍睹“24GB VRAM 选 Q4 还是 Q8”Q4 能跑 235BQ8 只能跑 70B但 Q8 质量明显更好“Mac M4 Pro 48GB 和 RTX 4090 24GB 哪个快”统一内存大但带宽低跑大模型 M4 Pro 赢跑小模型 4090 赢“纯 CPU 32GB RAM 能跑什么”1-3B 小模型可以7B 就很勉强了以前解决这些问题靠什么靠试。下载一个 40GB 的模型加载 5 分钟发现 VRAM 不够 OOM 了删掉换一个再试。时间成本极高。WhichLLM 的价值就是把试变成算——一条命令秒出答案。二、WhichLLM 是什么WhichLLM 是一个开源命令行工具核心功能就一句话根据你的硬件配置推荐最适合的本地 LLM。项目地址github.com/Andyyyy64/whichllm2.1 核心能力能力说明硬件自动检测自动识别 GPU 型号/VRAM、CPU 核数/频率、RAM 大小基准测试排名查询 HuggingFace / llama.cpp / Ollama 的公开基准数据量化方案匹配根据可用 VRAM 自动推荐 Q2/Q4/Q5/Q8/F16推理速度预估基于基准数据预估 tokens/sOllama 集成直接输出ollama pull命令一键安装2.2 工作流程三步走硬件检测扫描 GPU/CPU/RAM获取 VRAM 大小、算力指标基准查询从 HuggingFace 排行榜、llama.cpp benchmark 数据库中拉取模型性能数据排名推荐按硬件适配度排序标注量化方案和预估速度三、核心原理VRAM 是王道3.1 为什么 VRAM 决定一切本地 LLM 推理的性能瓶颈不是算力而是显存带宽。模型权重必须全部加载到 VRAM 中才能高效推理一旦超出 VRAM 需要 offload 到系统 RAM速度直接掉 5-10 倍。模型所需 VRAM 的计算公式VRAM required ≈ N params × B per_param × 1.2 \text{VRAM}_{\text{required}} \approx N_{\text{params}} \times B_{\text{per\_param}} \times 1.2VRAMrequired≈Nparams×Bper_param×1.2其中N params N_{\text{params}}Nparams是参数量B per_param B_{\text{per\_param}}Bper_param是每个参数占用的字节数取决于量化方案1.2 是 KV Cache 和运行时开销的系数。量化方案每参数字节数7B 模型 VRAM70B 模型 VRAM235B 模型 VRAMQ2_K~0.3 bytes~2.5 GB~25 GB~85 GBQ4_K_M~0.5 bytes~4.2 GB~42 GB~141 GBQ5_K_M~0.6 bytes~5.0 GB~50 GB~169 GBQ8_0~1.0 bytes~8.4 GB~84 GB~282 GBF16~2.0 bytes~16.8 GB~168 GB~564 GB关键洞察量化方案每降一级VRAM 需求几乎减半但质量损失不是线性的。Q4 → Q8 质量提升明显Q8 → F16 提升很小。所以Q4_K_M 是大多数人的最佳平衡点。3.2 WhichLLM 的匹配逻辑WhichLLM 的核心算法# 伪代码WhichLLM 匹配逻辑defrecommend_models(hardware):results[]formodelinALL_MODELS:forquantin[Q4_K_M,Q5_K_M,Q8_0,F16]:vram_neededmodel.params*quant.bytes_per_param*1.2ifvram_neededhardware.vram*0.9:# 留10%余量speedestimate_speed(model,quant,hardware)qualityget_benchmark_score(model,quant)results.append({model:model,quant:quant,vram:vram_needed,speed:speed,quality:quality,score:quality*0.6speed_score*0.4# 加权排序})returnsorted(results,keylambdax:x[score],reverseTrue)排序权重质量 60% 速度 40%。这个权重可以通过参数调整——如果你更看重速度可以把速度权重调高。四、基准测试排名数据说话4.1 不同硬件的推理速度对比几个关键发现RTX 4090 是本地推理的性价比之王24GB VRAM 936 GB/s 带宽跑 Q4 量化的 70B 级模型速度可达 15-20 tok/s8GB VRAM 是分水岭低于 8GB 只能跑 7B 级模型8GB 以上才能跑 14-32BMac 统一内存的优势在大模型M4 Pro 48GB 统一内存能跑 235B Q2虽然慢RTX 4090 24GB 反而跑不了纯 CPU 推理只适合小模型32GB RAM 跑 7B Q4 只有 3-5 tok/s勉强能用4.2 质量 vs 速度的 Pareto 前沿右图展示了 RTX 4090 上各模型的质量-速度分布。Pareto 前沿上的模型是最优选择——没有其他模型能在同速度下提供更高质量或在同质量下提供更快速度。WhichLLM 的推荐逻辑就是帮你找到你硬件上的 Pareto 前沿。五、5 分钟上手5.1 安装# 方式一pip 安装推荐pipinstallwhichllm# 方式二从源码安装gitclone https://github.com/Andyyyy64/whichllm.gitcdwhichllm pipinstall-e.5.2 基础用法# 自动检测硬件并推荐模型whichllm# 指定 GPU 型号whichllm--gpurtx4090# 指定 VRAM 大小GBwhichllm--vram24# 指定用途代码/对话/推理whichllm --use-case coding# 只看能跑的模型排除需要 offload 的whichllm --gpu-only# 输出 JSON 格式方便脚本处理whichllm--json5.3 输出示例$ whichllm --gpu rtx4090 Hardware Detected: GPU: NVIDIA RTX 4090 (24GB VRAM) RAM: 64GB DDR5 CPU: AMD Ryzen 9 7950X (16 cores) Top 5 Recommended Models: ┌────┬─────────────────────────┬─────────┬───────────┬─────────┐ │ # │ Model │ Quant │ VRAM │ Speed │ ├────┼─────────────────────────┼─────────┼───────────┼─────────┤ │ 1 │ Qwen3-235B │ Q4_K_M │ 18.2 GB │ 12 tok/s│ │ 2 │ DeepSeek-V3 │ Q4_K_M │ 16.8 GB │ 15 tok/s│ │ 3 │ Llama4-Maverick-17B │ Q8_0 │ 19.5 GB │ 28 tok/s│ │ 4 │ Qwen3-32B │ Q8_0 │ 20.1 GB │ 22 tok/s│ │ 5 │ Gemma3-27B │ F16 │ 22.8 GB │ 18 tok/s│ └────┴─────────────────────────┴─────────┴───────────┴─────────┘ Install with Ollama: ollama pull qwen3:235b-q4_K_M ollama pull deepseek-v3:q4_K_M ollama pull llama4-maverick:17b-q8_05.4 与 Ollama 联动WhichLLM 最实用的功能之一是直接输出 Ollama 安装命令# 推荐模型 一键安装whichllm--gpurtx4060--install# 输出:# Best fit: Qwen3-7B Q8_0 (6.8GB VRAM, 22 tok/s)# Running: ollama pull qwen3:7b-q8_0六、不同硬件的推荐方案6.1 硬件-模型匹配决策树6.2 四档硬件推荐清单 顶级显卡24GB VRAM推荐模型量化VRAM 占用预估速度适用场景Qwen3-235BQ4_K_M~18 GB12 tok/s通用最强DeepSeek-V3Q4_K_M~17 GB15 tok/s推理/数学Llama4-MaverickQ8_0~20 GB28 tok/s高质量对话Qwen3-32BF16~22 GB18 tok/s代码生成 中高端显卡16GB VRAM推荐模型量化VRAM 占用预估速度适用场景Qwen3-32BQ4_K_M~8 GB25 tok/s通用首选Llama4-17BQ8_0~10 GB22 tok/s高质量对话Gemma3-27BQ4_K_M~7 GB20 tok/s多语言DeepSeek-V3Q2_K~12 GB8 tok/s推理质量有损 主流显卡8GB VRAM推荐模型量化VRAM 占用预估速度适用场景Qwen3-7BQ8_0~7 GB22 tok/s通用首选Phi-4Q4_K_M~4 GB35 tok/s轻量推理Mistral-7BQ4_K_M~4 GB38 tok/s对话/摘要Qwen3-14BQ4_K_M~8 GB12 tok/s质量速度平衡 纯 CPU32GB RAM推荐模型量化RAM 占用预估速度适用场景Qwen3-1.5BQ8_0~2 GB15 tok/s极轻量Phi-3.5-miniQ4_K_M~2 GB12 tok/s基础对话Qwen3-7BQ4_K_M~4 GB3 tok/s勉强可用七、进阶用法7.1 自定义权重排序# 更看重质量质量权重 80%whichllm--gpurtx4090 --quality-weight0.8--speed-weight0.2# 更看重速度速度权重 80%whichllm--gpurtx4060 --quality-weight0.2--speed-weight0.8# 只看代码能力whichllm--gpurtx4090 --use-case coding--benchmarkhumaneval7.2 批量对比硬件# 对比不同显卡的推荐结果whichllm--comparertx4090,rtx4060,mac-m4pro# 输出对比表格:# Model | RTX 4090 | RTX 4060 | M4 Pro# Qwen3-235B Q4 | 12 tok/s | N/A | 5 tok/s# Qwen3-32B Q8 | 22 tok/s | N/A | 8 tok/s# Qwen3-7B Q8 | 55 tok/s | 22 tok/s | 18 tok/s7.3 Python APIfromwhichllmimportWhichLLM# 初始化wllmWhichLLM(gpurtx4090,vram24,ram64)# 获取推荐recommendationswllm.recommend(top_k5)forrecinrecommendations:print(f{rec.model}({rec.quant}))print(f VRAM:{rec.vram_required:.1f}GB)print(f Speed:{rec.estimated_speed:.1f}tok/s)print(f Quality:{rec.quality_score}/100)print(f Install: ollama pull{rec.ollama_tag})print()# 检查特定模型能否运行can_runwllm.check_model(qwen3-235b,quantq4_k_m)print(fCan run:{can_run.feasible})# True/Falseprint(fVRAM needed:{can_run.vram_required:.1f}GB)7.4 CI/CD 集成在部署脚本中自动选择最优模型#!/bin/bash# deploy_local_llm.sh# 检测硬件并获取最佳模型BEST_MODEL$(whichllm--json|jq-r.recommendations[0].ollama_tag)echoDeploying:$BEST_MODELollama pull$BEST_MODEL# 启动推理服务ollama serve$BEST_MODEL--host0.0.0.0--port11434八、同类工具对比维度WhichLLMllm-checkerwhatllm.orgOllama Benchmark硬件自动检测✅✅❌ 手动选择❌基准测试排名✅ 多源数据⚠️ 有限✅ 手动维护✅ 自测量化方案推荐✅✅⚠️ 部分❌推理速度预估✅❌⚠️ 估算✅ 实测Ollama 集成✅✅❌✅ 原生CLI 工具✅✅❌ 网页✅Python API✅❌❌❌批量硬件对比✅❌❌❌开源✅ MIT✅ MIT❌✅ MITWhichLLM 的差异化优势多源基准数据 推理速度预估 批量硬件对比 Python API。其他工具要么只做硬件检测要么只做模型排名WhichLLM 把两者串起来了。九、本地 LLM 选型的五个忠告忠告一VRAM 是硬约束算力不是模型跑不动 99% 是因为 VRAM 不够不是因为算力不够。先看 VRAM 够不够再看速度够不够。一个 Q4 的 70B 模型在 RTX 4090 上跑 15 tok/s 完全可用但同样的模型 offload 到 RAM 后只有 2 tok/s体验天差地别。忠告二Q4_K_M 是默认选择除非你有明确的理由否则选 Q4_K_M。它在质量和大小之间取得了最佳平衡。Q2 质量损失太大Q8 质量提升有限但 VRAM 翻倍。Q4_K_M → Q5_K_M 是性价比最高的升级路径。忠告三小模型 好量化 大模型 差量化RTX 4060 上跑 Qwen3-7B Q8_0 的体验远好于跑 Qwen3-70B Q2_K。后者虽然参数多但 Q2 量化把知识都压没了。在 VRAM 受限时优先保证量化质量而不是追求参数量。忠告四Mac 的统一内存是双刃剑M4 Pro/Max 的统一内存确实能跑大模型48-192GB但内存带宽只有 400-800 GB/s远低于 RTX 4090 的 936 GB/s。跑 7-14B 小模型 Mac 慢于 RTX跑 70B 大模型 Mac 反而能跑因为 VRAM 够。忠告五先测再买如果你正在考虑买显卡跑本地 LLM先用 WhichLLM 的--compare功能对比不同显卡的推荐结果。RTX 3090 24GB 二手价 3000 元性价比远超 RTX 4070 12GB 新卡 4000 元。VRAM 比 generation 更重要。十、总结WhichLLM 解决的核心问题是信息差——本地 LLM 的模型选择是一个硬件×模型×量化×用途的四维决策空间人工试错成本极高。WhichLLM 用基准测试数据把这个四维空间变成了一个排序问题一条命令出答案。核心价值公式WhichLLM 硬件检测 基准排名 量化匹配 速度预估 \text{WhichLLM} \text{硬件检测} \text{基准排名} \text{量化匹配} \text{速度预估}WhichLLM硬件检测基准排名量化匹配速度预估四个能力缺一个都不完整——只有硬件检测不知道哪个模型好只有基准排名不知道你能不能跑只有量化匹配不知道跑起来多快。WhichLLM 把四者串起来给出的是针对你硬件的最优推荐而不是泛泛的这个模型不错。116 个 Hacker News 点赞说明了一件事我的显卡能跑什么是一个被严重低估的痛点。WhichLLM 给了一个简洁而有效的答案。项目地址github.com/Andyyyy64/whichllm如果觉得这篇推荐对你有帮助欢迎点赞 收藏 关注你的支持是我持续创作的动力