Viterbi 算法直接用在中文分词上

张

张建站

2026/5/12 4:20:38

10分钟阅读

我们把 Viterbi 算法直接用在中文分词上用你熟悉的“字”和“词”来解释保证比天气例子更贴近你的直觉。中文分词的核心问题中文没有空格比如“我爱北京天安门”人类知道这是“我 / 爱 / 北京 / 天安门”但计算机看到的是一串字[我, 爱, 北, 京, 天, 安, 门]怎么切关键思想把分词变成“给每个字打标签”我们用 4 种标签状态表示每个字在词中的位置标签含义例子B Begin词的开头 “北” in “北京” → BM Middle词的中间 “安” in “天安门” → ME End词的结尾 “京” in “北京” → ES Single单字成词 “我”、“爱” → S所以“我爱北京天安门”的正确标签序列是我爱北京天安门S S B E B M E✅ 一旦有了这个标签序列分词就很简单- 遇到 S → 单独一个字- 遇到 B...E → 从 B 到 E 是一个词。那么问题转化为给定一串字观测序列找出最可能的标签序列隐藏状态序列。这正是 HMM Viterbi 要解决的问题 HMM 的三个参数从语料库学来的1. 初始概率 π句子第一个字是 B/M/E/S 的概率- 实际中第一个字不可能是 M 或 E因为词还没开始所以P(S) ≈ 0.7, P(B) ≈ 0.3, P(M)P(E)02. 转移概率 A标签之间怎么跳比如- B 后面只能接 M 或 E不能接 B 或 S→ P(M|B)0.6, P(E|B)0.4- M 后面只能接 M 或 E → P(M|M)0.5, P(E|M)0.5- S 后面可以接 B 或 S → P(B|S)0.8, P(S|S)0.2- E 后面可以接 B 或 S3. 发射概率 B某个标签下出现某个字的概率比如- 字“北”在 B 状态的概率很高因为常出现在词首- 字“京”在 E 状态的概率很高- 字“我”在 S 状态的概率极高。这些概率都是通过大量标注好的语料如人民日报语料库统计出来的。举个真实分词例子句子“研究生命”可能的切分有歧义- “研究 / 生命” → 正确- “研 / 究生 / 命” → 错误但可能如果模型没见过“研究”我们用 Viterbi 来选第一步列出所有字观测[研, 究, 生, 命]第二步Viterbi 动态规划简化版我们不列全部计算只看关键逻辑- “研” 很少单独成词 → 不太可能是 S- “究” 几乎不会在词首 → 不太可能是 B- 但“研究”是一个高频词 → 所以“研B, 究E” 的组合概率很高- “生命”也是高频词 → “生B, 命E”而“研究生”虽然存在但在这个上下文中“研究/生命”整体路径概率更高。Viterbi 会计算所有合法标签序列如 B E B E, S B M E, B M E S 等但只保留每一步概率最大的路径最后选出研究生命B E B E→ 切分为“研究 / 生命”⚠️ 注意Viterbi 只能选“模型认为概率最大”的路径如果训练语料里“研究生”出现太多“研究”太少它可能会错切成“研 / 究生 / 命”即 S B E S。这就是为什么- 语料质量很重要- 纯 HMM 分词效果有限所以 jieba 等工具先用词典HMM 只处理未登录词。✅ 总结Viterbi 在分词中的角色步骤说明输入一串汉字如“北京大学”隐藏状态每个字的标签B/M/E/SViterbi 干什么在所有合法标签序列中找出联合概率最大的那一条输出标签序列 → 转为分词结果它就像一个“最合理的故事生成器”“哪个切分方式最符合我们从语料中学到的语言习惯”️ 补充实际工程中怎么做像 jieba 分词的流程是1. 先用词典 DAG 动态规划切分已知词2. 对词典里没有的部分如“大玩学城”才用 HMM Viterbi 来猜3. 这样既快又准。

从Excel舍入到IEEE754：你的财务计算和游戏物理引擎可能都错了

从Excel舍入到IEEE754：你的财务计算和游戏物理引擎可能都错了当你用Excel计算季度财报时，ROUND函数给出的结果可能正悄悄偏离审计标准；当玩家抱怨游戏角色偶尔卡进墙体时，问题可能源自物理引擎对坐标的舍入处理。这些看似无关的场…...

2026/5/12 4:20:34 阅读更多 →

为Jekyll Hyde主题打造现代化交互增强：hydeclaw扩展实战

1. 项目概述：一个为Hyde主题打造的“猫爪”扩展如果你和我一样，是个喜欢折腾静态博客的开发者，那你对Jekyll和它的主题Hyde一定不陌生。Hyde以其简洁、优雅的设计和极佳的响应式布局，成为了许多技术博客的首选。但用久了&#xff…...

2026/5/12 4:13:46 阅读更多 →

Cursor编辑器Markdown规则集：AI生成文档自动化格式规范指南

1. 项目概述：一个为 Cursor 编辑器定制的 Markdown 规则集如果你和我一样，日常重度依赖 Cursor 这款 AI 驱动的代码编辑器，并且经常需要编写大量的技术文档、项目 README 或者技术博客，那你一定遇到过这样的痛点：AI …...

2026/5/12 4:08:08 阅读更多 →

BriSe AI：构建类脑自我层次模型，从模式匹配迈向自主理解

1. 项目概述：从“模仿”到“涌现”的范式跃迁最近和几位做认知科学和神经科学的朋友聊得比较多，大家都有一个共同的感受：当前主流的人工智能，无论是大语言模型还是多模态模型，本质上还是在做“模式匹配”和“概率预测…...

2026/5/12 1:35:11 阅读更多 →

6G边缘计算与生成式AI融合：基于LDM与DRL的协同优化架构实践

1. 项目概述：当6G边缘计算遇上生成式AI最近和几个做通信和AI的朋友聊天，大家不约而同地提到了一个词：6G边缘生成式AI。这听起来像是把几个最前沿的技术名词硬凑在一起，但当你真正拆开来看，会发现它背后指向的是一个非常…...

2026/5/12 3:01:06 阅读更多 →

DriverStore Explorer完全指南：轻松管理Windows驱动，释放宝贵磁盘空间

DriverStore Explorer完全指南：轻松管理Windows驱动，释放宝贵磁盘空间【免费下载链接】DriverStoreExplorer Driver Store Explorer 项目地址: https://gitcode.com/gh_mirrors/dr/DriverStoreExplorer 你是否曾因为Windows系统变得越来越臃肿而…...

2026/5/10 0:10:01 阅读更多 →