本地千万级 XLSX/CSV 客服工单文本结构化拆分实战:用 AI 工作流零代码、零 SQL 完成字段清洗、正则提取与关联分析
今天分享一个客服工单文本字段结构化拆分的实战案例对原始工单数据完成清洗并从工单描述中提取客户ID、产品编码、故障现象等字段再关联客户和产品信息完成后续统计分析。这里要介绍是小白都能用的AI 工作流方案不用写 Python也不用懂 SQL直接在本地电脑上就能完成千万级 XLSX/CSV 客服工单数据的清洗、文本字段提取、关联分析和结果输出。二、案例需求分析有三张原始数据表数据量在百万到千万级别如下工单记录表.csv工单ID、创建时间、状态、优先级、工单描述— 300万行客户信息表.csv客户ID、客户名称、客户等级、所属地区— 50万行产品目录表.csv产品编码、产品名称、产品线、是否停产— 2万行本案例要先清洗 3 张表的数据再从工单描述中提取客户ID、产品编码、故障现象等字段随后关联客户和产品信息最后输出多个统计分析结果表和可视化大盘。生成的可视化大盘如图HTML文件生成的结果数据表如图1. 清洗数据清洗数据就是将一些带有脏数据格式有问题的数据都清洗成统一的 AI 工作流内置了 Python Agent通过提示词就能实现任意清洗逻辑如下提示词1. 创建时间统一为 yyyy-MM-dd HH:mm:ss 格式 2. 将状态列中的待处理、open、新建统一改为待处理将已解决、closed、完成统一改为已解决 3. 将优先级列中的P1、紧急、urgent统一改为紧急将P2、高、high统一改为高 4. 从工单描述列中提取以大写字母C开头、后面紧跟数字的客户ID写入新列客户ID 5. 从工单描述列中提取以大写字母P开头、后面紧跟数字的产品编码写入新列产品编码 6. 从工单描述列中提取故障:后到下一个逗号或句号之前的文本写入新列故障现象2. 关联数据完成清洗和字段提取后下一步就是把工单表、客户信息表、产品目录表关联起来生成一张工单关联宽表。AI 工作流内置了 SQL Agent只需要用自然语言描述关联逻辑就可以自动完成多表关联、字段补充和结果输出如下提示词1. 将工单表按客户ID关联客户信息表再按产品编码关联产品目录表 2. 新增信息完整性列按客户ID找不到客户或按产品编码找不到产品时写为信息不完整客户和产品都匹配成功时写为信息完整3. 统计分析拿到工单关联宽表之后就可以继续做统计分析。AI 工作流通过SQL Agent可以根据提示词自动完成分组统计、排序、筛选和结果输出不需要手写 SQL如下提示词1. 按产品线分组统计工单总数、各优先级分布、信息不完整率输出产品线工单统计表 2. 按故障现象产品线分组统计工单数并按工单数降序取 Top30输出高频故障Top30表 3. 按客户等级分组统计工单数量、紧急工单占比输出客户等级工单统计表 4. 筛出是否停产已停产且仍有工单提交的记录输出停产产品工单明细表 5. 按月份分组统计工单量输出工单量月度趋势表二、案例要完成的任务提示词这个提示词就是案例需要完成的任务直接用于配置到工作流智能体里面。需要说明一点提示词不一定非要写成固定模板 。只要表达得 清晰 、 明确 、 简洁 让人一眼能看懂要做什么、按什么顺序做、最后输出什么结果就可以了。本次案例整理出的提示词如下整体要求从客服工单描述中提取结构化字段生成工单分析报告 第一步 - 清洗并提取工单记录表 1. 创建时间统一为 yyyy-MM-dd HH:mm:ss 格式 2. 将状态列中的待处理、open、新建统一改为待处理将已解决、closed、完成统一改为已解决 3. 将优先级列中的P1、紧急、urgent统一改为紧急将P2、高、high统一改为高 4. 从工单描述列中提取以大写字母C开头、后面紧跟数字的客户ID写入新列客户ID 5. 从工单描述列中提取以大写字母P开头、后面紧跟数字的产品编码写入新列产品编码 6. 从工单描述列中提取故障:后到下一个逗号或句号之前的文本写入新列故障现象 7. 客户ID、产品编码、故障现象提取不到时写为未提取到 第二步 - 清洗客户信息表 1. 将客户信息表中客户等级列里的VIP、vip、贵宾统一改为VIP将普通、normal、一般客户统一改为普通 第三步 - 清洗产品目录表 1. 将产品目录表中是否停产列里的Y、是、true统一改为已停产将N、否、false统一改为未停产 第四步 - 生成工单关联宽表 1. 将工单表按客户ID关联客户信息表再按产品编码关联产品目录表 2. 新增信息完整性列按客户ID找不到客户或按产品编码找不到产品时写为信息不完整客户和产品都匹配成功时写为信息完整 第五步 - 生成产品线工单统计表 1. 基于工单关联宽表 2. 按产品线分组统计工单总数、各优先级分布、信息不完整率 3. 输出产品线工单统计表 第六步 - 生成高频故障Top30表 1. 基于工单关联宽表 2. 按故障现象产品线分组统计工单数 3. 按工单数降序取Top30 4. 输出高频故障Top30表 第七步 - 生成客户等级工单统计表 1. 基于工单关联宽表 2. 按客户等级分组统计工单数量、紧急工单占比 3. 输出客户等级工单统计表 第八步 - 生成停产产品工单明细表 1. 基于工单关联宽表 2. 筛出是否停产已停产且仍有工单提交的记录 3. 输出停产产品工单明细表 第九步 - 生成工单量月度趋势表 1. 基于工单关联宽表 2. 按月份分组统计工单量 3. 输出工单量月度趋势表三、落地实现工作流配置工作流是由多个智能体节点组成的这个案例我们涉及到下面几个智能体文件助手 获取磁盘的文件或目录。内容清洗器专门用来做数据清洗的只要输入清洗描述就可以对文件数据进行任意整理。数据入库将文件数据转成本地数据库用于后面作SQL统计。表统计 对本地数据库表进行SQL统计不需要写sql只需要统计的描述就可以了。报表导出 对数据库表进行导出支持导出csvxlsxHTML可视化显示 。根据这几个智能体还有上面描述的提示词我们就可以完成工作流的配置了。1. 配置文件助手”文件助手“ 可以用来获取磁盘上任意的一个或多个文件。打开DT-Bot工作流 配置一个 “文件助手”智能体节点描述原始数据文件位置如图DT-Bot工作流解决方案获取可以看文章末尾名片。根据提示词描述获取到了”工单记录表.csv“原始表格给后面智能体使用。2. 配置内容清洗“内容清洗器” 很强大内部是通过python agent执行引擎处理的 可以对文件进行任意数据整理我们直接输入清洗提示词就可以了 如图清洗完成后还是输出的文件下面需要进行SQL统计需要先将文件进行入库。3. 数据入库”数据入库“ 智能体可以将文件导入到本地数据库引擎然后形成数据库表无需任何提示词如图配置入库到此我们 工单记录表.csv 的清洗入库就完成了 其余的表也是如此配置。4. 表统计接下来我们需要进行sql统计直接用“表统计”智能体就好了 也是直接输入提示词描述工作流内部会生成相关sql进行统计全程不用你操心下面是我配置完成的图5. 导出报表表统计后只生成了结果表到数据库里面还需要从数据库里面下载出来这是要用“报表导出”智能体可以指定哪些表下载类型支持CSVHTML如下图配置完成后我们发布工作流执行就可以了。四、结尾语这个案例的价值不只是完成了工单数据清洗更重要的是把工单描述中的关键信息提取出来并和客户、产品数据关联起来形成可直接分析的结果表。通过字段清洗、文本提取、信息关联和统计分析整个处理过程更清晰也更贴近真实业务场景。按照 AI 工作流配置好处理要求后不需要手写 Python 和 SQL也可以把原始工单数据快速整理成可直接用于分析和管理的结果表。