实验7-2作品特征构建
一、实验背景1.1实验目的在实验7-1 清洗后的数据的基础上使用助睿ETL完成以下两类特征的计算与存储1标题特征与互动总数更新明细表计算互动总数total_interaction likes favorites shares coins提取5个标题特征标志字段has_best、has_lowcode、has_practice、has_tutorial、has_pit将计算结果更新到 content_analysis 表2关键词级别的汇总数据分别计算含每个关键词的作品的平均互动总数将互动汇总结果输出到 title_feature_analysis 表通过本实验学生应掌握理解特征工程在数据分析中的核心作用使用助睿ETL的“计算器”组件计算衍生指标使用“JavaScript代码”组件完成文本关键词的自动标注使用“插入/更新”组件回填数据不新建表、不覆盖已有基础数据使用“过滤聚合”组件组合完成分组统计计算1.2核心组件1.3核心设计思路本次实验构建两类特征并将数据更新到实验7-1 的content_analysis 表中互动总数likes favorites shares coins反映作品的用户互动规模绝对值标题特征把标题中是否包含特定关键词提取为0/1标志字段后续量化对比这些词的实际效果数据处理流程二、 实验步骤2.1更新 content_analysis 表标题特征互动总数步骤1 导入数据将实验7-1输出的 content_analysis表作为输入拖入助睿ETL工作区。助睿ETL支持跨项目引用数据集可直接选择实验一输出的结果表。步骤2提取标题特征核心分析维度在JavaScript代码组件中可以直接使用JJavaScript代码对 title 字段进行关键词匹配生成5个标题特征标志字段。var title title; // 字段名直接作为变量使用// 判断关键词var has_best title.indexOf(保姆级) ! -1 ? 1 : 0;var has_lowcode title.indexOf(零代码) ! -1 ? 1 : 0;var has_practice title.indexOf(实战) ! -1 ? 1 : 0;var has_tutorial (title.indexOf(教程) ! -1 || title.indexOf(指南) ! -1) ? 1 : 0;var has_pit title.indexOf(踩坑) ! -1 ? 1 : 0;// 将结果赋值给新字段输出字段需在字段表中提前定义has_best has_best;has_lowcode has_lowcode;has_practice has_practice;has_tutorial has_tutorial;has_pit has_pit;返回值说明设计思路这五个关键词在数据中高频出现且与“教学价值”“实操性”强相关是分析标题影响力的理想切入点。每个特征独立提取便于在BI中做分组对比。步骤3计算互动总数接入“计算器”组件新增 interactions 字段interactions likes favorites shares coins步骤4数据更新使用“插入/更新”组件将计算好的特征数据回填到 content_analysis 表关键配置字段映射:执行转换流2.2输出关键词级别的汇总表步骤1创建目标表创建以下目标表用来存储本节最后输出的数据步骤2计算整体平均互动数接入“排序记录”、“分组”组件按id升序排序不设分组条件直接计算 AVG(total_interaction)得到 overall_avg。聚合完成后接入“增加常量”组件新增字段 feature_name 保姆级为这一行数据贴上名称标签以便用于后续与关键词数据连接。步骤3计算关键词的平均互动数以“保姆级”为例表输入组件复制分发另一条分支先接“过滤记录”组件设置 has_best 1只保留含“保姆级”的作品。然后接入“排序记录”、“分组”组件按id升序排序计算 AVG(total_interaction) 得到 avg_interactionCOUNT(id) 得到 sample_count。聚合完成后接入“增加常量”组件新增字段 feature_name 保姆级为这一行数据贴上名称标签。为什么要加这个常量因为聚合后的数据只有数值没有关键词名称。如果不加5个分支的数据合并后无法区分谁是谁。常量就是给每一行贴上一个“标签”告诉下游“这一行是保姆级的数据”。步骤4合并整体平均值和关键词平均值接下来将整体平均值和关键词平均值进行合并使用“记录集连接”组件匹配字段为feature_name由于2个分支都只有1行数据所以无需排序。步骤5数据入库用”表输出”组件将合并后的数据入库这里需要注意不勾选“裁剪表”因为还有其他关键词数据也要入库不用删除已有数据。步骤6执行转换流一个关键词的互动汇总数据加工转换流如下点击运行三、实验结果四、实验心得实验 7-2 基于清洗后的明细数据完成特征工程我深刻体会到特征工程是挖掘业务规律的核心手段单纯的原始浏览、互动数字无法体现标题对流量的影响只有提取文本特征、衍生指标才能量化运营策略差异。本次实验分为两大模块一是给明细数据新增互动总量、5 类标题关键词 0-1 标记字段二是分平台聚合关键词平均互动数据输出标题特征分析汇总表。在 JavaScript 文本匹配环节我学会用代码自动识别标题中的 “零代码、保姆级、实战、教程、踩坑”将非结构化文本转化为可统计的结构化特征。初次编写脚本时出现关键词匹配遗漏、字段输出未定义的报错反复调试判断逻辑后实现一键批量标记所有作品标题特征相比人工统计效率大幅提升。同时借助计算器组件衍生 total_interaction 互动指标统一 B 站投币、点赞、收藏、分享的互动统计口径解决双平台指标不统一的问题。关键词聚合统计的分支流程是本次实验难点需要分别计算平台整体平均互动、含单一关键词作品平均互动再通过记录集连接合并数据增加常量标签区分不同关键词。初期未添加 feature_name 常量多条分支合并后无法区分数据归属导致汇总表全部行标签混乱。通过拆分单关键词流程、分步执行、分段探查数据理清了 “过滤 — 聚合 — 打标签 — 合并入库” 的标准化统计链路。从业务层面特征数据直观展现不同标题关键词的互动提升效果让运营优化不再依靠主观经验完全依靠量化数据支撑。本次实验让我掌握文本特征提取、多分支聚合、增量更新数据表的实操方法理解特征工程的核心逻辑贴合业务场景构造可解释指标把隐藏在文本、原始数字里的业务规律显性化为 BI 可视化提供可对比的分析维度。