普通人必备的数据素养入门指南：从生活数据读懂世界

张

张建站

2026/6/5 10:00:16

10分钟阅读

1. 这不是给“数据科学家”看的课是给你我这样的普通人写的生存指南你早上睁眼第一件事是不是摸手机刷朋友圈时看到一条“本地新增3例”的推送顺手点开中午点外卖APP自动跳出“您常点的那家酸菜鱼已备好”连配送时间都精确到分钟晚上睡前翻小红书首页全是“30岁转行做数据分析3个月涨薪50%”的笔记——这些不是巧合是数据在你生活里留下的指纹。而这篇文字不教你怎么写Python爬虫、不讲什么梯度下降它要干一件更基础、也更紧迫的事帮你把那些天天围着你转、却始终看不清模样的“数据”从一团模糊的噪音变成你能听懂、能质疑、能用上的真实信息。核心关键词里那个“Artificial Intelligence”很多人一听就下意识觉得离自己很远。但真相是你每天和AI打交道的次数可能比和家人说话还多。你用的导航软件实时算出哪条路不堵背后是千万辆车的位置数据在训练模型你收到的信用卡账单异常提醒靠的是你过去三年每一笔消费形成的“行为画像”甚至你孩子学校发来的期末报告里那句“逻辑思维能力处于年级前15%”其原始依据很可能就是他上周在线数学测验中连续答错的三道选择题的选项分布。这些都不是科幻场景它们就发生在你家厨房的冰箱贴背面、你通勤地铁的广告屏上、你孩子书包里的练习册里。所以“Data Science for Everyone”这个标题不是一句客气话而是个事实判断——数据科学早已不是实验室里的奢侈品它成了我们呼吸的空气、行走的地面、甚至思考的语法。你不需要成为造车的人但必须学会看懂仪表盘上的油量警告灯你不需要亲手编写推荐算法但得明白为什么你刚搜完“婴儿奶粉”首页立刻弹出“早教机测评”。这篇文章要做的就是帮你把那层蒙在数据表面的毛玻璃擦干净让你第一次真正看清那些数字、图表、推送背后到底站着谁在说什么又想让你做什么我带过不少零基础转行的学员其中一位是开了十五年社区花店的王姐。她最初来问“老师我连Excel求和都不会学这个有啥用”三个月后她用一张自己手绘的“顾客生日月度分布图”说服隔壁三家奶茶店联合搞“会员生日月满减”当月流水涨了27%。她没碰过一行代码但她学会了把“谁在几月生日”这个最朴素的数据点变成能落地的生意决策。这就是数据素养最本真的样子它不关乎你多会算而在于你多会问。问“这个数字是从哪来的”、“如果换种算法结果会不会变”、“它省略了哪些我没看见的信息”。这种提问能力比任何工具都重要。因为工具会迭代但质疑数据的本能才是你在信息洪流里不被冲走的锚点。所以别被“Science”这个词吓住——它在这里不是指白大褂和烧杯而是指一种像科学家那样观察、验证、推翻再重建的日常习惯。接下来我们要拆解的不是高深理论而是你每天都在用、却从未真正“认识”的那些数据是如何一步步从路边的石子变成你手机里跳动的提示最后又悄悄重塑你生活的。2. 数据不是冷冰冰的数字是你昨天在超市买酸奶时留下的体温2.1 从“datum”到“data”一个被遗忘的单数词藏着理解数据的第一把钥匙很多人一听到“数据”脑子里立刻浮现出Excel表格里密密麻麻的数字或者新闻里“全球每天产生2.5亿TB数据”这种天文数字。但数据科学真正的起点不在服务器机房而在你家楼下便利店收银台前。让我们先回到那个被所有人忽略的词datum单数而不是data复数。这个词源自拉丁语本意是“被给予的东西”就像你递给收银员的那张二十元纸币它本身就是一个独立、具体、可触摸的“事实”。你付钱的动作、纸币的编号、找零的硬币数量——每一个都是一个datum。而“data”不过是把成千上万个这样的“被给予之物”堆在一起才形成的集合。举个王姐花店的例子。她记账本上写着“4月12日李女士买玫瑰3支康乃馨5支付款86元”。这整句话是“data”但里面藏着至少五个独立的datum时间4月12日人物李女士隐含她的会员等级、历史购买频次商品种类玫瑰商品数量3支金额86元关键在于任何一个datum单独存在时几乎毫无意义。比如只告诉你“3支”你完全不知道这是玫瑰还是狗尾巴草是送给母亲还是插在自家花瓶里。数据的价值永远诞生于datum之间的连接与上下文。就像你不会只记住“3”这个数字而会记住“妈妈生日那天我买了3支她最爱的粉玫瑰”。那个“妈妈生日”的背景就是让“3”从抽象符号变成有温度信息的关键。所以当你下次看到一份销售报表里“玫瑰销量环比增长15%”别急着鼓掌先问一句这个“15%”是跟上个月比还是跟去年同月比是全店平均还是仅限周末促销时段——这些被省略的上下文往往比那个百分比本身更重要。我见过太多团队拿着“用户留存率提升20%”的漂亮PPT去汇报结果老板一句话就戳破“这20%是把所有试用期未付费的用户都算进去了吧”——没有上下文的数字就是脱缰的野马跑得越快离真相越远。2.2 结构化、非结构化、半结构化数据世界的“三原色”你每天都在混用数据分类不是技术部门的内部黑话它直接决定了你能不能“读懂”眼前的信息。想象你正在整理家里的旧相册结构化数据就像一本印刷精美的家庭影集每张照片都按年份、事件如“2018年春节”、“宝宝百天”整齐贴在固定位置旁边还工整写着拍摄日期和地点。这种数据天生就适合搜索、统计比如“查2020年所有拍于海边的照片”。数据库、Excel表格、银行流水单都是这种“影集式”数据。非结构化数据则是你抽屉里那叠散乱的胶卷、手机里几千张没命名的截图、微信聊天记录里夹杂的语音和表情包。它们承载着最丰富的生活细节但无法用简单条件筛选。你想找“去年夏天老公说要修漏水阳台的那条微信”光靠“夏天”“阳台”两个关键词可能翻遍整个聊天记录都找不到因为语音没转文字图片里没打标签。目前企业80%以上的数据都属于这一类也是AI攻坚的核心战场。半结构化数据是前两者的聪明混血儿比如你手机里导出的微信聊天记录文件.txt格式。它看起来是纯文本但其实暗藏玄机每条消息前都有固定格式的“[2023-05-12 14:22:08] 张三”这个方括号时间人名的模式就是机器可识别的“结构”而后面的内容仍是自由文本。JSON、XML这类数据格式就是为这种“部分有序、部分自由”的现实世界量身定制的。王姐的实践特别能说明问题。她最初用纸质本记账全是非结构化数据一页纸写满“4.12 李女士玫瑰3 康乃馨5 86元”但“李女士”是谁她上次来是什么时候她喜欢浅色花还是艳色花这些信息全靠王姐脑子记。后来她改用手机备忘录每条记录写成“【客户】李女士【日期】2024-04-12 【商品】玫瑰×3, 康乃馨×5 【金额】86 【备注】母亲节预定”。这个看似简单的格式变化就把非结构化数据变成了半结构化——她只要在备忘录里搜索“【客户】李女士”所有相关记录瞬间聚拢搜索“【备注】母亲节”就能看到所有节日订单。她没学数据库但无意中掌握了数据组织的黄金法则给自由的信息套上可识别的“骨架”。这个骨架不必复杂哪怕只是统一用“【】”标注字段也能让数据从混沌走向可用。2.3 模拟信号与数字信号为什么你的语音消息总比文字消息“慢半拍”你有没有发现微信发语音时对方听到的总是比文字晚那么一瞬这个微小的延迟正是模拟世界与数字世界转换的物理证据。自然界的一切本质上都是模拟信号你说话时声带振动产生的空气压力波、阳光照射在花瓣上的连续光谱、你手指按压手机屏幕时的压力变化——它们都是平滑、连续、无限细分的物理量。而计算机这个“数字生物”只能理解非0即1的开关状态。所以要把你的声音变成手机能处理的数据必须经历一场“翻译”模数转换ADC。这个过程分三步走采样Sampling像高速连拍一样每秒抓取数千次你的声音波形的“快照”。采样率越高比如CD音质是44.1kHz即每秒44100次还原的声音就越保真但文件也越大。量化Quantization把每次采样得到的连续波形高度映射到有限个离散的数字等级上。比如用8位二进制最多只能表示256个等级用16位则能表示65536个等级。量化等级越多声音细节保留越丰富但同样增大文件体积。编码Encoding把量化后的数字序列按特定规则如MP3、AAC压缩打包变成手机能存储和传输的文件。你发语音时的“慢半拍”就是这三步操作消耗的时间。而文字消息之所以快是因为它跳过了前两步——你输入的每个字键盘早已将其直接转换为Unicode编码如“爱”字是U7231本质就是一串确定的数字无需采样和量化。这个原理也解释了为什么老式胶片相机拍出的照片总有一种数码相机难以复制的“颗粒感”胶片记录的是光的连续化学反应而数码传感器记录的是离散的像素点阵。两者没有优劣只有适配场景的不同。当你在小红书看一篇“胶片感调色教程”那些被刻意保留的噪点其实是对模拟世界质感的一种数字致敬。理解这一点你就不会再困惑于“为什么我的高清视频上传总卡在99%”——那不是网速问题而是你的手机正在拼命完成一场庞大的模数转换与编码工程。3. 数据不是终点而是你和世界对话的“新母语”3.1 从“数据”到“信息”那个被所有人忽略的“意义注入”环节你手机里存着5000张照片这叫数据但当你把其中200张“孩子成长瞬间”单独建个相册并命名为“小宇的第一次走路→第一次上学”这就成了信息。数据是原材料信息是加工品数据是事实信息是故事。这个转化过程绝非简单的技术操作而是一场需要人类智慧深度参与的意义建构。它包含三个不可分割的要素结构、上下文、目的。结构是让数据可被组织的骨架。比如王姐的花店如果所有销售记录都写成“今天卖了花”那就是一堆废料但写成“【日期】【客户】【品类】【数量】【金额】【用途】”结构就出来了。上下文是赋予数据温度的环境。同一组销售数据“4月12日玫瑰3支”放在“母亲节促销”背景下是温情营销放在“某高校毕业季”背景下可能是学生表白经济放在“某地突发疫情封控”背景下则暗示着人们用鲜花传递慰藉。脱离上下文的数据如同没有标尺的地图方向正确但距离失真。目的是决定数据价值坐标的终极指南针。对王姐而言“玫瑰销量”这个数据目的是优化进货对城市规划者而言同一组数据目的是分析市民情感表达方式的变化趋势对气象局而言它甚至可能关联到“春季花粉浓度预警”。同一个datum因目的不同其解读路径和价值权重天差地别。我辅导过一位社区居委会的刘主任她负责统计辖区老人健康状况。最初她只收集“姓名、年龄、血压值”这仅仅是数据。后来她增加了“是否独居”、“最近一次体检时间”、“常用药清单”、“紧急联系人电话”等字段并把所有数据录入一个共享表格。这时数据开始向信息转化当系统自动标红“75岁以上、独居、血压≥160/100、无近期体检记录”的老人名单时这张表就不再是档案而是一份行动指令。她带着这份“信息”上门为三位老人协调了免费体检和送药上门服务。这个案例清晰揭示了一个铁律没有明确使用目的的数据收集本质是资源浪费没有注入上下文的数据呈现本质是制造噪音。所以下次当你被要求填一份冗长的问卷时不妨先问一句“这份数据最终要解决什么问题”——答案将决定你填写的认真程度也决定了这份数据能否真正活起来。3.2 数据生命周期一场从“出生”到“安息”的完整旅程数据并非静止的标本它和生命体一样有自己完整的生命周期。这个周期不是IT部门的流程图而是你每天都在参与的现实剧本。我们以你昨天一次普通的网购为例拆解它的六幕剧采集Collect你点击“立即购买”手机将你的设备型号、网络类型、地理位置、浏览时长、加购动作等通过无数个微小的传感器和日志埋点无声捕获。这不是魔法而是现代应用的基础协议。组织Organize平台后台将你这次点击与你过去三个月的浏览记录、收藏夹、支付习惯、甚至同IP地址其他用户的购买行为进行关联、清洗、去重、打标签如“高潜力母婴用户”。这个过程就是把原始噪音提炼成可用线索。数字化Digitize如果你上传了一张“想要同款沙发”的照片系统会调用图像识别API将其转化为“布艺、米白色、双人位、北欧风”等结构化标签。这就是非结构化数据向结构化数据的跃迁。存储Store所有这些信息被加密后存入分布式数据库。有趣的是你下单时填写的“收货地址”可能同时存在三个地方你的个人账户供你修改、物流系统供快递员读取、风控系统用于识别异常地址。同一份数据在不同系统里扮演不同角色。处理与分析Process Analyze算法开始工作对比你历史订单预测你可能需要的沙发垫尺寸分析你浏览时长判断你对价格的敏感度结合仓库库存计算最优发货路径。这些分析结果直接生成你看到的“猜你喜欢”和“预计送达时间”。可视化与应用Visualize Apply最终所有复杂的运算浓缩为你手机屏幕上的一行字“您可能还需要同款沙发垫¥89今日限时8折”。这就是数据旅程的终点——它不再是一堆代码而是一个影响你决策的具体建议。而这个生命周期里最常被忽视的第七幕是处置Dispose。你三年前注销的某个APP账号它存储的你的手机号、头像、聊天记录是否已被彻底删除还是静静躺在某个服务器角落等待下一次数据泄露欧盟GDPR法规强制要求企业明确数据保存期限这并非官僚主义而是对数据“生老病死”权的尊重。王姐的花店账本她坚持每年年底销毁纸质备份只保留电子版而电子版她设置自动归档三年后自动转入只读状态。这种对数据“生命周期”的敬畏恰恰是数据素养最成熟的体现——懂得何时采集更懂得何时放手。3.3 数据类型与文件格式你的手机相册其实是个微型数据中心你手机相册里那张孩子在公园荡秋千的照片表面看只是一张JPG但它的底层是一部精密的“数据交响乐”。理解这张照片的构成就是理解数字时代信息存储的通用语言。首先数据类型决定了这张照片的“基因”。它由数百万个像素点组成每个像素点又包含红R、绿G、蓝B三个通道的亮度值。这些亮度值在计算机里被定义为整数integer类型通常用0-255的范围表示0最暗255最亮。当你用美图秀秀调高“亮度”软件实际是在把每个像素的R/G/B值整体加一个数字当你调“饱和度”则是在调整这三个通道值之间的相对差异。这些底层数据类型是所有图像处理的基石。其次文件格式决定了这张照片的“包装盒”。JPGJPEG是一种有损压缩格式它通过舍弃人眼不太敏感的色彩细节来大幅缩小文件体积适合快速分享而RAW格式则像数码底片保留了传感器捕获的所有原始数据文件巨大但后期调整空间极大。这就像你寄明信片JPG和寄一整本手绘日记RAW的区别前者轻便易达后者厚重私密。再往深一层编码Encoding是这张照片的“身份证”。当你把照片通过微信发送它会被重新编码为Base64字符串——一长串由A-Z、a-z、0-9、、/组成的字符。这个过程不是加密而是为了确保二进制数据能在纯文本协议如HTTP中安全传输。你可以把它想象成把一瓶红酒原始数据倒进一个标准规格的玻璃瓶Base64编码里这样无论经过多少道海关网络节点酒液都不会洒出来。而当你在电脑上打开这张照片系统会自动执行反向操作解码Decoding把那串字符还原成原始的像素矩阵。最后元数据Metadata是这张照片的“自传”。除了画面内容它还默默记录着拍摄时间精确到毫秒、相机型号iPhone 14 Pro、GPS坐标如果你开启了定位、曝光参数f/1.7, 1/60s、甚至拍摄时的陀螺仪角度。这些信息平时隐藏在EXIF数据里但一旦被提取就能拼凑出比画面本身更丰富的叙事。比如一张显示“孩子在公园荡秋千”的照片如果元数据显示拍摄时间为凌晨3点、GPS定位在自家卧室那画面的真实性就值得商榷了。所以下次你看到一张震撼的风景照不妨右键查看属性——那里面可能藏着比照片更精彩的故事。4. 常见误区与实战避坑指南那些没人告诉你的“数据陷阱”4.1 “大数据”不等于“好数据”当80%的精力花在清洗上几乎所有初学者都会陷入一个甜蜜的幻觉只要拿到“大数据”成功就唾手可得。我带过的第一个数据项目是帮一家连锁健身房分析会员流失原因。合作方信心满满地提供了“200万条会员行为日志”我们兴冲冲导入系统结果第一行代码就报错UnicodeDecodeError: utf-8 codec cant decode byte 0xe9 in position 123。原来日志里混入了大量法语会员的特殊字符如café中的é而默认编码格式无法识别。这只是冰山一角。后续我们花了整整三周才搞定以下“脏数据”缺失值Missing Values30%的会员资料里“职业”字段为空。是会员拒绝填写还是系统bug导致未提交我们不能简单填“未知”而要分析空值出现的规律——结果发现所有空值都集中在某次APP版本更新后注册的用户证实是前端表单BUG。异常值Outliers一条记录显示某位78岁老人“单日健身时长120小时”。显然这是设备误报或数据录入错误。但直接删除不行。我们检查了该用户近半年记录发现他每周固定来三次每次1.5小时于是将异常值修正为“1.5”。不一致性Inconsistency同一会员的“身高”字段在不同记录里有“175cm”、“1.75m”、“175”三种写法“性别”字段有“M/F”、“男/女”、“1/0”三种编码。这迫使我们建立统一的数据字典并编写清洗脚本批量标准化。这个过程让我深刻体会到数据科学中80%的工作是“找茬”20%才是“创造”。那些炫酷的AI模型永远建立在干净、一致、可信的数据地基之上。王姐的花店账本也经历过类似洗礼。她最初把“康乃馨”有时写成“康乃馨”有时写成“康乃馨粉色”有时简写为“康”。直到有次盘点发现“康乃馨”库存少了20支才意识到是记录不一致导致的统计黑洞。她后来的解决方案极其朴素在手机备忘录里建了个“商品简称对照表”所有记录必须按表填写。这个土办法效果远超任何昂贵的ERP系统。所以当你面对一份“完美”的数据集时请先保持怀疑——拿出放大镜检查前100行手动验证3-5个关键字段的格式、范围、逻辑关系。这个习惯能帮你避开90%的后续灾难。4.2 可视化不是“美图秀秀”是数据真相的“X光机”很多人以为数据可视化就是把Excel柱状图换个颜色、加个3D效果。这是最大的误解。真正的可视化是像医生看X光片一样用图形作为探针去探测数据内部的骨骼与血脉。我曾见过一份“公司年度销售报告”主视觉是一张华丽的环形图把全年销售额分成十二块每块用不同渐变色填充。乍看气势恢宏但当我把鼠标悬停在“Q3”区域时发现它只占12.3%——而Q3恰恰是行业传统旺季。这个矛盾点立刻引出了关键问题是市场整体疲软还是我们产品策略失误抑或是数据采集口径有问题可视化在此刻不是结论而是提问的起点。另一个经典陷阱是误导性坐标轴。某次社区团购的运营数据展示“用户复购率提升曲线”Y轴从92%开始而非0%。结果一条平缓上升的线看起来像火箭发射。当我把Y轴拉回0%那条线几乎水平——实际提升仅0.8个百分点。这种“视觉欺诈”在商业汇报中屡见不鲜。它利用的是人眼对相对高度的敏感而非对绝对数值的判断。最危险的是相关性误读为因果性。一份研究报告指出“喝咖啡人数与程序员脱发率呈强正相关r0.92”。这能推出“咖啡导致脱发”吗当然不能。更可能的真相是程序员工作压力大→加班多→需要咖啡提神→同时压力也导致脱发。咖啡和脱发都是压力这个“第三变量”的共同结果。我在辅导一位小学老师做“学生作业完成率与考试成绩关系”分析时就遇到了类似情况。数据显示完成率高的学生成绩也好。但深入挖掘发现真正起作用的是“家庭学习环境”父母重视教育的家庭既督促孩子按时交作业也提供更好的辅导资源。作业完成率只是这个优质环境的一个表征。因此制作任何一张图表前请默念三问这张图想回答什么具体问题不是“展示数据”而是“证明XX假设”或“发现XX异常”这个图形是否最直接、最不易产生歧义地呈现了答案比如比较几个数值柱状图优于饼图展示趋势折线图优于面积图图中是否有任何可能诱导错误解读的元素截断的Y轴、扭曲的比例、模糊的图例、缺失的单位王姐的实践再次印证了朴素的力量。她不用任何BI工具就用手机自带的“备忘录”画了两张图一张是“每月玫瑰销量 vs 当月平均气温”的散点图手绘另一张是“母亲节前三天销量 vs 平日销量”的对比柱状图用不同颜色的便利贴剪成。前者让她发现气温超过28℃后玫瑰销量明显下滑高温加速凋谢后者则直接指导她提前一周加大备货。这两张“小学生水平”的图比任何炫酷的动态仪表盘都更精准地切中了业务要害。4.3 “人工智能”不是黑箱是你身边那个“超级实习生”提到Artificial Intelligence很多人脑海里立刻浮现科幻电影里冷峻的机器人。但剥开术语的外壳AI在你生活中的真实面目更像一个不知疲倦、记忆力超群、但需要你手把手教规矩的“超级实习生”。它没有自己的意志只忠实地执行你设定的规则和喂养的数据。以你手机里的天气APP为例。它预测“明天降雨概率70%”这个数字背后是AI实习生在干三件事学习Learning它“读”了过去十年本地每小时的气温、湿度、气压、云图卫星照片以及对应的是否下雨的真实记录标签。它在寻找当湿度90%、气压持续下降、云图显示积雨云团移动时下雨的概率有多大推理Reasoning今天下午的实测数据显示湿度85%、气压已下降2hPa、卫星图上确有云团逼近。它调用学到的规律计算出“70%”这个概率。反馈Feedback如果明天下了雨这个“70%”的预测就被标记为“成功”如果没下系统会记录误差并在下次学习时微调对“湿度85%”这个条件的权重。关键在于AI的“智能”完全取决于你给它的“教材”数据和“考题”任务定义的质量。如果教材里全是北京的数据却让它预测广州的天气结果必然荒谬。这解释了为什么某些AI客服会答非所问——不是它笨而是它被训练去“匹配关键词”而非“理解语义”。当你说“我的订单还没到”它只扫描到“订单”和“没到”就机械回复“请提供订单号”而忽略了你话语里隐含的焦虑情绪。所以与AI共事的第一守则是放弃“它应该懂”的幻想回归“我如何教”的务实。王姐的花店现在用一个简单的微信小程序管理库存。她没请程序员而是用现成的“金数据”表单自己设计了三个字段“商品名称”下拉菜单含玫瑰、康乃馨等10个选项、“入库数量”数字输入、“入库日期”日历选择。这个表单就是她给AI实习生的“教材”。每次进货她只需填三格系统自动汇总、生成库存报表、并在低于安全库存时发微信提醒。她没写一行代码但完成了数据驱动的库存管理闭环。这个过程揭示了一个朴素真理AI的价值不在于它多强大而在于它能否把你重复的手工劳动变成可积累、可复用、可放大的数字资产。下次当你抱怨“AI又出错了”不妨先问问自己“我给它的‘教材’真的覆盖了所有可能的情况吗”5. 数据素养一场永不停歇的日常修行我至今记得王姐花店开业十周年那天她送我的礼物不是花束而是一本手写的《小店数据手记》。翻开第一页是2010年3月1日的记录“今日开业客流23人成交12单收入¥386。玫瑰卖得最好但康乃馨剩得多。”最后一页是2024年4月的总结“母亲节预售突破¥2.3万其中‘感恩礼盒’占比65%客户复购率较平日高40%。发现新趋势35岁以下客户更倾向线上预约到店自提。”这本薄薄的手册没有一行代码没有一个算法但它是我见过最扎实的数据素养教科书。数据素养从来不是一场突击考试而是一次融入呼吸的日常修行。它始于你给孩子拍完照片后多花三秒给相册命名“小宇_幼儿园春游_202404”它显于你看到“某品牌手机销量暴涨200%”的新闻时下意识点开来源确认这是“新品发布首周”还是“对比三年前同期”它成于你和邻居聊起小区停车难时能拿出手机里连续一个月的早晚高峰车位拍照记录而不是只说“反正就是不够”。这条路没有终点因为数据本身就在进化。当王姐开始用手机拍下每束花的包装细节并上传到小红书那些点赞、评论、收藏的数据又成了她设计新款花束的全新教材。数据不是冰冷的终点它是你和世界持续对话的、不断生长的“新母语”。你不需要成为语法学家但必须学会听懂它的语气辨认它的修辞甚至偶尔用它写出属于自己的句子。最后分享一个小技巧从今天起每周选一个你最常接触的数据源微信运动步数、手机屏幕使用时间、淘宝购物车清空记录用最原始的方式——一支笔、一张纸——连续记录七天。不要分析只记录。到第七天晚上把这七行字摊开在桌上静静看三分钟。你可能会惊讶地发现那些你习以为常的数字第一次对你开口说话。这就是数据素养觉醒的起点。