大厂面试：如何设计一个系统，实现毫秒级查询10亿手机尾号后4位？

张

张建站

2026/5/11 23:39:55

10分钟阅读

写在开头昨天在技术群里看到个老哥心态崩了。说是去字节二面面试官抛了个场景题“我有 10 亿个用户手机号请你设计一个系统支持毫秒级查询手机尾号后 4 位。”老哥一听这也太简单了张口就来“在 MySQL 建个索引或者用LIKE %1234呗。”面试官当场就笑了“10 亿数据你用 LIKE这是要全表扫描把数据库炸穿吗就算你建了普通索引B 树的最左前缀原则也不认后缀啊。再想想”老哥汗流浃背支支吾吾半天“那……上 ES”面试官摇头“为了查个尾号你让我搭一套 ES 集群这硬件成本、维护成本还有数据同步的延迟怎么算杀鸡用牛刀”这道题其实是架构设计里典型的“照妖镜”。它考的根本不是 SQL 语法而是你对“异构索引”、“分布式路由”以及“存储成本”的权衡。今天咱们就扒开这 10 亿数据的外衣看看怎么从架构层面把性能榨干。一、找死流LIKE % / 暴力索引很多初学者第一反应就是SELECT * FROM users WHERE phone LIKE %1234。结局DBA 提刀赶来你的工位可能保不住了。为什么MySQL 的 B 树索引是严谨的“从左到右”排序。你查后缀尾号完全违背了“最左前缀原则”。这时候索引就是个摆设数据库被迫全表扫描。 10 亿数据哪怕全是 SSD扫一遍也得几十分钟。毫秒级梦里啥都有。二、入门流反转大法好稍微有点经验的兄弟会想到“既然索引不支持从右往左查那我就把数据倒过来存。”骚操作存手机号时顺手存一个反转字符串。比如13800138000存成00083100831。查尾号1234就变成了查reversed_phone LIKE 4321%。效果这就完美符合了“最左前缀”索引生效了查询确实快了。但在 10 亿数据面前这招还是不够看单表 10 亿光索引文件都得几十上百 G。B 树层高一变高IO 还是瓶颈。而且你这一台数据库能扛多少并发三、进阶流分库分表异构索引P7 必杀技到了这个量级分库分表是必须的。但这里有个巨坑。通常我们分库分表是按User_ID分的。如果你要查“尾号 1234”你根本不知道这些人在哪个库里。这就导致了分布式系统最忌讳的“广播查询Scatter-Gather”—— 你得向所有分片库同时发起查询然后聚合结果。这会让数据库连接池瞬间爆炸。怎么破建立“异构索引表”别动主表主表还是按 ID 分我们单独建一套映射表只存phone_suffix和user_id。1. 怎么分片重点千万别傻乎乎地用 Hash。手机尾号0000-9999本身就是数字分布极度均匀建议直接切1000 张表。路由算法table_index suffix % 1000。效果炸裂你要查尾号12341234 % 1000 234。请求直接打到第 234 号表。精准定位根本不需要去骚扰其他 999 张表。哪怕数据量再大单表也就 100 万行MySQL 跑起来跟玩一样。2. 隐藏的雷区很多人挂在这面试官这时候通常会冷笑一下“查尾号 1234会返回多少条数据”咱们算笔账10 亿用户尾号只有 1 万种组合。10亿 / 1万 10万。平均每个尾号对应10 万个用户如果你代码里写个SELECT *一次返回 10 万条数据你的应用服务器内存直接OOM带宽瞬间打满。解法必须强制分页Limit。告诉面试官“业务上我们只展示‘最新注册’的 20 个用户SQL 强制加上ORDER BY user_id DESC LIMIT 20。想看更多的不支持或者加钱上分析型数据库。”四、兜底流Redis 怎么用这时候肯定有人说“加个 Redis 缓存啊”避坑指南千万别提布隆过滤器尾号只有 0000-9999这 1 万个尾号肯定都存在。布隆过滤器是防空的这里全是满的用了个寂寞。正确的 Redis 姿势只缓存“首页”。把尾号8888这种热点数据的前 50 条user_id扔进 RedisList 或 ZSet。 99% 的用户就是看个热闹Redis 挡住这部分流量就够了。真正想深度翻页的让他去查异构表反正量也不大。总结建议背诵下次面试再问这个直接用这就话降维打击“面试官这个问题的本质是海量数据的非分片键查询。我不会搞昂贵的 ES而是采用‘异构索引表覆盖索引’的方案。建立一张独立的索引表利用手机尾号天然的离散性直接取模路由到 1000 张分表中避免了全库广播扫描。同时为了防止单次查询数据量过大打爆内存我会严格限制分页查询。对于热点尾号利用 Redis 缓存首页数据进行兜底。这是一套成本最低、性能最高、且完全可落地的架构方案。”写在最后所谓的架构设计从来不是堆砌组件。能用 MySQL 解决的绝不上 ES能用取模解决的绝不上 Hash。把复杂留给自己把简单留给机器这才是高手的境界。兄弟们如果产品经理非要让你支持“模糊搜索任意中间 4 位”比如%1234%除了提桶跑路你还有什么招评论区聊聊。

滴滴二面：线上敲了个 DEL 命令，为何几万笔支付瞬间超时报错？深入Redis内核源码分析

写在开头最近在咱们的技术交流群里，一位刚面完滴滴架构组的兄弟分享了一道极其硬核的面试题。面试官没有按套路出牌问“缓存击穿”或“雪崩”，而是抛出了一个非常真实的生产事故场景： “线上有个废弃的 Redis Key，里面存了上百…...

2026/5/11 23:39:47 阅读更多 →

明日方舟基建自动化终极指南：Arknights-Mower 完整使用教程

明日方舟基建自动化终极指南：Arknights-Mower 完整使用教程【免费下载链接】arknights-mower 《明日方舟》长草助手项目地址: https://gitcode.com/gh_mirrors/ar/arknights-mower 还在为《明日方舟》繁琐的基建管理而烦恼吗？每天重复的干员排班…...

2026/5/11 23:35:12 阅读更多 →

基于 DeepSeek 的编程智能体 TUI

今天发现有个面向DeepSeek V4的终端原生编程工具：DeepSeek TUI，一个完全运行在终端里的编程智能体。第一感觉是怎么还有人开发专门基于DeepSeek的编程工具。再就是觉得有了AI编程辅助之后，软件产品简直是层出不穷，目不暇接&#x…...

2026/5/11 23:32:55 阅读更多 →

BriSe AI：构建类脑自我层次模型，从模式匹配迈向自主理解

1. 项目概述：从“模仿”到“涌现”的范式跃迁最近和几位做认知科学和神经科学的朋友聊得比较多，大家都有一个共同的感受：当前主流的人工智能，无论是大语言模型还是多模态模型，本质上还是在做“模式匹配”和“概率预测…...

2026/5/10 0:03:41 阅读更多 →

6G边缘计算与生成式AI融合：基于LDM与DRL的协同优化架构实践

1. 项目概述：当6G边缘计算遇上生成式AI最近和几个做通信和AI的朋友聊天，大家不约而同地提到了一个词：6G边缘生成式AI。这听起来像是把几个最前沿的技术名词硬凑在一起，但当你真正拆开来看，会发现它背后指向的是一个非常…...

2026/5/10 0:03:49 阅读更多 →

DriverStore Explorer完全指南：轻松管理Windows驱动，释放宝贵磁盘空间

DriverStore Explorer完全指南：轻松管理Windows驱动，释放宝贵磁盘空间【免费下载链接】DriverStoreExplorer Driver Store Explorer 项目地址: https://gitcode.com/gh_mirrors/dr/DriverStoreExplorer 你是否曾因为Windows系统变得越来越臃肿而…...

2026/5/10 0:10:01 阅读更多 →