Oucreate #16只要有足够数据,和一台能处理亿级数据的机器,我就能分析如果你想象数据只有 ip ,那这个只能算无效数据,一般行为记录除了 ip 外还有至少十几项低权重的一两个参数相似或相同,属于“弱关联”,但如果有多个高权重的参数相同,那就是“强关联”了;视乎模型,做连续追踪不是难事尤其有 timeline 的情况下,某些原来的“弱关联”也能转为“强关联”假设 ip 每天一变,在年内达到 200 天,每天在特定时段移动路线相同(例如天气 app ),只要排除机器属性,确定其行为具有人类属性,结合一些其他环境参数,那基本可以判定这 200 个 ip 是同一人;那这 200 个 ip 作为一个 group 就可以引申去判断其他事情了