对于一个互联网站点,这其实是一个挺平常的问题,因为目前“撞库”的发生。我们收集的数据主要还是来源于如下数据:
三层数据:IP地址
四层数据:TCP初始端口、TCP初始序列号(不同系统可能存在一些实现上的差异)、滑动窗口大小
七层数据:用户浏览器指纹数据,如UserAgent等能从一定角度体现用户浏览器特征的数据,比如Chrome、Firefox、Safari等就有所不同
应用系统日志:获取用户浏览页面分类信息、页面转换序列及相关时间等等。
将一段时间的上述历史数据(设定窗口,每一项可作为一个维度)通过一定的函数转换最终进行归一化处理(Normalization,归一化也可对不同维度进行加权),然后通过本次浏览情况判断是否是出自同一用户,如果不是则应发送响应通知原用户,可能出现冒用情况。
判断的方法可以使用简单的余弦夹角、马尔科夫或距离关系等。形式化的描述就暂不给出了。
时间: 2024-11-08 15:45:12