2.1 用户行为数据简介
显性反馈行为:用户明确表示对物品喜好的行为。评分、喜欢、不喜欢。
隐性反馈行为:不能明确反应用户喜好的行为。比如页面浏览。
显性反馈数据 | 隐性反馈数据 | |
用户兴趣 | 明确 | 不明确 |
数量 | 较少 | 庞大 |
存储 | 数据库 | 分布式文件系统 |
实时读取 | 实时 | 有延迟 |
正负反馈 | 都有 | 只有正反馈 |
正反馈:用户的行为倾向于指用户喜欢的物品。
负反馈:用户的行为货币于用户不喜欢的物品。
用户行为的统一表示:
user_id | 产生行为的用户的唯一标识 |
item_id | 产生行为的对象的唯一标识 |
behavior_type | 行为的种类(购买/浏览) |
context | 产生行为的上下文,包括时间和地点等 |
behavior weight | 行为的权重 |
behavior content | 行为的内容 |
无上下文信息的隐性反馈数据集:每一条行为记录仅仅包含用户ID和物品ID,如Book-Crossing数据集
无上下文信息的显性反馈数据集:每一条记录包含用户ID、物品ID和用户对物品的评分
有上下文信息的隐性反馈数据集:每一条记录包含用户ID、物品ID和用户对物品产生行为的时间戳,如Last.fm数据集
有上下文信息的显性反馈数据集:每一条记录包含用户ID、物品ID、用户对物品的评分和评分行为发生的时间戳,如Netflix。
2.2 用户行为分析
2.2.1 用户活跃度和物品流度的分布
长尾分布:Power Law
令fu(k)为对k个物品产生过行为的用户数,令fi(k)为被k个用户产生过行为的物品数,那么fu(k)和fi(k)都满足长尾分布。
fi(k)=αikβi
fu(k)=αukβu
时间: 2024-10-10 01:29:05