大论文微博个性化

1,提取出每个节目下的用户列表

2,将用户id列表与用户的profile进行对应

实现脚本如下:

  1 #/bin/sh
  2
  3 program_dir=/home/minelab/liweibo/raw_data
  4 user_file=/home/minelab/liweibo/springNightUser/sina_user.data
  5
  6 program_list=`ls $program_dir`
  7
  8 for program in $program_list
  9 do
 10 #对每个节目生成两个文件
 11 #节目名称_userid_times.map 字段:用户id 用户发表该节目相关的微博的次数
 12 #节目名称_userid_times_profile 字段:用户id 用户提到该节目的次数    用户昵称    用户性别    用户地域    用户生日    用户关注数目        用户粉丝数目    用户发布微博数目    用户标签
 13     rm -rf $program_dir/$program/$program"_userid_times.map"
 14     rm -rf $program_dir/$program/$program"_userid_times_profile.map"
 15     cat $program_dir/$program/$program.data| awk -F‘\t‘ ‘{print $2}‘ | sort | uniq -c | sort -r -n | sed ‘s/^ *//g‘ | sed ‘s/ /\t    /g‘ | awk -F‘\t‘ ‘{print $2"\t"$1}‘ | sort >$program_dir/$program/$program"_userid_times.map"
 16     join -t $‘\t‘ $program_dir/$program/$program"_userid_times.map" $user_file >$program_dir/$program/$program"_userid_times_prof    ile.map"
 17
 18     echo $program is done!
 19 done
 20
 21 echo "all is done!"

节目用户信息处理extractUserForLargePaper.sh

3,对节目信息进行编号

#!/bin/sh
program_dir=/home/minelab/liweibo/raw_data
inter_dir=/home/minelab/liweibo/inter_data
result_file=$inter_dir/id_program.map
program_list=`ls $program_dir`

rm -rf $result_file
i=1
for program in $program_list
do
    echo $i"    "$program>>$result_file
    i=$[$i+1]
done
echo "done"

为节目赋id

得到的id_program.map文件

1    百花争妍
2    倍儿爽
3    春晚是什么
4    答案
5    扶不扶
6    符号中国
7    光荣与梦想
8    欢歌
9    剑心书韵
10    卷珠帘
11    康定情歌
12    空空拜年
13    老阿姨
14    练兵舞
15    玫瑰人生
16    梦蝶
17    魔幻三兄弟
18    难忘今宵
19    年味儿
20    青春舞曲
21    情非得已
22    群发的我不回
23    扰民
24    人到礼到
25    舌尖上的春晚
26    时间都去哪儿
27    说你什么好
28    套马杆
29    天下黄河九十九道弯
30    天耀中华
31    同光十三绝
32    团圆饭
33    万马奔腾
34    万泉河水
35    我的要求不算高
36    我的中国梦
37    我就这么个人
38    想你的365天
39    小马欢腾
40    野蜂飞舞
41    英雄赞歌
42    英雄组歌
43    在那遥远的地方
44    站在高岗上
45    张灯结彩
46    最好的夜晚

id_program.map

4,建立节目id_用户矩阵

 #!/bin/bash
#最终得到的文件格式是节目id"    "评论该节目的用户数目"  "评论该节目的用户id列表(不同id之间使用空格分开)
#如果一个用户多次评论某个节目,当作一次进行处理
program_dir=/home/minelab/liweibo/raw_data
inter_dir=/home/minelab/liweibo/inter_data
result_file=$inter_dir/programid_userlist.map
tmp_file=$inter_dir/programid_userlist.tmp
program_list=`ls $program_dir`

rm -rf $result_file
rm -rf $tmp_file
i=1
for program in $program_list
do
    user_list=`cat $program_dir/$program/$program"_userid_times_profile.map" |  awk -F‘\t‘ ‘{printf("%s ",$1);}End{print;}‘`
    line_num=`cat $program_dir/$program/$program"_userid_times_profile.map" | wc -l | awk ‘{print $1}‘`
    echo $i"    "$line_num" "$user_list >>$tmp_file
    i=$[$i+1]
done
#根据节目流行度进行排序
cat $tmp_file | sort -t $‘\t‘ -k 2 -r -n > $result_file
rm -rf $tmp_file
echo "done"

构建id_用户矩阵

5,建立用户_节目id矩阵

6,统计节目下节目的流行度

7,统计用户的活跃度

大论文微博个性化

时间: 2024-08-05 07:31:12

大论文微博个性化的相关文章

2015.12.14-2015.12.20 大论文计划

利用一周时间完成大论文,大论文优先级大于前端学习 12.14周一,写第一章绪论部分; 12.15周二,写完第三章 12.16周三,写完第五章 12.17周四,写完中英文摘要,各章节总结重新增加内容 12.18周五,重修1,2章 12.19周六,重修3,4章 12.20周七,重修5章,写完第6章 附:前端研修的内容

2015.12.20-2015.12.25 大论文迭代 A

进一步充实大论文内容.结构,完善一遍大论文 12.20周天,完成论文第五章总结部分,和第一章的修改 12.21周一,完成论文第二章的修改充实 12.22周二,完成论文第三章的修改充实 12.23周三,完成论文第四章的修改充实 12.24周四,完成英文摘要 12.25周五,完成论文格式校验 前端拾遗:学习HTML的各个标签,css的各种描述

大论文排版技巧

说明 本文根据严思奇在2017年在"重庆邮电大学硕士学位论文"撰写期间的粗陋经验总结而作.使用的word版本为word2016. 在使用时,首先应该根据第2章,按照顺序设置好所有需要全局设定的内容.然后再论文写作中,会依次碰到参考文献.公式.图表等内容的格式设置,可以参考第3章相关内容. 由于经验有限,内容不够完善,可能会不断更新,可以在严思奇的博客[]中查看可能更新的内容. 基本全局设定 布局设置 在整个论文的开始,应该首先在"布局"栏设置好纸张大小和页边距,否则

2015.12.25-2016.01.01 大论文迭代B

大论文B轮迭代,稍重前端 12.25 周五,完善摘要 12.26 周六,完善第一章 12.27 周天,完善第二章 12.28 周一,完善第三章 12.29 周二,完善第四章 12.30 周三,完善第五章 12.31 周四,加入参考文献 01.01 周五,加入参考文献 加强前端方面的学习

大论文个性化推荐(和算法人员沟通)

一.基于遥控器数据 用户评分矩阵的计算: 五类属性 收藏(考虑次数,收藏节目和收藏频道的不同) 预订(考虑次数) 分享(考虑次数) 观看(考虑次数,时长) 搜索(考虑次数) 对于某个节目的评分=搜索×搜索权重×搜索次数+...(其他类似)...+收藏×收藏次数×收藏权重(如果收藏了频道a,a和b同时播出节目c,那么在推荐节目c的时候,有限推荐频道a播出的节目c) 目前的权重:搜索>预订>观看>收藏>分享 节目相似度矩阵的计算: 基于节目的演员(主持人).频道.星期.简介.类别计算相

latex 写大论文图目录中图注过长解决方案

写论文(尤其是学位论文)的时候,Figure通常都是有很长的注释,而Latex的list of figures似乎不能换行(看到有换行的,不过感觉不够美观). 再说,list of figures里面,不用对figure有详细的注释,只要有大概意思即可,解决方法如下: \begin{figure}[htb]\centering\includegraphics[width=3.5in]{images/chapter5/hysteresis_rate_different.eps}\caption[这

大论文中对参考文献添加操作相关总结

1.添加尾注 将鼠标光标在需要插入参考文献的位置,点击“插入”菜单,选择“引用”,接着选择“脚注和尾注”,弹出“脚注和尾注”窗口:    点击“尾注”,选择“文档结尾”,编号格式选择1,2,3,接着出现下面的画面:接着编辑出现文档结尾的尾注,编辑完成后如图: 2. 交叉引用的操作 “插入”→“引用”→“交叉引用”,引用类型为“尾注”,引用内容为“尾注编号”(只能选“尾注编号”而不能选“尾注编号带格式”,否则后来交 叉引用加上的方括号不是上标格式),选中需要的文献1.(注:若你后来又在前面的文档中

【转载】推荐系统的十大挑战

摘要:个性化推荐很多读者都听说过,但真正它是什么,可能大多数人都说不上来或者并不真正了解,而对于其发展现状和前景,大家也没有一个统一的认识.本文很详尽地介绍了个性化推荐的:理论概念,并深入分析了其面临的10大挑战. 个性化推荐经常被人误解为细分市场和精准营销这两个概念.虽然它们之间有一些联系,但实质上却相差甚远.本文不仅清楚地讲述了个性化推荐技术,更列出了其所面临的十大挑战. 很多人都知道个性化推荐,却有不少认识上的误区.有的人认为个性化推荐就是细分市场和精准营销,但实际上细分市场和精准营销往往

年度钜献,108个大数据文档PDF开放下载

1.大数据的开放式创新——吴甘沙 相关阅读:[PPT]吴甘沙:让不同领域的数据真正流动.融合起来,才能释放大数据的价值 下载:大数据的开放式创新——吴甘沙.pdf 2.微软严治庆——让大数据为每个人服务 导读:数据文化带来1.6万亿美元数据红利,IDC调查显示,采用完整的大数据解决方案,将在未来4年内,给全球企业带来1.6万亿. 下载:微软严治庆—让大数据为每个人服务.pdf 3.大规模主题模型建模及其在腾讯业务中的应用 相关阅读:广点通背后的大数据技术秘密——大规模主题模型建模及其在腾讯业务中