头条数据挖掘总结

“两会”新闻分析框架已经完成两个多月了,一直没时间总结,这几天看了一下项目,发现很多东西都忘掉了,趁现在还记得一点东西,先写下部分内容,因为公司网络限制,不能贴代码和图片......

编程语言:

本项目中今日头条部分主要使用Python3,微博和微信爬虫主要使用Java。

相关技术:

今日头条部分直接请求search的API,返回的数据格式为JSON,获取头条search的数据主要流程如下:

打开Chrom控制台-->选择Network-->进入头条,搜索内容-->在Network中寻找相关的url-->获取URL中的Header中的URL,然后使用的时候重新拼接URL。

另外对于部分内容,直接使用Selenium模拟浏览器,直接抓去内容加载完毕后的html节点,这样做的好处是可以抓取任何内容,缺点是效率很低。

数据分析:

数据分析采用了编辑距离、奇异值分解、k-means、向量积、半监督学习等技术。

编辑距离:

编辑距离算法主要用来计算两个字符串之间的相似性。两个字符串A和B,通过增加、删除、修改其中的字符串,将A字符串变为B字符串,如果需要n操作,那么编辑距离为n。

奇异值分解:

首先感谢朱红军老师提供的思路和资料,这部分主要因为关键词太多,难以直接聚类分析,首先需要去掉一部分无关的数据。主要是将数据构建为一个原始矩阵k(大小m x n),得到<Key, Value1, Value2, ...>的List数据,key为关键词,value为每条新闻中出现的次数,列名为新闻ID。然后将矩阵k分为u,sigma,v三个矩阵。其中u矩阵大小为m x m;sigma矩阵为 m x n的矩阵,只有对角线有值; v 矩阵为 n x n的矩阵,通过sigma矩阵可以判断哪些关键词出现的频率最高,哪些出现的频率最低,将出现频率低的去掉,可以实现第一次降噪,输出<Key, Value1,Value2。。。>格式的List。

另外可以对数据进行多次奇异值分解,但是结果有点复杂难以做下一步的分析。

奇异值分解:http://www.cnblogs.com/bincoding/p/6922718.html

聚类分析:

这部分主要使用到网上的代码,通过奇异值分解之后的数据,可以确定每条新闻出现的每个关键词的次数。如果某两个关键词多次在一条新闻中出现,那么可以判断这两个关键词大概率相似,可以分为一类,比如“习大大"多次和"主席"出现在同一条新闻中,还有”去产能“多次和"煤矿"“钢铁”一起出现。数据量越大,结果越精确。

向量积:

这一部分主要原理是:通过判断每句话中词语出现的顺序和次数,来判断两句话是否相似。这部分算法主要采用网上的开源框架,但是因为时间关系并没有完全实现,只做一个简单的了解。

半监督学习:

    通过向量积来判断两个值是否相等,结果可能并不正确,这个时候可以人为修正结果,对结果分类进行修改,数据量越大越准确。这部分队友使用Django框架实现,只做了解。

代码和数据: https://github.com/haibincoder/ToutiaoCrawler  奇异值分解和k-means算法在svd目录

时间: 2024-10-10 18:07:14

头条数据挖掘总结的相关文章

阿里、腾讯、京东、微软,各家算法&amp;数据挖掘岗位面经大起底!

阿里.腾讯.京东.微软,各家算法&数据挖掘岗位面经大起底! 2016-02-24 36大数据 36大数据 作者: 江少华 摘要: 从2015年8月到2015年10月,花了3个月时间找工作,先后通过内推参加了美团.阿里蚂蚁金服.京东.腾讯.今日头条.Growing IO.微软这7个公司的面试,同时参加了网易游戏.LinkedI In中国这2个公司的笔试,拿到比较优 … 从2015年8月到2015年10月,花了3个月时间找工作,先后通过内推参加了美团.阿里蚂蚁金服.京东.腾讯.今日头条.Growin

今日头条估值100亿美元,变身资讯APP巨头

[阅读原文] 作者:茱莉叶 身价估值100亿美元,攀升资讯APP寡头 手机APP今日头条母公司北京字节跳动科技有限公司考虑在最新一轮融资中筹资约10亿美元,包括新融资在内,其新估值有望达100亿美元.100亿美元的估值与微博的市值相当,按照周二46.67美元的收盘价计算,新浪微博总市值99.66亿美元.2014年6月,该公司估值仅为5亿美元,意味着其在两年内估值增长20倍. 北京字节跳动科技有限公司成立于2012年,主要产品是今日头条APP,通过海量信息采集.深度数据挖掘和用户行为分析,为用户智

今日头条架构演进之路

今天给大家分享今日头条架构演进,前面几位讲师讲了很多具体的干货,我的分享偏重基础设施及架构思路的介绍,我们想法是通过提供更好的基础设施,帮助架构做更好的迭代. 从架构的角度,技术团队应对的压力最主要来自三方面: 服务稳定性.接口的稳定性,让服务更可靠: 迭代速度.迭代速度对于大公司来讲相对没那么重要,规模比较大,生存压力相对小一点,但相对中型小型公司来讲,迭代速度是必须要保证的,时间窗也是一个决定能否成功的重要因素: 服务质量.主要关注用户满意度,它也是一个特别重要的 topic. 今日头条发展

今日头条算法

Reference: http://blog.csdn.net/u014114990/article/details/48165781 日头条涉及到算法:(1)今日头条服务器1000台左右,通过代码实现的爬虫功能,在其他传媒的网站和门户上抓取各种信息.如果在网站上抓取到纸媒的内容,优先从纸媒门户上抓取信息(2)抓取信息后,对有价值的信息通过算法进行分析归类.(3)推送到有感兴趣的今日头条客户端(4)用户注册或登录(新浪微博.QQ.人人网)时,通过数据挖掘分析,对用户进行分析,推荐感兴趣的信息.(

基于微软案例数据库数据挖掘知识点总结(Microsoft 时序算法——结果预算+下期彩票预测篇)

转载:http://www.cnblogs.com/zhijianliutang/p/4027175.html 前言 本篇我们将总结的算法为Microsoft时序算法的结果预测值,是上一篇文章Microsoft时序算法的一个总结,上一篇我们已经基于微软案例数据库的销售历史信息表,利用Microsoft时序算法对其结果进行了预测,并且相应形成了折线预测图和模型依赖属性,有兴趣的同学可以点击查看,但是上篇文章的能给出的只是一个描述趋势的折线图,从图中我们能分析出的知识也只能通过语言描述,而这里面缺少

Go -- 今日头条架构

夏绪宏,今日头条架构师,专注对高性能大规模 Web 架构,云计算.性能优化.编程语言理论等方向,PHP committer,HHVM 项目贡献者.2009 加入百度,先后从事大规模 IDC 自运维设施建设.云计算平台的架构设计.贴吧业务性能优化.百度通用 RPC 设计和优化等.2015 年加入今日头条负责基础设施,系统架构设计和优化,解决大流量高并发下的系统性能.可靠性和运维效率等方面的问题. 今天给大家分享今日头条架构演进,前面几位讲师讲了很多具体的干货,我的分享偏重基础设施及架构思路的介绍,

微软数据挖掘算法:Microsoft 时序算法之结果预测及其彩票预测(6)

前言 本篇我们将总结的算法为Microsoft时序算法的结果预测值,是上一篇文章微软数据挖掘算法:Microsoft 时序算法(5)的一个总结,上一篇我们已经基于微软案例数据库的销售历史信息表,利用Microsoft时序算法对其结果进行了预测,并且相应形成了折线预测图和模型依赖属性,有兴趣的同学可以点击查看,但是上篇文章的能给出的只是一个描述趋势的折线图,从图中我们能分析出的知识也只能通过语言描述,而这里面缺少更确切的数据支撑,作为一个凡事以数据说话的年代显然这是不够的,本篇我们将根据上一篇的预

简要的谈谈文本数据挖掘的一般步骤

[QQ群: 189191838,对算法和C++感兴趣可以进来] 数据挖掘领域一直都非常的火.现在炒的非常热的大数据,其实也是数据挖掘的一个应用而已,不管工程师用的是Hadoop还是其他平台,其实都是对一堆的数据进行分析,计算,然后得到我们希望得到的结果.所以我们可以知道,文本数据挖掘的必要性是因为信息技术,特别是网络的频繁使用,自媒体的越来越多,从大海中找到同一类,和用户期待的一类信息越来越重要,而人工完成几乎不可能,所以,文本挖掘就应运而生. 数据挖掘中的文本挖掘与我们的生活息息相关,比如说,

对话微信头条产品总监:优质原创内容的个性化推送是如何实现的

搜狗搜索的微信头条功能已经上线3个月,作为普通用户,在这期间曾多次就产品体验与功能等问题向官方提过多项意见,而搜狗搜索对此颇为重视,并提议组织一场自媒体与产品负责人的会面.4月16日,应搜狗搜索邀请,我以自媒体和微信头条用户双重身份参加了与产品总监面对面交流的微信头条沙龙,并在沙龙上与该产品负责人汪保安就微信头条产品的数据处理.产品优化与体验,以及微信头条的产品原则等进行了交流.除此之外,沙龙讨论中还解答了自媒体同行们非常关心的帐号推荐.文章推荐与原创内容等问题. 微信头条依托微信公众账号强大的