职场社交软件脉脉职言区最近一个星期在聊什么?

工作之余在学习python,笔者主流语言是php,初学抓取了近来一个星期的脉脉职言区的帖子,现将过程记录如下。

脉脉是一款职场社交软件,大家会在职言区,也就是之前的匿名区去吐槽,但是帖子是登录之后才能看,所以第一步需要python模拟登录

模拟登录

首先在网页上登录,打开开发者工具,会看到一个gossip_list连接,这个就是列表的接口了,参数需要如下

是的,右边的参数就是我们获取数据的时候需要的参数了,cookie信息放在header头里模拟浏览器登录信息,把参数拼接好,去访问,能正常返回数据,如下图:

这样就拿到了数据结构了,然后写获取URL的方法,拼接URL,代码如下

def geturl(page):
        url = ‘https://maimai.cn/sdk/web/gossip_list?‘
        params = {
                ‘u‘:‘****‘,
                ‘channel‘:‘www‘,
                ‘version‘:‘4.0.0‘,
                ‘_csrf‘:‘*****‘,
                ‘access_token‘:‘*****‘,
                ‘uid‘:‘*****‘,
                ‘token‘:‘*****‘,
                ‘page‘:page,
                ‘jsononly‘:‘1‘
        }
        for item in params:
                url = url + item + ‘=‘+ params[item] + "&"
        url = url[:-1]
        return url;

获取了URL之后,根据已经拿到的cookie去拿取数据,代码如下:

def getGossipList():
        headers={
               ‘Accept‘:‘text/html,application/shtml+xml,application/xml‘,
                ‘Accept-Encoding‘:‘gzip, deflate, br‘,
                ‘Accept-language‘:‘zh-CN,zh;q=0.9‘,
                ‘Connection‘:"keep-alive",
                ‘Host‘:‘maimai.cn‘,
                ‘User-Agent‘:‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36‘,
                ‘cookie‘:‘******,
                ‘referer‘:‘https://maimai.cn/gossip_list‘
        }
        i = 0
        while (i<200):
                url = geturl(str(i));
                r = requests.get(url,timeout=10,headers=headers)
                if r==‘‘: return
                data=r.json()[‘data‘]
                for item in data:
                        saveData(item)
                i = i+1

存取数据

把拿到的数据存入sqlite,一般Mac或者Linux都自带,存取下来供后续分析,代码如下:

def saveData(item):
        related_tags = ‘‘
        conn = sqlite3.connect(‘/Users/kumufengchun/maimai.db‘)
        cursor = conn.cursor()
        for tag in related_tags:
                print(tag)
                sys.exit()
                related_tags += tag[‘name‘] + ‘,‘
        ins = "insert into gossip values(null,?,?,?,?,?,?)"
        v=(item[‘text‘] if(item.has_key(‘text‘)) else ‘‘,
        item[‘author‘] if(item.has_key(‘author‘)) else ‘‘,
        item[‘name‘] if(item.has_key(‘name‘)) else ‘‘,
        item[‘avatar‘] if(item.has_key(‘avatar‘)) else ‘‘,
        related_tags,
        item[‘time‘] if(item.has_key(‘time‘)) else ‘‘)
        cursor.execute(ins, v)
        conn.commit()
        conn.close()

数据分析

数据存取下来了,就可以分析了,每个岗位发贴数量,用tableau简单的作图表如下图:

制作云图

想了解大家都在聊啥,用jieba分词先把帖子内容分词,然后在用wordcloud作云图,代码如下:

def makeYuntu():
        conn = sqlite3.connect(‘/Users/yangjiao/maimai.db‘)
        c = conn.cursor()
        cursor = c.execute("select text from gossip")
        f = ‘‘
        for row in cursor:
                text = jieba.cut(row[0], cut_all=False)
                f +=" ".join(text)
        wordcloud = WordCloud(
                font_path="Deng.ttf",
                background_color="white",
                width=1920,
                height=1080,
                margin=2).generate_from_text(f);
        plt.imshow(wordcloud)
        plt.axis("off")
        plt.show()
        wordcloud.to_file(‘maimai.png‘)
        conn.close()

制作的云图如下所示

好了,第一次抓取数据的尝试就到这了。

关于模拟浏览器登录的有很多方法参考文档:https://www.cnblogs.com/chenxiaohan/p/7654667.html

关于sqlite的学习使用:http://www.runoob.com/sqlite/sqlite-python.html

关于python的使用:http://www.runoob.com/python3/python3-if-example.html

关于wordcloud的学习:https://blog.csdn.net/cy776719526/article/details/80171790

           https://www.cnblogs.com/jlutiger/p/9176517.html

关于jieba的学习:https://blog.csdn.net/linzch3/article/details/71253541

参考爱奇艺的爬取数据:https://blog.csdn.net/csdnnews/article/details/84781953

原文地址:https://www.cnblogs.com/kumufengchun/p/10108467.html

时间: 2024-08-27 08:12:41

职场社交软件脉脉职言区最近一个星期在聊什么?的相关文章

一直在使用一个职场社交软件

15年年末,大家的话题都聚焦在了"社群"上,关于社群的建设.运营,已经有很多成功的案例,周围的一些朋友也有做的风生水起期的,这个时候,我觉得应该做点事情了.因为一直在使用一个职场社交软件脉脉,做为脉脉的一个深度用户,当知道"脉友会"这个事情的时候,也就自然加入了长春脉友会筹备和运营当中.作为一个地方性社群,长春脉友会相比其他城市,无论是在用户基数.用户的活跃度.用户结构等都不具备其他一线城市的先天条件.

【转】职场三国杀:为什么职场争斗中认真干活的人有时会败给不干活的人

作者:古典.来源:<职场> 职场人士大致能够分为五类:“忠臣,太监,庸臣,勇将,主公.” 我有个朋友,他30出头,在500强公司做技术经理.他戴无边眼镜,穿一身土黄色的夹克,下面是一条常年不洗的牛仔裤加休闲皮鞋,典型技术高手范.三年前,他帮助公司解决两个很大技术难题.当年的年会,大中华区的总裁拍着他的肩膀说,有前途!大家频频举杯,大家和他自己都觉得,小子机会来了!但是两年过去了,身边的人蹭蹭往上升,很多水平不如他的人还已经成为高管,只有他还是纹丝不动. 对于职场,他的想法象山楂树之恋一样单纯,

职场生涯 聪明应对职场里的“真假小人”

当我们离开校园,走进职场以后,肯定会遇到各式各样的人:圆滑的.率真的.曲里拐弯的.口无遮拦的,有些人表里如一.有些人高深莫测.有些刚交往觉得亲切,有些相处久了才会觉得温暖……对待不同的人,要用不同的方法,否则就不能与别人产生良好的互动和沟通. 真小人之一:表里不一,口蜜腹剑. 红楼梦里的王熙凤,被人这么评价:明是一把火,暗是一把刀.其实表面上不好接近的人,倒未必是真的不好打交道;最可怕的则是表里不一,看不透他心里究竟在想什么的那一类人. 如果这类人还有着亲切又有耐心的外表,那么你很有可能没法在短

如何告别职场菜鸟,成为职场“老司机”!

对于这个话题,刚开始可能很多人会疑惑,菜鸟和老司机到底区别在哪里?暂且不说区别在哪里,我们可以先来看看职场"老司机"是怎么炼成的. 很多初入职场的菜鸟,都会有这样的一段经历,如何在职场获得自由,收获地位和财富:而对于职场老司机来说任何财富和地位其实都是踩踏着种种痛苦和伤痕而实现的:所以就先和大家聊聊如何能够在短期职场中成为"腹黑老司机".首先不管你是初入职场的菜鸟还是混迹职场的老油条.老司机,你都要明白三个残酷原则: 1.利益至上 职场就是一个利益交换的地方,除了利

用Python教你如何爬取脉脉职言

脉脉是一个实名职场社交平台.之前爬了脉脉职言版块,大概爬了4027条评论,本文对爬取过程给出详细说明,对于评论内容仅做可视化分析,之前存了一堆这方面的文章,今天一看全都404了?. 爬虫 仍然使用python编程,对爬虫没兴趣的可以直接跳过看下部分,不影响悦读. 网址https://maimai.cn/gossip_list. 需要先登录才能看到里面的内容.爬取目标: ? 只爬文字部分,图片不考虑. 在浏览器内按F12打开开发者,向下滑,会看到很多gossip开头的json文件(不行的话刷新一下

Python 爬取 4027 条脉脉职言,解读程序员真实的互联网生活!

脉脉是一个实名职场社交平台.之前爬了脉脉职言版块,大概爬了4027条评论,本文对爬取过程给出详细说明,对于评论内容仅做可视化分析. 爬虫 仍然使用Python编程,对爬虫没兴趣的可直接跳过看下部分,不影响阅读.网址https://maimai.cn/gossip_list,需要先登录才能看到里面的内容. 爬取目标: 只爬文字部分,图片不考虑. 在浏览器内按F12打开开发者,向下滑,会看到很多gossip开头的json文件(不行的话刷新一下). 右键open in new tab,里面是一条一条记

聊聊职场规划那些事儿

2016-02-29 王勇睿 返璞归真 去年的现在,我还在亚龙湾的躺椅上就着蓝汪汪的水和蓝瓦瓦的天阅读王小波的杂文集「你为什么活着」.王老师说: 我现在已经活到了人生的中途,拿一日来比喻人的一生,现在正是中午.人在童年时从朦胧中醒来,需要一些时间来克服清晨的软弱,然后就要投入工作:在正午时分,他的精力最为充沛,但已隐隐感到疲惫:到了黄昏时节,就要总结一日的工作,准备沉入永恒的休息. 如此说来,工作才是人一生的主题.那么我们今天就来聊聊「职场规划那些事儿」.我已经上班了,上的生龙活虎,虎虎生风,所

工作后,你悟出什么职场道理?

在大型制造业企业工作十五年,周边都是各大名校的本科,硕士,可以说是高手如林. 十五年,时间足够长到可以总结点什么了,今天就这这个问题,我也想说说自己的想法.尽量捞干的说. 1,不管你在任何公司,任何部门,任何行业,你都要有个职场贵人. 这个职场贵人是谁,通常情况来说是你的直接上司,或者你的所在部门的大拿,或者是更高一点层次的领导.很多人会说,这是上层路线,这是拍马屁,这是搞关系.其实,你想想,团队这个词,不就是各种关系的混合体吗,你想要有更多的学习机会,锻炼机会,上升机会,你要没这个人脉那根本玩

职场中的各种贵人

通常意义上的贵人,是指身边那些握有资源.权力的人.如果职场新人是这种功利的想法,那可太幼稚了.想抓住贵人,必要先能识别出贵人.拿贵人当凡人,是有眼无珠,更有甚者,拿贵人当仇人,那真是命比纸薄啊.(本文来自e良师益友网) 贵人相助是人生极大幸运,连算命先生在发售各式定心丸时,都拿“命中有贵人”当个金牌丹药.而职场新人抓住身边的贵人,是职业发展的窍门之一,也是职业成熟度颇高的标志. 你的上司,你接触到的成功人士,把露脸的任务.挑战性高的任务交给你的人,把脏活累活没人爱干的活儿硬塞给你的人,好为人师.