python爬虫 爬取知乎用户的用户信息

我用python爬虫找到了不想告诉我她知乎ID的妹纸的ID…….

在我做了这件事情之后 , 她觉得我越来越懂她了 , 嘻嘻

有一天 , 我发现我心仪已久的妹纸在朋友圈里分享了知乎专栏的文章 , 就知道她也刷知乎 . 如果在知乎上关注她 , 我就能知道 , 她最近关注什么 , 心里想些什么 , 了解了解她喜欢的方面 , 还能作为谈资 , 简直太赞了 (*^^)v .

但是输入她的名字…… 在知乎上根本找不到好吗 (?`灬′?)

我们两个聊天的时候 , 刚好说到了她分享的那篇文章 ,

我很自然的说: “知乎上你用的不是真名呀, 就我这么天真用了真名..”

她笑着说:”那个可以改呀” ,

“凭什么知乎团队不让我改啊!!! “,我答道,” 不如我们互粉吧^_- ”

哎 , 于是她打开zhihu , 看了看我的主页 , 并没有关注我…… 可能是赞太少了吧… 达不到她的要求 , 或者她不想让我知道她在看什么吧 , 也许她希望自己的知乎是交浅言深 , 不希望被身边人看见… (?-﹏-?) 失望.

我回去想了想 , 她说名字可以改 , 那她可能以前也用的是真名 , 找到破绽了!

知乎的名字可以改 , 但是id是改不了的 !

每个人的主页地址 , people后面那个就是TA的id,

http://www.zhihu.com/people/zhang-san-12-45

例如张三同名很多 , 后面就会加上数字. 她的名字拼音相同的较多 , 我试了一下 , 这个数字是不超过100的. 它的组合方式有 zhang-san , zhang-san-1 zhang-san-12-43 依次类推.

好 , 现在我就可以开始寻找她的账号了! 既然她改名了 , 那她名字满足的条件一定是: 昵称的拼音不是真名. 这个用pypinyin模块可以解决 , 这样子 , 需要我人工查看的主页就少很多了.

  1. 在github上 下载 @egrcc 的zhihu-python
  2. 寻找她了ing
# coding: utf-8

from zhihu import User
from pypinyin import pinyin, lazy_pinyin
import pypinyin

user_url = ‘‘
user_id = ‘‘
l = [u‘bu‘, u‘xu‘, u‘kan‘]
 #这里是她名字的拼音, 还是不要暴露她的好, (*/ω\*)
for num in range(100):  #先在 -100以内搜索
    try:
        user_url = ‘http://www.zhihu.com/people/bu-xu-kan-‘ + str(num)
        user = User(user_url)
        user_id = user.get_user_id()
        if l != lazy_pinyin(user_id.decode(‘gbk‘)): #看看她有没有用原名
            print user_id, ‘ ‘, num
    except:
        pass

for i in range(100):
    for j in range(100):  #在 -100-100以内搜索
        try:
            user_url = ‘http://www.zhihu.com/people/bu-xu-kan-‘ + str(i) + ‘-‘ + str(j)
            user = User(user_url)
            user_id = user.get_user_id()
            print user_id, ‘ ‘, i, ‘-‘, j
        except:
            pass

爬了好久 , 结果出来了 , 这些昵称不多 , 我翻翻他们的主页就幸运地找到了我心仪的妹纸:

XXXXXXXX   26
XXXXXXXX   27
XXXXXXXX   42
XXXXXXXX   72
XXXXXXXX   94
she is here!   6 - 36
XXXXXXXX   6 - 76
XXXXXXXX   7 - 86
XXXXXXXX   10 - 35
XXXXXXXX   28 - 67
XXXXXXXX   32 - 28
XXXXXXXX   32 - 66
XXXXXXXX   34 - 75

从那之后 , 我每天都可以看她的主页啦~ 至于我有没有追到她呢….

在我打开她的主页之后 , 我发现她喜欢科幻 , 也对推理小说感兴趣 , 关注穿衣打扮方面 , 符合我的胃口呀 . 最近呢 , 她关注情感方面的问题变多了 , 我不知道是不是因为最近我和她联系变频繁了 , 激起了她一些感觉 , (/ω\)

我会加油哒~

时间: 2024-08-02 11:03:28

python爬虫 爬取知乎用户的用户信息的相关文章

Python爬虫爬取知乎小结

博客首发至Marcovaldo's blog (http://marcovaldong.github.io/) 最近学习了一点网络爬虫,并实现了使用python来爬取知乎的一些功能,这里做一个小的总结.网络爬虫是指通过一定的规则自动的从网上抓取一些信息的程序或脚本.我们知道机器学习和数据挖掘等都是从大量的数据出发,找到一些有价值有规律的东西,而爬虫则可以帮助我们解决获取数据难的问题,因此网络爬虫是我们应该掌握的一个技巧. python有很多开源工具包供我们使用,我这里使用了requests.Be

python爬虫——爬取知乎上自己关注的问题

与之前爬的网站图片的不同的是,现在爬取的是要自己个人的关注的东西,所以需要做到模拟登录.模拟登录的原理是登录网站后,在浏览器上获取保存的cookies信息,填充之后与请求一起发送. 如果前面的爬取图片的会爬取了,对于这个解析字符串的也没有多大问题了. 一直看着知乎上很多程序员把自己关注的人的答案爬下来之后整理来看,那个时候开始又开始对爬虫这个东西特别感兴趣,对一个妹纸在美国搭了搭了个环境,爬了Twitter后进行数据分析的行为更是佩服,对方是个妹纸,但不是程序员,嗯,她自己还说代码写得丑,用代码

Python爬虫爬取博客园并保存

Python爬虫爬取博客园并保存        爬取博客园指定用户的文章修饰后全部保存到本地 首先定义爬取的模块文件: crawlers_main.py 执行入口 url_manager.py url管理器 download_manager.py 下载模块 parser_manager.py html解析器(解析html需要利用的内容) output_manager.py 输出html网页全部内容文件(包括css,png,js等) crawlers_main.py 执行入口 1 # coding

用Python爬虫爬取广州大学教务系统的成绩(内网访问)

用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code] 在{}之前的部分就是"选择器"."选择器"指明了{}中的"样式"的作用对象,也就是"样式"作用于网页中的哪些元素.可参考:http://www.w3school.com.cn/cssref/css_selectors.asph

python爬虫爬取csdn博客专家所有博客内容

python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 结果如下: 版权声明:本文为博主原创文章,未经博主允许不得转载.

python爬虫爬取美女图片

python 爬虫爬取美女图片 #coding=utf-8 import urllib import re import os import time import threading def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImgUrl(html,src): srcre = re.compile(src) srclist = re.findall(srcre,html)

python爬虫—爬取英文名以及正则表达式的介绍

python爬虫—爬取英文名以及正则表达式的介绍 爬取英文名: 一.  爬虫模块详细设计 (1)整体思路 对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个csv文件中:再读取csv文件当中的每个英文名链接,采用循环的方法读取每一个英文名链接,根据每个英文名链接爬取每个链接中的数据,保存在新的csv文件当中. 需要写一个爬取英文名链接的函数.将爬取的内容保存在csv文件的函数以及读取csv文件内容的函数.爬取英文名详情页内容的函数. 表5.3.1 函数名

python爬虫爬取微博评论案例详解

这篇文章主要介绍了python爬虫爬取微博评论,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧 数据格式:{"name":评论人姓名,"comment_time":评论时间,"comment_info":评论内容,"comment_url":评论人的主页} 以上就是我们需要的信息. 具体操作流程: 我们首相将主页获取完成以后,我们就会发现,其中 的内容带有相

Python爬虫爬取数据的步骤

爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多网页的变化规律,基本上都是只有小部分有所变化,如:有的网页只有网址最后的数字在变化,则这种就可以通过变化数字将多个网页链接获取: 2.把获取得到的多个网页链接存入字典,充当一个临时数据库,在需要用时直接通过函数调用即可获得: 3.需要注意的是我们的爬取并不是随便什么网址都可以爬的,我们需要遵守我们的