Python爬虫爬取知乎小结

博客首发至Marcovaldo’s blog (http://marcovaldong.github.io/)

最近学习了一点网络爬虫,并实现了使用python来爬取知乎的一些功能,这里做一个小的总结。网络爬虫是指通过一定的规则自动的从网上抓取一些信息的程序或脚本。我们知道机器学习和数据挖掘等都是从大量的数据出发,找到一些有价值有规律的东西,而爬虫则可以帮助我们解决获取数据难的问题,因此网络爬虫是我们应该掌握的一个技巧。

python有很多开源工具包供我们使用,我这里使用了requests、BeautifulSoup4、json等包。requests模块帮助我们实现http请求,bs4模块和json模块帮助我们从获取到的数据中提取一些想要的信息,几个模块的具体功能这里不具体展开。下面我分功能来介绍如何爬取知乎。

模拟登录

要想实现对知乎的爬取,首先我们要实现模拟登录,因为不登录的话好多信息我们都无法访问。下面是登录函数,这里我直接使用了知乎用户fireling的登录函数,具体如下。其中你要在函数中的data里填上你的登录账号和密码,然后在爬虫之前先执行这个函数,不出意外的话你就登录成功了,这时你就可以继续抓取想要 的数据。注意,在首次使用该函数时,程序会要求你手动输入captcha码,输入之后当前文件夹会多出cookiefile文件和zhihucaptcha.gif,前者保留了cookie信息,后者则保存了验证码,之后再去模拟登录时,程序会自动帮我们填上验证码。


def login():
    url = ‘http://www.zhihu.com‘
    loginURL = ‘http://www.zhihu.com/login/email‘

    headers = {
        "User-Agent": ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:41.0) Gecko/20100101 Firefox/41.0‘,
        "Referer": "http://www.zhihu.com/",
        ‘Host‘: ‘www.zhihu.com‘,
    }

    data = {
        ‘email‘: ‘[email protected]‘,
        ‘password‘: ‘**************‘,
        ‘rememberme‘: "true",
    }
    global s
    s = requests.session()
    global xsrf
    if os.path.exists(‘cookiefile‘):
        with open(‘cookiefile‘) as f:
            cookie = json.load(f)
        s.cookies.update(cookie)
        req1 = s.get(url, headers=headers)
        soup = BeautifulSoup(req1.text, "html.parser")
        xsrf = soup.find(‘input‘, {‘name‘: ‘_xsrf‘, ‘type‘: ‘hidden‘}).get(‘value‘)
        # 建立一个zhihu.html文件,用于验证是否登陆成功
        with open(‘zhihu.html‘, ‘w‘) as f:
            f.write(req1.content)
    else:
        req = s.get(url, headers=headers)
        print req

        soup = BeautifulSoup(req.text, "html.parser")
        xsrf = soup.find(‘input‘, {‘name‘: ‘_xsrf‘, ‘type‘: ‘hidden‘}).get(‘value‘)

        data[‘_xsrf‘] = xsrf

        timestamp = int(time.time() * 1000)
        captchaURL = ‘http://www.zhihu.com/captcha.gif?=‘ + str(timestamp)
        print captchaURL

        with open(‘zhihucaptcha.gif‘, ‘wb‘) as f:
            captchaREQ = s.get(captchaURL, headers=headers)
            f.write(captchaREQ.content)
        loginCaptcha = raw_input(‘input captcha:\n‘).strip()
        data[‘captcha‘] = loginCaptcha
        print data
        loginREQ = s.post(loginURL, headers=headers, data=data)
        if not loginREQ.json()[‘r‘]:
            print s.cookies.get_dict()
            with open(‘cookiefile‘, ‘wb‘) as f:
                json.dump(s.cookies.get_dict(), f)
        else:
            print ‘login fail‘

需要注意的是,在login函数中有一个全局变量s=reequests.session(),我们用这个全局变量来访问知乎,整个爬取过程中,该对象都会保持我们的持续模拟登录。

获取用户基本信息

知乎上每个用户都有一个唯一ID,例如我的ID是marcovaldong,那么我们就可以通过访问地址 https://www.zhihu.com/people/marcovaldong 来访问我的主页。个人主页中包含了居住地、所在行业、性别、教育情况、获得的赞数、感谢数、关注了哪些人、被哪些人关注等信息。因此,我首先介绍如何通过爬虫来获取某一个知乎用户的一些信息。下面的函数get_userInfo(userID)实现了爬取一个知乎用户的个人信息,我们传递给该用户一个用户ID,该函数就会返回一个 list,其中包含昵称、ID、居住地、所在行业、性别、所在公司、职位、毕业学校、专业、赞同数、感谢数、提问数、回答数、文章数、收藏数、公共编辑数量、关注的人数、被关注的人数、主页被多少个人浏览过等19个数据。


def get_userInfo(userID):
    user_url = ‘https://www.zhihu.com/people/‘ + userID
    response = s.get(user_url, headers=header_info)
    # print response
    soup = BeautifulSoup(response.content, ‘lxml‘)
    name = soup.find_all(‘span‘, {‘class‘: ‘name‘})[1].string
    # print ‘name: %s‘ % name
    ID = userID
    # print ‘ID: %s‘ % ID
    location = soup.find(‘span‘, {‘class‘: ‘location item‘})
    if location == None:
        location = ‘None‘
    else:
        location = location.string
    # print ‘location: %s‘ % location
    business = soup.find(‘span‘, {‘class‘: ‘business item‘})
    if business == None:
        business = ‘None‘
    else:
        business = business.string
    # print ‘business: %s‘ % business
    gender = soup.find(‘input‘, {‘checked‘: ‘checked‘})
    if gender == None:
        gender = ‘None‘
    else:
        gender = gender[‘class‘][0]
    # print ‘gender: %s‘ % gender
    employment = soup.find(‘span‘, {‘class‘: ‘employment item‘})
    if employment == None:
        employment = ‘None‘
    else:
        employment = employment.string
    # print ‘employment: %s‘ % employment
    position = soup.find(‘span‘, {‘class‘: ‘position item‘})
    if position == None:
        position = ‘None‘
    else:
        position = position.string
    # print ‘position: %s‘ % position
    education = soup.find(‘span‘, {‘class‘: ‘education item‘})
    if education == None:
        education = ‘None‘
    else:
        education = education.string
    # print ‘education: %s‘ % education
    major = soup.find(‘span‘, {‘class‘: ‘education-extra item‘})
    if major == None:
        major = ‘None‘
    else:
        major = major.string
    # print ‘major: %s‘ % major

    agree = int(soup.find(‘span‘, {‘class‘: ‘zm-profile-header-user-agree‘}).strong.string)
    # print ‘agree: %d‘ % agree
    thanks = int(soup.find(‘span‘, {‘class‘: ‘zm-profile-header-user-thanks‘}).strong.string)
    # print ‘thanks: %d‘ % thanks
    infolist = soup.find_all(‘a‘, {‘class‘: ‘item‘})
    asks = int(infolist[1].span.string)
    # print ‘asks: %d‘ % asks
    answers = int(infolist[2].span.string)
    # print ‘answers: %d‘ % answers
    posts = int(infolist[3].span.string)
    # print ‘posts: %d‘ % posts
    collections = int(infolist[4].span.string)
    # print ‘collections: %d‘ % collections
    logs = int(infolist[5].span.string)
    # print ‘logs: %d‘ % logs
    followees = int(infolist[len(infolist)-2].strong.string)
    # print ‘followees: %d‘ % followees
    followers = int(infolist[len(infolist)-1].strong.string)
    # print ‘followers: %d‘ % followers
    scantime = int(soup.find_all(‘span‘, {‘class‘: ‘zg-gray-normal‘})[len(soup.find_all(‘span‘, {‘class‘: ‘zg-gray-normal‘}))-1].strong.string)
    # print ‘scantime: %d‘ % scantime

    info = (name, ID, location, business, gender, employment, position,
            education, major, agree, thanks, asks, answers, posts,
            collections, logs, followees, followers, scantime)
    return info

if __name__ == ‘__main__‘:
    login()
    userID = ‘marcovaldong‘
    info = get_userInfo(userID)
    print ‘The information of ‘ + userID + ‘ is: ‘
    for i in range(len(info)):
        print info[i]

下图是我的主页的部分截图,从上面可以看到这19个数据,下面第二张图是终端上显示的我的这19个数据,我们可以作个对照,看看是否全部抓取到了。这个函数我用了很长时间来调试,因为不同人的主页的信息完整程度是不同的,如果你在使用过程中发现了错误,欢迎告诉我。

获取某个答案的所有点赞者名单

知乎上有一个问题是如何写个爬虫程序扒下知乎某个回答所有点赞用户名单?,我参考了段小草的这个答案如何入门Python爬虫,然后有了下面的这个函数。

这里先来大概的分析一下整个流程。我们要知道,知乎上的每一个问题都有一个唯一ID,这个可以从地址中看出来,例如问题2015 年有哪些书你读过以后觉得名不符实?的地址为 https://www.zhihu.com/question/38808048 ,其中38808048就是其ID。而每一个问题下的每一个答案也有一个唯一ID,例如该问题下的最高票答案2015 年有哪些书你读过以后觉得名不符实? - 余悦的回答 - 知乎的地址链接为 https://www.zhihu.com/question/38808048/answer/81388411 ,末尾的81388411就是该答案在该问题下的唯一ID。不过我们这里用到的不是这两个ID,而是我们在抓取点赞者名单时的唯一ID,此ID的获得方法是这样:例如我们打算抓取如何评价《人间正道是沧桑》这部电视剧? - 老编辑的回答 - 知乎的点赞者名单,首先打开firebug,点击“5321 人赞同”时,firebug会抓取到一个“GET voters_profile”的一个包,把光标放在上面,会看到一个链接 https://www.zhihu.com/answer/5430533/voters_profile ,其中的5430533才是我们在抓取点赞者名单时用到的一个唯一ID。注意此ID只有在答案被赞过后才有。(在这安利一下《人间正道是沧桑》这部电视剧,该剧以杨立青三兄妹的恩怨情仇为线索,从大革命时期到解放战争,比较全面客观的展现了国共两党之间的主义之争,每一次看都会新的认识和体会。)

在拿到唯一ID后,我们用requests模块去get到知乎返回的信息,其中有一个json语句,该json语句中包含点赞者的信息。另外,我们在网页上浏览点赞者名单时,一次只能看到20条,每次下拉到名单底部时又加载出20条信息,再加载20条信息时所用的请求地址也包含在前面的json语句中。因此我们需要从json语句中提取出点攒着信息和下一个请求地址。在网页上浏览点赞者名单时,我们可以看到点赞者的昵称、头像、获得了多少赞同和感谢,以及提问和回答的问题数量,这里我提取了每个点赞者的昵称、主页地址(也就是用户ID)、赞同数、感谢数、提问数和回答数。关于头像的提取,我会在下面的函数中实现。

在提取到点赞者名单后,我将者信息保存了以唯一ID命名的txt文件中。下面是函数的具体实现。


Zhihu = ‘http://www.zhihu.com‘
def get_voters(ans_id):
    # 直接输入问题id(这个id在点击“等人赞同”时可以通过监听网络得到),关注者保存在以问题id命名的.txt文件中
    login()
    file_name = str(ans_id) + ‘.txt‘
    f = open(file_name, ‘w‘)
    source_url = Zhihu + ‘/answer/‘ +str(ans_id) +‘/voters_profile‘
    source = s.get(source_url, headers=header_info)
    print source
    content = source.content
    print content    # json语句
    data = json.loads(content)   # 包含总赞数、一组点赞者的信息、指向下一组点赞者的资源等的数据
    # 打印总赞数
    txt1 = ‘总赞数‘
    print txt1.decode(‘utf-8‘)
    total = data[‘paging‘][‘total‘]   # 总赞数
    print data[‘paging‘][‘total‘]   # 总赞数
    # 通过分析,每一组资源包含10个点赞者的信息(当然,最后一组可能少于10个),所以需要循环遍历
    nextsource_url = source_url     # 从第0组点赞者开始解析
    num = 0
    while nextsource_url!=Zhihu:
        try:
            nextsource = s.get(nextsource_url, headers=header_info)
        except:
            time.sleep(2)
            nextsource = s.get(nextsource_url, headers=header_info)
        # 解析出点赞者的信息
        nextcontent = nextsource.content
        nextdata = json.loads(nextcontent)
        # 打印每个点赞者的信息
        # txt2 = ‘打印每个点赞者的信息‘
        # print txt2.decode(‘utf-8‘)
        # 提取每个点赞者的基本信息
        for each in nextdata[‘payload‘]:
            num += 1
            print num
            try:
                soup = BeautifulSoup(each, ‘lxml‘)
                tag = soup.a
                title = tag[‘title‘]    # 点赞者的用户名
                href = ‘http://www.zhihu.com‘ + str(tag[‘href‘])    # 点赞者的地址
                # 获取点赞者的数据
                list = soup.find_all(‘li‘)
                votes = list[0].string  # 点赞者获取的赞同
                tks = list[1].string  # 点赞者获取的感谢
                ques = list[2].string  # 点赞者提出的问题数量
                ans = list[3].string  # 点赞者回答的问题数量
                # 打印点赞者信息
                string = title + ‘  ‘ + href + ‘  ‘ + votes + tks + ques + ans
                f.write(string + ‘\n‘)
                print string
            except:
                txt3 = ‘有点赞者的信息缺失‘
                f.write(txt3.decode(‘utf-8‘) + ‘\n‘)
                print txt3.decode(‘utf-8‘)
                continue
        # 解析出指向下一组点赞者的资源
        nextsource_url = Zhihu + nextdata[‘paging‘][‘next‘]
    f.close()

注意,点赞者名单中会有匿名用户,或者有用户被注销,这时我们抓取不到此用户的信息,我这里在txt文件中添加了一句“有点赞者的信息缺失”。

使用同样的方法,我们就可以抓取到一个用户的关注者名单和被关注者名单,下面列出了这两个函数。但是关注者名单抓取函数有一个问题,每次使用其抓取大V的关注者名单时,当抓取到第10020个follower的时候程序就会报错,好像知乎有访问限制一般。这个问题,我还没有找到解决办法,希望有solution的告知一下。因为没有看到有用户关注10020+个人,因此抓取被关注者名单函数暂时未发现报错。


def get_followees(username):
    # 直接输入用户名,关注者保存在以用户名命名的.txt文件中
    followers_url = ‘http://www.zhihu.com/people/‘ + username + ‘/followees‘
    file_name = username + ‘.txt‘
    f = open(file_name, ‘w‘)
    data = s.get(followers_url, headers=header_info)
    print data  # 访问服务器成功,返回<responce 200>
    content = data.content  # 提取出html信息
    soup = BeautifulSoup(content, "lxml")   # 对html信息进行解析
    # 获取关注者数量
    totalsen = soup.select(‘span[class*="zm-profile-section-name"]‘)
    total = int(str(totalsen[0]).split(‘ ‘)[4])     # 总的关注者数量
    txt1 = ‘总的关注者人数:‘
    print txt1.decode(‘utf-8‘)
    print total
    follist = soup.select(‘div[class*="zm-profile-card"]‘)  # 记录有关注者信息的list
    num = 0 # 用来在下面显示正在查询第多少个关注者
    for follower in follist:
        tag =follower.a
        title = tag[‘title‘]    # 用户名
        href = ‘http://www.zhihu.com‘ + str(tag[‘href‘])    # 用户地址
        # 获取用户数据
        num +=1
        print ‘%d   %f‘ % (num, num / float(total))
        # Alist = follower.find_all(has_attrs)
        Alist = follower.find_all(‘a‘, {‘target‘: ‘_blank‘})
        votes = Alist[0].string  # 点赞者获取的赞同
        tks = Alist[1].string  # 点赞者获取的感谢
        ques = Alist[2].string  # 点赞者提出的问题数量
        ans = Alist[3].string  # 点赞者回答的问题数量
        # 打印关注者信息
        string = title + ‘  ‘ + href + ‘  ‘ + votes + tks + ques + ans
        try:
            print string.decode(‘utf-8‘)
        except:
            print string.encode(‘gbk‘, ‘ignore‘)
        f.write(string + ‘\n‘)

    # 循环次数
    n = total/20-1 if total/20.0-total/20 == 0 else total/20
    for i in range(1, n+1, 1):
        # if num%30 == 0:
          #   time.sleep(1)
        # if num%50 == 0:
          #   time.sleep(2)
        raw_hash_id = re.findall(‘hash_id(.*)‘, content)
        hash_id = raw_hash_id[0][14:46]
        _xsrf = xsrf
        offset = 20*i
        params = json.dumps({"offset": offset, "order_by": "created", "hash_id": hash_id})
        payload = {"method":"next", "params": params, "_xsrf": _xsrf}
        click_url = ‘http://www.zhihu.com/node/ProfileFolloweesListV2‘
        data = s.post(click_url, data=payload, headers=header_info)
        # print data
        source = json.loads(data.content)
        for follower in source[‘msg‘]:
            soup1 = BeautifulSoup(follower, ‘lxml‘)
            tag =soup1.a
            title = tag[‘title‘]    # 用户名
            href = ‘http://www.zhihu.com‘ + str(tag[‘href‘])    # 用户地址
            # 获取用户数据
            num +=1
            print ‘%d   %f‘ % (num, num/float(total))
            # Alist = soup1.find_all(has_attrs)
            Alist = soup1.find_all(‘a‘, {‘target‘: ‘_blank‘})
            votes = Alist[0].string  # 点赞者获取的赞同
            tks = Alist[1].string  # 点赞者获取的感谢
            ques = Alist[2].string  # 点赞者提出的问题数量
            ans = Alist[3].string  # 点赞者回答的问题数量
            # 打印关注者信息
            string = title + ‘  ‘ + href + ‘  ‘ + votes + tks + ques + ans
            try:
                print string.decode(‘utf-8‘)
            except:
                print string.encode(‘gbk‘, ‘ignore‘)
            f.write(string + ‘\n‘)
    f.close()

提取用户头像

再往下就是抓取用户头像了。原来写的函数竟然找不到了,只找到了之前存放头像的文件夹,只好重写。这里我暂时先展示一下如何抓取到用户头像吧,完整的函数等有时间再补上。

今天没时间了,明后天补吧,到时候上完整函数。

抓取某个问题的所有答案

给出某个唯一ID,下面的函数帮助爬取到该问题下的所有答案。注意,答案内容只抓取文字部分,图片省略,答案保存在txt文件中,txt文件以答主ID命名。


def get_answer(questionID):
    url = ‘http://www.zhihu.com/question/‘ + str(questionID)
    data = s.get(url, headers=header_info)
    soup = BeautifulSoup(data.content, ‘lxml‘)
    # print str(soup).encode(‘gbk‘, ‘ignore‘)
    title = soup.title.string.split(‘\n‘)[2]    # 问题题目
    path = title
    if not os.path.isdir(path):
        os.mkdir(path)
    description = soup.find(‘div‘, {‘class‘: ‘zm-editable-content‘}).strings    # 问题描述,可能多行
    file_name = path + ‘/description.txt‘
    fw = open(file_name, ‘w‘)
    for each in description:
        each = each + ‘\n‘
        fw.write(each)
    # description = soup.find(‘div‘, {‘class‘: ‘zm-editable-content‘}).get_text() # 问题描述
        # 调用.string属性返回None(可能是因为有换行符在内的缘故),调用get_text()方法得到了文本,但换行丢了
    answer_num = int(soup.find(‘h3‘, {‘id‘: ‘zh-question-answer-num‘}).string.split(‘ ‘)[0]) # 答案数量
    num = 1
    index = soup.find_all(‘div‘, {‘tabindex‘: ‘-1‘})
    for i in range(len(index)):
        print (‘Scrapying the ‘ + str(num) + ‘th answer......‘).encode(‘gbk‘, ‘ignore‘)
        # print (‘正在抓取第‘ + str(num) + ‘个答案......‘).encode(‘gbk‘, ‘ignore‘)
        try:
            a = index[i].find(‘a‘, {‘class‘: ‘author-link‘})
            title = str(num) + ‘__‘ + a.string
            href = ‘http://www.zhihu.com‘ + a[‘href‘]
        except:
            title = str(num) + ‘__匿名用户‘
        answer_file_name = path + ‘/‘ + title + ‘__.txt‘
        fr = open(answer_file_name, ‘w‘)
        try:
            answer_content = index[i].find(‘div‘, {‘class‘: ‘zm-editable-content clearfix‘}).strings
        except:
            answer_content = [‘作者修改内容通过后,回答会重新显示。如果一周内未得到有效修改,回答会自动折叠。‘]
        for content in answer_content:
            fr.write(content + ‘\n‘)
        num += 1

    _xsrf = xsrf
    url_token = re.findall(‘url_token(.*)‘, data.content)[0][8:16]
    # 循环次数
    n = answer_num/10-1 if answer_num/10.0-answer_num/10 == 0 else answer_num/10
    for i in range(1, n+1, 1):
        # _xsrf = xsrf
        # url_token = re.findall(‘url_token(.*)‘, data.content)[0][8:16]
        offset = 10*i
        params = json.dumps({"url_token": url_token, "pagesize": 10, "offset": offset})
        payload = {"method":"next", "params": params, "_xsrf": _xsrf}
        click_url = ‘https://www.zhihu.com/node/QuestionAnswerListV2‘
        data = s.post(click_url, data=payload, headers=header_info)
        data = json.loads(data.content)
        for answer in data[‘msg‘]:
            print (‘Scrapying the ‘ + str(num) + ‘th answer......‘).encode(‘gbk‘, ‘ignore‘)
            # print (‘正在抓取第‘ + str(num) + ‘个答案......‘).encode(‘gbk‘, ‘ignore‘)
            soup1 = BeautifulSoup(answer, ‘lxml‘)
            try:
                a = soup1.find(‘a‘, {‘class‘: ‘author-link‘})
                title = str(num) + ‘__‘ + a.string
                href = ‘http://www.zhihu.com‘ + a[‘href‘]
            except:
                title = str(num) + ‘__匿名用户‘
            answer_file_name = path + ‘/‘ + title + ‘__.txt‘
            fr = open(answer_file_name, ‘w‘)
            try:
                answer_content = soup1.find(‘div‘, {‘class‘: ‘zm-editable-content clearfix‘}).strings
            except:
                answer_content = [‘作者修改内容通过后,回答会重新显示。如果一周内未得到有效修改,回答会自动折叠。‘]
            for content in answer_content:
                fr.write(content + ‘\n‘)
            num += 1

数据库存取数据

在完成了上面的这些功能后,下一步要做的是将用户信息保存在数据库中,方便数据的读取使用。我刚刚接触了一下sqlite3,仅仅实现了将用户信息存储在表格中。


def get_followeesInfo_toDB(userID):
    # 准备好sqlite3数据库,当抓取到数据时,加入表格中
    conn = sqlite3.connect("Zhihu.db")
    curs = conn.cursor()
    curs.execute("create table if not exists userinfo(name TEXT, ID TEXT PRIMARY KEY, location TEXT, business TEXT, "
                 "gender TEXT, employment TEXT, position TEXT, education TEXT, major TEXT, "
                 "agree INTEGER, thanks INTEGER, asks INTEGER, answers INTEGER, posts INTEGER, "
                 "collections INTEGER, logs INTEGER, followees INTEGER, followers INTEGER, "
                 "scantime INTEGER)")
    followees_url = ‘http://www.zhihu.com/people/‘ + userID + ‘/followees‘
    file_name = userID + ‘.txt‘
    f = open(file_name, ‘w‘)
    data = s.get(followees_url, headers=header_info)
    print data  # 访问服务器成功,返回<responce 200>
    content = data.content  # 提取出html信息
    soup = BeautifulSoup(content, "lxml")  # 对html信息进行解析
    # 获取关注者数量
    totalsen = soup.select(‘span[class*="zm-profile-section-name"]‘)
    total = int(str(totalsen[0]).split(‘ ‘)[4])  # 总的关注者数量
    txt1 = ‘总的关注者人数:‘
    print txt1.decode(‘utf-8‘)
    print total
    follist = soup.select(‘div[class*="zm-profile-card"]‘)  # 记录有关注者信息的list
    num = 0  # 用来在下面显示正在查询第多少个关注者
    for follower in follist:
        tag = follower.a
        title = tag[‘title‘]  # 用户名
        href = ‘http://www.zhihu.com‘ + str(tag[‘href‘])  # 用户地址
        # 获取用户数据
        num += 1
        print ‘%d   %f‘ % (num, num / float(total))
        # Alist = follower.find_all(has_attrs)
        Alist = follower.find_all(‘a‘, {‘target‘: ‘_blank‘})
        votes = Alist[0].string  # 点赞者获取的赞同
        tks = Alist[1].string  # 点赞者获取的感谢
        ques = Alist[2].string  # 点赞者提出的问题数量
        ans = Alist[3].string  # 点赞者回答的问题数量
        # 打印关注者信息
        string = title + ‘  ‘ + href + ‘  ‘ + votes + tks + ques + ans
        try:
            print string.decode(‘utf-8‘)
        except:
            print string.encode(‘gbk‘, ‘ignore‘)
        f.write(string + ‘\n‘)
        if title != ‘[已重置]‘:
            # 获取该followee的基本信息,存入数据库表格
            print ‘Analysising the data of this user...‘
            ID = href[28:]
            try:
                curs.execute("insert or ignore into userinfo values (?, ?, ?, ?, ?, ?, ?, "
                             "?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)", get_userInfo(ID))
            except:
                print "This user account‘s state is abnormal..."
        else:
            print ‘This user account has been disabled...‘
        # print get_userInfo(ID)

    # 循环次数
    n = total / 20 - 1 if total / 20.0 - total / 20 == 0 else total / 20
    for i in range(1, n + 1, 1):
        # if num%30 == 0:
        #   time.sleep(1)
        # if num%50 == 0:
        #   time.sleep(2)
        raw_hash_id = re.findall(‘hash_id(.*)‘, content)
        hash_id = raw_hash_id[0][14:46]
        _xsrf = xsrf
        offset = 20 * i
        params = json.dumps({"offset": offset, "order_by": "created", "hash_id": hash_id})
        payload = {"method": "next", "params": params, "_xsrf": _xsrf}
        click_url = ‘http://www.zhihu.com/node/ProfileFolloweesListV2‘
        data = s.post(click_url, data=payload, headers=header_info)
        # print data
        source = json.loads(data.content)
        for follower in source[‘msg‘]:
            soup1 = BeautifulSoup(follower, ‘lxml‘)
            tag = soup1.a
            title = tag[‘title‘]  # 用户名
            href = ‘http://www.zhihu.com‘ + str(tag[‘href‘])  # 用户地址
            # 获取用户数据
            num += 1
            print ‘%d   %f‘ % (num, num / float(total))
            # Alist = soup1.find_all(has_attrs)
            Alist = soup1.find_all(‘a‘, {‘target‘: ‘_blank‘})
            votes = Alist[0].string  # 点赞者获取的赞同
            tks = Alist[1].string  # 点赞者获取的感谢
            ques = Alist[2].string  # 点赞者提出的问题数量
            ans = Alist[3].string  # 点赞者回答的问题数量
            # 打印关注者信息
            string = title + ‘  ‘ + href + ‘  ‘ + votes + tks + ques + ans
            try:
                print string.decode(‘utf-8‘)
            except:
                print string.encode(‘gbk‘, ‘ignore‘)
            f.write(string + ‘\n‘)
            if title != ‘[已重置]‘:
                # 获取该followee的基本信息,存入数据库表格
                print ‘Analysising the data of this user...‘
                ID = href[28:]
                try:
                    curs.execute("insert or ignore into userinfo values (?, ?, ?, ?, ?, ?, ?, "
                             "?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)", get_userInfo(ID))
                except:
                    print "This user account‘s state is abnormal..."
            else:
                print ‘This user account has been disabled...‘
            # print get_userInfo(ID)
    f.close()
    conn.commit()
    conn.close()

等熟悉了sqlite3的使用,我的下一步工作是抓取大量用户信息和用户之间的follow信息,尝试着将大V间的follow关系进行可视化。再下面的工作应该就是学习python的爬虫框架scrapy和爬取微博了。

另外,在写这篇博客的时候我又重新测试了一下上面的这些函数,然后我再在火狐上访问知乎时,系统提示“因为该账户过度频繁访问”而要求输入验证码,看来知乎已经开始限制爬虫了,这样以来我们就需要使用一些反反爬虫技巧了,比如控制访问频率等等,这个等以后有了系统的了解之后再作补充吧。

时间: 2024-11-10 07:32:18

Python爬虫爬取知乎小结的相关文章

python爬虫——爬取知乎上自己关注的问题

与之前爬的网站图片的不同的是,现在爬取的是要自己个人的关注的东西,所以需要做到模拟登录.模拟登录的原理是登录网站后,在浏览器上获取保存的cookies信息,填充之后与请求一起发送. 如果前面的爬取图片的会爬取了,对于这个解析字符串的也没有多大问题了. 一直看着知乎上很多程序员把自己关注的人的答案爬下来之后整理来看,那个时候开始又开始对爬虫这个东西特别感兴趣,对一个妹纸在美国搭了搭了个环境,爬了Twitter后进行数据分析的行为更是佩服,对方是个妹纸,但不是程序员,嗯,她自己还说代码写得丑,用代码

python爬虫 爬取知乎用户的用户信息

我用python爬虫找到了不想告诉我她知乎ID的妹纸的ID--. 在我做了这件事情之后 , 她觉得我越来越懂她了 , 嘻嘻 有一天 , 我发现我心仪已久的妹纸在朋友圈里分享了知乎专栏的文章 , 就知道她也刷知乎 . 如果在知乎上关注她 , 我就能知道 , 她最近关注什么 , 心里想些什么 , 了解了解她喜欢的方面 , 还能作为谈资 , 简直太赞了 (*^^)v . 但是输入她的名字-- 在知乎上根本找不到好吗 (?`灬′?) 我们两个聊天的时候 , 刚好说到了她分享的那篇文章 , 我很自然的说:

python爬虫爬取csdn博客专家所有博客内容

python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 结果如下: 版权声明:本文为博主原创文章,未经博主允许不得转载.

python爬虫爬取美女图片

python 爬虫爬取美女图片 #coding=utf-8 import urllib import re import os import time import threading def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImgUrl(html,src): srcre = re.compile(src) srclist = re.findall(srcre,html)

Python爬虫爬取博客园并保存

Python爬虫爬取博客园并保存        爬取博客园指定用户的文章修饰后全部保存到本地 首先定义爬取的模块文件: crawlers_main.py 执行入口 url_manager.py url管理器 download_manager.py 下载模块 parser_manager.py html解析器(解析html需要利用的内容) output_manager.py 输出html网页全部内容文件(包括css,png,js等) crawlers_main.py 执行入口 1 # coding

用Python爬虫爬取广州大学教务系统的成绩(内网访问)

用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code] 在{}之前的部分就是"选择器"."选择器"指明了{}中的"样式"的作用对象,也就是"样式"作用于网页中的哪些元素.可参考:http://www.w3school.com.cn/cssref/css_selectors.asph

python爬虫—爬取英文名以及正则表达式的介绍

python爬虫—爬取英文名以及正则表达式的介绍 爬取英文名: 一.  爬虫模块详细设计 (1)整体思路 对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个csv文件中:再读取csv文件当中的每个英文名链接,采用循环的方法读取每一个英文名链接,根据每个英文名链接爬取每个链接中的数据,保存在新的csv文件当中. 需要写一个爬取英文名链接的函数.将爬取的内容保存在csv文件的函数以及读取csv文件内容的函数.爬取英文名详情页内容的函数. 表5.3.1 函数名

python爬虫爬取微博评论案例详解

这篇文章主要介绍了python爬虫爬取微博评论,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧 数据格式:{"name":评论人姓名,"comment_time":评论时间,"comment_info":评论内容,"comment_url":评论人的主页} 以上就是我们需要的信息. 具体操作流程: 我们首相将主页获取完成以后,我们就会发现,其中 的内容带有相

Python爬虫爬取数据的步骤

爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多网页的变化规律,基本上都是只有小部分有所变化,如:有的网页只有网址最后的数字在变化,则这种就可以通过变化数字将多个网页链接获取: 2.把获取得到的多个网页链接存入字典,充当一个临时数据库,在需要用时直接通过函数调用即可获得: 3.需要注意的是我们的爬取并不是随便什么网址都可以爬的,我们需要遵守我们的