寻医问药 爬虫

import requests
import re
import pandas as pd

def get_all_date_url():
    all_url=[]
    for i in range(61):
        url = ‘http://club.xywy.com/keshi/{}.html‘.format(str(i+1))
        res = requests.get(url)
        urls=re.findall(r"http://club.xywy.com/keshi/\d{4}-\d{2}-\d+/\d+\.html",res.text)
        all_url.extend(urls)
    return list(set(all_url))

def get_QA_url(url):
    all_QA_url=[]
    res = requests.get(url)
    res.encoding = ‘gb2312‘
    all_page = re.findall(r‘共 (\d+) 页‘,res.text)[0]
    for i in range(int(all_page)):
        url1 = ‘http://club.xywy.com/keshi/‘+ url.split(‘/‘)[-2] + ‘/‘ + str(i+1) +‘.html‘
        all_QA_url.append(url1)
    return list(set(all_QA_url))

def main():
    all_url_data = []
    for i in get_all_date_url():
        all_url_data.extend(get_QA_url(i))

    info_list = []
    for detail_url in all_url_data:
        final_dic_data = {}
        final_dic_data[‘url‘]=detail_url
        final_dic_data[‘患者标题‘]=xx
        final_dic_data[‘患者姓名‘]=xx
        final_dic_data[‘患者性别‘]=xx
        final_dic_data[‘提问日期‘]=xx
        final_dic_data[‘患者描述‘]=xx
        final_dic_data[‘医生姓名‘]=xx
        final_dic_data[‘医生职称‘]=xx
        final_dic_data[‘医生科室‘]=xx
        final_dic_data[‘问题分析‘]=xx
        final_dic_data[‘回答时间‘]=xx
        info_list.append(final_dic_data)

    df =pd.DataFrame(info_list)
    df.to_excel(‘xunyiwenyao.xlsx‘,index=False)

if __name__ == ‘__main__‘:
    mian()

原文地址:https://www.cnblogs.com/Erick-L/p/8311825.html

时间: 2024-10-17 06:13:32

寻医问药 爬虫的相关文章

寻医问药软件

一.引言 1.编写目的 由于大多数人对于医疗知识的匮乏,导致很多人一生病就直接去医院,导致小病麻烦治,如果能够有一个健康助手,当你生病的时候能够提醒你该什么时候吃药.吃什么药,可以极大的方便以及及时的对症下药,早日康复. 目前智能手机已经极大化的丰富了人们的生活,鉴于目前市场上主流的手机系统,所以决定开发一款基于安卓系统的app,来为人们的健康提供合理的建议. 2.项目背景 a.软件名称:寻医问药: b.项目的任务提出者:李国松: c.开发者:李国松.夏雪.朱慧萍.叶婷.肖曼.高珂婷: 3.定义

男性健康 寻医问药 胡老

健康长寿是每个人都希望的,所以现在的人们为了能够更加健康.更加长寿而保养自己的身体,由于身体结构的差异,男性和女性的养生方法还是各不相同的.那么男性如果想要健康长寿需要怎样养生呢?下面就看一下男性的养生方法. 多喝水不憋尿 尿频.尿急.尿不急好像是男性最常见的现象,但是也衰老的自然表现.而50岁以上的男性出现这些症状,则意味着良性前列腺增生症.若不及时就医.治疗,可能会出现尿潴留.反复血尿.泌尿系统感染,甚至诱发肾积水.要想避免前列腺出现"故障",最好的方法就是多喝水,每天要喝2000

网站架构转帖

http://oldboy.blog.51cto.com/2561410/736710  高并发访问的核心原则其实就一句话"把所有的用户访问请求都尽量往前推". 如果把来访用户比作来犯的"敌人",我们一定要把他们挡在800里地以外,即不能让他们的请求一下打到我们的指挥部(指挥部就是数据库及分布式存储). 如:能缓存在用户电脑本地的,就不要让他去访问CDN. 能缓存CDN服务器上的,就不要让CDN去访问源(静态服务器)了.能访问静态服务器的,就不要去访问动态服务器.以

浅谈千万级PV/IP规模高性能高并发网站架构(转自老男孩)

原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则将追究法律责任.http://oldboy.blog.51cto.com/2561410/736710 如果把来访用户比作来犯的"敌人",我们一定要把他们挡在800里地以外,即不能让他们的请求一下打到我们的指挥部(指挥部就是数据库及分布式存储). 如:能缓存在用户电脑本地的,就不要让他去访问CDN. 能缓存CDN服务器上的,就不要让CDN去访问源(静态服务器)了.能访问静态服务器的,就不要去访问动态

医疗时鲜资讯:医疗领域入口的划分

背景: 医疗时鲜资讯系列的出发点是整理和摘录医疗行业的最新资讯,当然不可能只摘录,那我一个人怎能比得上健康界.HC3I--这两个是我有勇气写该系列博文的支撑.近期拜读了医库软件董事长Dr.2的系列文章,深受启发遂决定修改一下该系列博文的角度:以一个医疗设备相关软件开发从业人员的角度来观察医疗行业,从"医院.医生.患者.设备"四个大的方向来整理相关资讯,发表自己的些许感想. 医疗领域的划分(医院.医生.患者.设备): 翻出前段时间博文的一个老图,如下所示.当初画该图的出发点源于"

医疗时鲜资讯:关注新医改动态

背景: 中国医疗行业正在面临着重大的变革,时下诸如"多点执业"."全科医生"."家庭医生"."网络医疗"."移动医疗"等词汇越来越受到大众的关注,常常被推送到各大网站的头条,因此本系列博文主要负责摘录相关的资讯,文后或许会有感而发而牢骚几句,谨记:本人仅仅是凑凑热闹而已-- 时鲜资讯: (一)国家政策文件 最近国家卫计委在医疗及相关领域发布的文件可谓不胜枚举,这足以说明新医改的紧迫性,以及政府改革的力度.文

医疗时鲜资讯:谈谈“医学影像诊断&熟人医患关系”

背景: 作为传统厂商,从入职到现在总算看到了公司试图转型的苗头,近期正在筹划一个在现有终端基础上的牙科影像分享和诊断平台,敬请期待. 这半年来好久没有记录相关的医疗资讯了,2014互联网医疗元年刚过,无论是投资方还是创业者都冷静了许多,私底下开始加紧谋划新产品.在大众胃口被调起来后,真正能够笼络和留住用户的是产品的体验.所以上半年的资讯略显平淡. 近几天看到了关于"影像结果低符合率"和"Dr.2关于'熟人医患'"的相关文章,还是有写点东西的冲动,遂整理成文,详情如下

linux c正则

c 正则 -------------------------------------------------- 标准的C和C++都不支持正则表达式,但有一些函数库可以辅助C/C++程序员完成这一功能,其中最著名的当数Philip Hazel的Perl-Compatible Regular Expression库,许多Linux发行版本都带有这个函数库. 编译正则表达式 ----------------------- 为了提高效率,在将一个字符串与正则表达式进行比较之前,首先要用regcomp()

医疗服务机器人能否解决愈发严重的养老问题?

随着人类医疗技术水平的不断提升,人的寿命也在不断延长.一个最为明显的现象就是,古代寿命超过百岁的老人基本上很难寻见,但是在今天,百岁老人已经不是一件稀奇的事情了.同时这也引来了一个越来越严重的社会问题:养老! 目前在中国,超过60岁以上的老人已经多达2亿人,养老问题日益严重.而且当前国内正在进入人口老龄化的快速发展时期,老年人口数量每年都在以年均800万以上的规模激增.预计到2020年,老年人口将达到2.55亿,2033年突破4亿,2050年达到4.83亿.可是面对规模越来越庞大的老年群体,国内