抓取新浪新闻的内容以及链接

import requestsfrom bs4 import BeautifulSoupres = requests.get(‘http://news.sina.com.cn/china/‘)res.encoding=‘utf-8‘soup = BeautifulSoup(res.text,‘html.parser‘)

for news in soup.select(‘.news-item‘):    if(len(news.select(‘h2‘))>0):        h2=news.select(‘h2‘)[0].text        a=news.select(‘a‘)[0][‘href‘]        print(h2)        print(a)

输出结果:C:\Python27\python.exe D:/58zlj/untitled1/123.py军委视察首个海外后勤保障设施 传递何种信号http://news.sina.com.cn/c/nd/2016-11-27/doc-ifxyawmp0301082.shtml女大学生失联 曾定期在学校接受心理辅导http://news.sina.com.cn/c/2016-11-27/doc-ifxyasmv1990204.shtml陕西国土局长被举报占地建别墅 调查称其父所为http://news.sina.com.cn/c/nd/2016-11-27/doc-ifxyawmp0298750.shtml新疆阿克陶县余震已达520次 最大余震5.0级http://news.sina.com.cn/c/nd/2016-11-27/doc-ifxyawmp0298219.shtml山西警方破文物盗窃案 查扣壁画21幅青铜器4件http://news.sina.com.cn/c/nd/2016-11-27/doc-ifxyawmm3536020.shtml“双标”信用卡将退市 出境消费需多带一张卡http://news.sina.com.cn/c/zs/2016-11-27/doc-ifxyawmm3535180.shtml云南大理一处收费站外发生车祸 致5人死亡(图)http://news.sina.com.cn/c/2016-11-27/doc-ifxyawxa2862804.shtml山西介休市土坡坍塌致2人遇难 4人获救http://news.sina.com.cn/c/nd/2016-11-27/doc-ifxyawxa2861530.shtml发改委:东北人口10年流失100万 高层次人才居多http://news.sina.com.cn/c/zs/2016-11-27/doc-ifxyawmp0291284.shtml北京市民献花悼念卡斯特罗 古巴驻华使馆降半旗http://news.sina.com.cn/c/2016-11-27/doc-ifxyasmv1983361.shtml环京楼市现降温迹象 多楼盘调整价格增加优惠http://news.sina.com.cn/c/nd/2016-11-27/doc-ifxyasmv1983044.shtml江西电厂坍塌事故遇难者理赔标准为每人120万元http://news.sina.com.cn/c/nd/2016-11-27/doc-ifxyawmm3548613.shtml韩渔船浙江外海沉没4人失踪 中国海军参与搜救http://news.sina.com.cn/c/2016-11-27/doc-ifxyasmv1993446.shtml环渤海高铁方案获原则通过 设计时速350公里http://news.sina.com.cn/c/nd/2016-11-27/doc-ifxyawmm3540840.shtml军委视察首个海外后勤保障设施 传递何种信号http://news.sina.com.cn/c/nd/2016-11-27/doc-ifxyawmp0301082.shtml山西临汾:重污染天气将实行单双号限行http://news.sina.com.cn/c/2016-11-27/doc-ifxyasmv1990836.shtml女大学生失联 曾定期在学校接受心理辅导http://news.sina.com.cn/c/2016-11-27/doc-ifxyasmv1990204.shtml陕西国土局长被举报占地建别墅 调查称其父所为http://news.sina.com.cn/c/nd/2016-11-27/doc-ifxyawmp0298750.shtml新疆阿克陶县余震已达520次 最大余震5.0级http://news.sina.com.cn/c/nd/2016-11-27/doc-ifxyawmp0298219.shtml网友发布捕鸟照被国家林业局官微批评 警方介入http://news.sina.com.cn/c/2016-11-27/doc-ifxyawxa2865270.shtml山西警方破文物盗窃案 查扣壁画21幅青铜器4件http://news.sina.com.cn/c/nd/2016-11-27/doc-ifxyawmm3536020.shtml前财长楼继伟赴任正部级新职 或主导养老金入市http://news.sina.com.cn/c/nd/2016-11-27/doc-ifxyawmp0295961.shtml云南大理一处收费站外发生车祸 致5人死亡(图)http://news.sina.com.cn/c/2016-11-27/doc-ifxyawxa2862804.shtml上海浦东机场摆渡车险与飞机相撞 东航回应http://news.sina.com.cn/c/nd/2016-11-27/doc-ifxyawmm3533857.shtml山西介休市土坡坍塌致2人遇难 4人获救http://news.sina.com.cn/c/nd/2016-11-27/doc-ifxyawxa2861530.shtml北京市民献花悼念卡斯特罗 古巴驻华使馆降半旗http://news.sina.com.cn/c/2016-11-27/doc-ifxyasmv1983361.shtml环京楼市现降温迹象 多楼盘调整价格增加优惠http://news.sina.com.cn/c/nd/2016-11-27/doc-ifxyasmv1983044.shtml云南30家单位招1200人 部分岗位津贴高达30万元http://news.sina.com.cn/c/nd/2016-11-27/doc-ifxyasmv1981670.shtml贵阳城管悬赏50万寻城市环境管理痛点方案http://news.sina.com.cn/c/nd/2016-11-27/doc-ifxyasmv1978981.shtml贵州推冬季旅游优惠:黄果树等50余个景区打折http://news.sina.com.cn/c/nd/2016-11-27/doc-ifxyawxa2855652.shtml台风黄色预警:福建广东海南沿海有9到10级大风http://news.sina.com.cn/o/2016-11-27/doc-ifxyawxa2851119.shtml菲律宾总统访华1个月后称即将再次访问中国http://news.sina.com.cn/c/nd/2016-11-27/doc-ifxyawmp0273829.shtml浙江提前2个月高考报名 随迁子女可报考普高http://news.sina.com.cn/o/2016-11-27/doc-ifxyawxa2845536.shtml港专毕业生举牌反释法 校长:战乱天灾谁救你http://news.sina.com.cn/c/gat/2016-11-27/doc-ifxyawxa2865614.shtml外媒:香港接获内地线报后查扣新加坡装甲车http://news.sina.com.cn/c/2016-11-27/doc-ifxyasmv1981207.shtml李登辉:台湾要走自己的路 不必与大陆维持现状http://news.sina.com.cn/c/gat/2016-11-27/doc-ifxyawmm3505805.shtml台湾维冠大楼倒塌案5人获刑 罹难者家属将上诉http://news.sina.com.cn/o/2016-11-27/doc-ifxyawxa2841456.shtml大陆学生问任期内买武器 马英九:你为何有意见http://news.sina.com.cn/c/gat/2016-11-27/doc-ifxyawmp0264876.shtml梁振英对话港青年:立场不同不要紧 关键要沟通http://news.sina.com.cn/c/gat/2016-11-26/doc-ifxyawmm3492776.shtml外媒:新加坡急于要回被香港查扣装甲车http://news.sina.com.cn/c/gat/2016-11-26/doc-ifxyawmm3486792.shtml蔡英文在英媒撰文 誓要把台湾“再次变成猛虎”http://news.sina.com.cn/c/gat/2016-11-26/doc-ifxyawmm3478546.shtml台湾台南维冠大楼倒塌致115死案建商被判刑5年http://news.sina.com.cn/c/gat/2016-11-26/doc-ifxyawmm3472580.shtml台党产会宣布将国民党党部大楼收归“国有”http://news.sina.com.cn/c/gat/2016-11-26/doc-ifxyawmm3430532.shtml末代港督怒斥“港独”议员?媒体揭其险恶用心http://news.sina.com.cn/c/nd/2016-11-25/doc-ifxyasmv1890922.shtml台复兴航空董事长被检方带走 高层或涉内线交易http://news.sina.com.cn/o/2016-11-25/doc-ifxyawxa2743283.shtml辱国议员被追讨186万港元薪津 称遭立法会打压http://news.sina.com.cn/c/gat/2016-11-25/doc-ifxyawmm3358935.shtml“绿委”回应陈水扁录音曝光:“总统”精力过剩http://news.sina.com.cn/c/2016-11-25/doc-ifxyasmv1850305.shtml香港立法会向两名辱国议员追讨186万港元薪津http://news.sina.com.cn/c/gat/2016-11-25/doc-ifxyawmp0114836.shtml台媒看复兴航空解散:两岸关系转冷后遗症扩大http://news.sina.com.cn/c/gat/2016-11-25/doc-ifxyawxa2720843.shtml台日经贸会议重返谈判桌 日本对台当局释善意http://news.sina.com.cn/c/2016-11-25/doc-ifxyasmv1833467.shtml台湾34名电信诈骗犯在泰国刑满获释 已驱逐出境http://news.sina.com.cn/c/2016-11-25/doc-ifxyasmv1833458.shtml台湾学者:蔡英文追杀国民党是“最安全的选择”http://news.sina.com.cn/c/gat/2016-11-25/doc-ifxyawmm3321465.shtml报告称港台人均财富破百万 瑞士仍是最富裕国家http://news.sina.com.cn/c/2016-11-25/doc-ifxyawxa2711052.shtml“双标”信用卡将退市 出境消费需多带一张卡http://news.sina.com.cn/c/zs/2016-11-27/doc-ifxyawmm3535180.shtml发改委:东北人口10年流失100万 高层次人才居多http://news.sina.com.cn/c/zs/2016-11-27/doc-ifxyawmp0291284.shtml台湾学者:两岸关系当务之急是增进文化认同http://news.sina.com.cn/o/2016-11-25/doc-ifxyawxa2779844.shtml外媒:菲律宾称逮捕1200余名涉非法打工中国人http://news.sina.com.cn/o/2016-11-25/doc-ifxyasmv1860519.shtml日本宣布将中国从“特惠关税”对象国中剔除http://news.sina.com.cn/o/2016-11-25/doc-ifxyawxa2745063.shtml中国智库首次发布美在亚太地区军力报告http://news.sina.com.cn/o/2016-11-25/doc-ifxyasmv1856943.shtml中美就制裁朝鲜达一致却遭俄阻拦? 外交部回应http://news.sina.com.cn/c/zs/2016-11-24/doc-ifxyawmp0017503.shtml日本拟把中国从关税减免名单中剔除 商务部回应http://news.sina.com.cn/c/zs/2016-11-24/doc-ifxyasmv1755509.shtml三部门:确保2020年前完成4类重点对象危房改造http://news.sina.com.cn/o/2016-11-24/doc-ifxyawxa2607043.shtml媒体:八达岭动物园母亲虎口救女算不算见义勇为http://news.sina.com.cn/c/zs/2016-11-24/doc-ifxyasmv1633099.shtml外交部回应TPP协定:亚太地区不由某一家说了算http://news.sina.com.cn/c/zs/2016-11-23/doc-ifxxwrwh5034114.shtml中央环保督查组晒8省份问题 超3400人被问责http://news.sina.com.cn/c/zs/2016-11-23/doc-ifxxwrwk1741480.shtml中纪委谈党内监督:领导干部手电筒要对自己照http://news.sina.com.cn/o/2016-11-23/doc-ifxxwsix4477389.shtml外媒称中国人吃肉增多影响健康 还导致全球变暖http://news.sina.com.cn/c/zs/2016-11-23/doc-ifxxwmws3600541.shtml中纪委:一把手违法易连锁反应 甚至塌方式腐败http://news.sina.com.cn/o/2016-11-23/doc-ifxxwsix4475057.shtml媒体:特朗普不搞TPP 中国机会来了?http://news.sina.com.cn/c/zs/2016-11-23/doc-ifxxwrwh4974627.shtml个税改革方案拟明年出炉 增专项扣除是改革方向http://news.sina.com.cn/c/zs/2016-11-23/doc-ifxxwsix4420036.shtml中国科学家研究称寨卡病毒可能导致雄性不育http://news.sina.com.cn/c/zs/2016-11-22/doc-ifxxwsix4411595.shtml外交部:日本福岛地震暂无中国公民伤亡http://news.sina.com.cn/c/zs/2016-11-22/doc-ifxxwsix4409150.shtml外交部:约3000名缅甸边民躲避战乱进入中国境内http://news.sina.com.cn/c/zs/2016-11-22/doc-ifxxwsix4399098.shtml湖南从严推进县乡人大换届选举:铭记衡阳案教训http://news.sina.com.cn/c/sd/2016-11-27/doc-ifxyawxa2866597.shtml北京国I国Ⅱ车辆明年2月15日起五环内限行http://news.sina.com.cn/c/sd/2016-11-21/doc-ifxxwrwh4831425.shtml北京重污染应急预案为何5年4版本http://news.sina.com.cn/c/2016-11-21/doc-ifxxwsix4256007.shtml中央督察组:黑龙江自然保护区违建问题严重http://news.sina.com.cn/c/2016-11-15/doc-ifxxsmuu5714118.shtml这些贪官为什么被判终身监禁http://news.sina.com.cn/c/sd/2016-11-15/doc-ifxxsmic6290399.shtml遭贾敬龙射杀村支书之子接任父职 被指村官世袭http://news.sina.com.cn/c/sd/2016-11-06/doc-ifxxnety7454000.shtml揭秘职称评选之痛 教授称专注教学就是毁灭自己http://news.sina.com.cn/c/sd/2016-11-06/doc-ifxxnety7452898.shtml河北两处环境监测点受“特殊照顾” 数据涉造假http://news.sina.com.cn/c/sd/2016-11-05/doc-ifxxneua4171843.shtml原国务院官员:职工早退休去跳广场舞是浪费http://news.sina.com.cn/c/sd/2016-10-31/doc-ifxxfysn8142356.shtml中国船员被索马里海盗劫持1671天 称不再出海http://news.sina.com.cn/o/2016-10-29/doc-ifxxfysn8035051.shtml河北河南会议费新规:一类会议每人每天600元http://news.sina.com.cn/c/2016-10-27/doc-ifxxfyez2094779.shtml中纪委反腐片曝光77名官员 有副国级有村主任http://news.sina.com.cn/c/sd/2016-10-26/doc-ifxwztrt0461059.shtml北京本月已发3次污染预警 明天将再现中度污染http://news.sina.com.cn/c/2016-10-24/doc-ifxwzpsa8495431.shtml高校“百团大战”背后的退社潮:精力不够是主因http://news.sina.com.cn/o/2016-10-24/doc-ifxwzuci9374853.shtml黑龙江依兰交警被指设岗收钱 超载车给钱就过http://news.sina.com.cn/c/sd/2016-10-24/doc-ifxwzuci9359158.shtml揭秘高额返现骗局:若资金链断裂后入者血本无归http://news.sina.com.cn/c/sd/2016-10-23/doc-ifxwztrt0189153.shtml北京多楼盘涉嫌捂盘 有豪宅销售怂恿客户假离婚http://news.sina.com.cn/c/sd/2016-10-23/doc-ifxwztru6919406.shtml新中国“第一贪”受贿3个亿 为何没被判死刑?http://news.sina.com.cn/c/sd/2016-10-23/doc-ifxwztru6919346.shtml四川悬崖村村民:没读书吃了亏不能让小孩再吃亏http://news.sina.com.cn/c/sd/2016-10-21/doc-ifxwztrs9917939.shtml十三年10位航天员“飞天” 已有6位成少将http://news.sina.com.cn/c/sd/2016-10-17/doc-ifxwvpaq1486203.shtml

Process finished with exit code 0
时间: 2024-11-06 14:26:25

抓取新浪新闻的内容以及链接的相关文章

python爬虫:使用urllib.request和BeautifulSoup抓取新浪新闻标题、链接和主要内容

案例一 抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSoup import requests url = 'http://news.sina.com.cn/china/' web_data = requests.get(url) web_data.encoding = 'utf-8' soup = BeautifulSoup(web_data.text,'

python爬虫:抓取新浪新闻内容(从当前时间到之前某个时间段),并用jieba分词,用于训练自己的分词模型

新浪新闻内容采用的是ajax动态显示内容,通过抓包,发现如下规律: 每次请求下一页,js那一栏都会出现新的url: "http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw&cat_2==gdxw1" "||=gatxw||=zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&show_num=22&ta

Python抓取新浪新闻数据(二)

以下是抓取的完整代码(抓取了网页的title,newssource,dt,article,editor,comments)举例: 原文地址:http://blog.51cto.com/2290153/2126861

使用fastjson解析json抓取新浪新闻文章

首先看看2个简单的fastjson的使用 例子一 package ivyy.taobao.com.domain.json; import java.util.Iterator; import com.alibaba.fastjson.JSONArray; import com.alibaba.fastjson.JSONObject; /** * @Author:jilongliang * @Date:2014-12-19 * @Version:1.0 * @Description: */ pub

Node.js抓取新浪新闻标题

"use strict"; let cheerio = require("cheerio"); let http = require("http"); let iconv = require("iconv-lite"); let mainUrl = "http://news.sina.com.cn/world/"; http.get(mainUrl, function(sres) { var chunks

用Selenium抓取新浪天气

(1)用Selenium抓取新浪天气 系统环境: 操作系统:macOS 10.13.6 python :2.7.10 用虚拟环境实现 一.创建虚拟环境: mkvirtualenv --python=/usr/bin/python python_2 二.激活虚拟环境: workon python_2 三.安装Selenium pip install Selenium 四.安装firefox的Selenium补丁文件: brew install geckodriver 五.在~/.bash_prof

利用BeautifulSoup抓取新浪网页新闻的内容

第一次写的小爬虫,python确实功能很强大,二十来行的代码抓取内容并存储为一个txt文本 直接上代码 #coding = 'utf-8' import requests from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding("utf-8") #抓取web页面 url = "http://news.sina.com.cn/china/" res = requests.g

爬虫Scrapy学习指南之抓取新浪天气

scrapy有一个简单的入门文档,大家可以参考一下,我感觉官方文档是最靠谱的,也是最真实的. 首先我们先创建一个scrapy的项目 scrapy startproject weather 我采用的是ubuntu12.04的系统,建立项目之后主文件夹就会出现一个weather的文件夹.我们可以通过tree来查看文件夹的结构.可以使用sudoapt-get install tree安装. tree weather weather ├── scrapy.cfg ├── wea.json ├── wea

python抓取新浪首页的小例子

参考 廖雪峰的python教程:http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001386832653051fd44e44e4f9e4ed08f3e5a5ab550358d000 代码: 1 #!/usr/bin/python 2 3 # import module 4 import socket 5 import io 6 7 # create TCP object 8 s