python网页抓取练手代码

from urllib import request
import html.parser

class zhuaqu(html.parser.HTMLParser):
    blogHtml = ""
    data = []
    flag = 0

    def getHtml(self):
        res = request.urlopen("http://www.cnblogs.com")
        self.blogHtml = res.read().decode(‘utf-8‘)

    def handle_starttag(self, tag, attrs):
        if(tag == "a"):
            for attr in attrs:
                if(attr[0] == "class" and attr[1] == "titlelnk"):
                    self.flag = 1
                    break
        else:
            pass
    def handle_data(self, data):
        if(self.flag == 1):
            self.data.append(data.strip())
            self.flag = 0
        else:
            pass

    def show(self):
        print(self.blogHtml)

zhua = zhuaqu()
zhua.getHtml()
zhua.feed(zhua.blogHtml)
for item in zhua.data:
    print(item)

运行结果

C:\Python33\python.exe C:/pythonHtmlParse/zhuaqu.py
团建活动之忆童年
闭包的总结(干货1)
Jetty源码学习-编译Jetty源码二三事
Cesium原理篇：Property
前端制作动画的几种方式（css3，js）
SQL Server-聚焦INNER JOIN AND IN性能分析（十四）
C# 中的委托和事件
Android中Activity运行时屏幕方向与显示方式详解
利用T4模板生成ASP.NET Core控制器的构造函数和参数
JavaScript的因为所以
css居中小结
SharedPreferences 的另一种场景的用法
python wordcloud 对电影《我不是潘金莲》制作词云
怎么调试lua性能
ElasticSearch 5学习——安装Elasticsearch、Kibana和X-Pack
SDWebImage源码解读_之SDWebImageDecoder
struts开发经验汇总
scikit-learn 梯度提升树(GBDT)调参小结
你该知道的-SQL里的这些新语法-函数
希望大牛加入，共同为项目智能化管理jar包而努力

Process finished with exit code 0

时间： 2024-12-06 09:26:53

python网页抓取练手代码的相关文章

一个极其简洁的Python网页抓取程序

paip. 混合编程的实现resin4 (自带Quercus ) 配置 php 环境 #---混合编程的类型 1.代码inline 方式 2.使用库/api 解析方式. #----配置resin 支持php resin4默认自动支持php.. 也能手动配置了.web.xml加php的servlet解析..参考Quercus让你的PHP开心在Servlet容器奔跑 #----配置 php.ini路线运行t.php,,看见 Configuration File (php.ini) Path =>

一个极其简洁的Python网页抓取程序，自己主动从雅虎財经抓取股票数据

本程序使用Python 2.7.6编写,扩展了Python自带的HTMLParser,自己主动依据预设的股票代码列表,从Yahoo Finance抓取列表中的数据日期.股票名称.实时报价.当日变化率.当日最低价.当日最高价. 因为Yahoo Finance的股票页面中的数值都有对应id. 比如纳斯达克100指数ETF(QQQ)http://finance.yahoo.com/q?s=qqq 当中实时报价的HTML标记为 <span id="yfs_l84_qqq">87.4

Python网页抓取

#coding:utf-8 import urllib #导入模块 print dir(urllib) #查看urllib方法 print help(urllib.urlopen) #查看帮助文档 url="http://www.baidu.com" #定义网址 html=urllib.urlopen(url) #打开url print html.read() #urlopen有一个方法是read() # 解决编码问题 print html.read().decode("gb

Python网页抓取2

#!coding:utf-8# 获取web页面import sys,urllib2 req=urllib2.Request(sys.argv[1]) fd=urllib2.urlopen(req) while 1: data=fd.read() if not len(data): break print data #coding:utf-8 import sys,urllib2 req=urllib2.Request(sys.argv[1]) fd=urllib2.urlopen(req) pr

python爬虫抓取站长之家IP库，仅供练习用！

python爬虫抓取站长之家IP库,单线程的,仅供练习,IP库数据有43亿条,如果按此种方法抓取至少得数年,所以谨以此作为练手,新手代码很糙,请大家见谅. #!/usr/bin/python #coding=UTF-8 import urllib2 import re import os import csv import codecs user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = { 'User-

用Python进行网页抓取

引言从网页中提取信息的需求日益剧增,其重要性也越来越明显.每隔几周,我自己就想要到网页上提取一些信息.比如上周我们考虑建立一个有关各种数据科学在线课程的欢迎程度和意见的索引.我们不仅需要找出新的课程,还要抓取对课程的评论,对它们进行总结后建立一些衡量指标.这是一个问题或产品,其功效更多地取决于网页抓取和信息提取(数据集)的技术,而非以往我们使用的数据汇总技术. 网页信息提取的方式从网页中提取信息有一些方法.使用API可能被认为是从网站提取信息的最佳方法.几乎所有的大型网站,像Twitter.

使用 python urllib2 抓取网页时出现乱码的解决方案

这里记录的是一个门外汉解决使用 urllib2 抓取网页时遇到乱码.崩溃.求助.解决和涨经验的过程.这类问题,事后看来只是个极小极小的坑,不过竟然花去很多时间,也值得记录一下.过程如下:目标: 抓取 http://sports.sina.com.cn/g/premierleague/index.shtml 代码: 1 2 3 4 5 6 # coding: u8 import urllib2 url = "http://sports.sina.com.cn/g/premierleague/ind

一个实用的C#网页抓取类代码分享

一个实用的C# 网页抓取类模拟蜘蛛,类中定义了超多的C#采集文章.网页抓取文章的基础技巧,下面分享代码: using System; using System.Data; using System.Configuration; using System.Net; using System.IO; using System.Text; using System.Collections.Generic; using System.Text.RegularExpressions; using Sys

用python做网页抓取与解析入门笔记[zz]

(from http://chentingpc.me/article/?id=961) 事情的起因是,我做survey的时候搜到了这两本书:Computational Social Network Analysis和Computational Social Network,感觉都蛮不错的,想下载下来看看,但是点开网页发现这个只能分章节下载,晕,我可没时间一章一章下载,想起了迅雷的下载全部链接,试试看,果真可以把他们一网打尽,但是,sadly,迅雷下载的时候,文件名没办法跟章节名对应起来,晕,我可

猜你喜欢

BZOJ 1662: [Usaco2006 Nov]Round Numbers 圆环数（数位DP+恶心细节）

BZOJ 1662: [Usaco2006 Nov]Round Numbers 圆环数 Time Limit: 5 Sec Memory Limit: 64 MB Description 正如你所知 ...

Mongodb 笔记08

了解应用的动态 1. 了解正在进行的操作:db.currentOp() , 可以加过滤条件,从而只显示符合条件的结果. 1). 寻找有问题的操作:db.currentOp() 最常见的操作就是用来寻找 ...

msysGit+TortoiseGit 在windows上协作开发

第一步下载msysGit1.9.4.0官方中文版下载(Git for Windows)安装第二步下载TortoiseGit(git客户端)1.8.9.0官方中文版下载安装第三步 1.在开源中国 ...

2 微信开发者中心

微信公众号开发者中心提供了使用代码开发微信微应用的功能,使用代码开发微应用需要用到服务器,以存放编写的代码,因此我们需要一个服务器.那么在微信那里设置服务器呢?在微信公众号管理界面,点击[基本配置] ...

CMD (sea.js)模块定义规范

转自http://www.cnblogs.com/hongchenok/p/3685677.html CMD 模块定义规范在 Sea.js 中,所有 JavaScript 模块都遵循 CMD(Com ...

ios中layer动画和UIView动画代码总结

kCATransitionFade淡出 kCATransitionMoveIn覆盖原图 kCATransitionPush推出 kCATransitionReveal底部显出来 pageCurl ...

学习笔记11/6

1. jquery事件将JavaScript中的事件去除了on前缀然后将它们封装为对应的方法如:click(function(){ 书写代码}); 对象.事件方法(匿名函数) 2. one(typ ...

C#中使用Redis不同数据结构的内存占有量的疑问和对比测试

最近在大量使用Redis来进行数据统计前的清洗和整理,每天的数据量超5千万+,在开发过程中,数据量小,着重注意业务规则的处理,在上线基本测试后发现了大量的问题,其中之一就是Redis存储数据过多,内存 ...

SolrCloud怎样创建跟新索引信息

发送leader,由leader定位地址.然后写到shard上,同一时候copy到replicaton . 如图

sql语句之表间字段值复制遇到的一些问题--基于mysql

好久没来园子了,转眼2017已经到3月份了,前段时间一直忙没时间写博客(其实是自己懒),感觉内心好惭愧.昨天临下班前,技术老大突然对我说要改下表结构,问我能不能实现将一个表的字段值复制到另外一个表的某 ...

hdu 1074动态压缩

这题我一直以为是贪心做的,做了好久找不到规律看了解题报告,学习了压缩dp,类似dist,{v(i)}=min{v(i)-k},这种NP问题,O(n*2^n),数据给的比较小,其实也只能给15了,直接 ...

nodejs模块——Event模块

Node.js中,很多对象会发出事件.如,fs.readStream打开文件时会发出一个事件. 所有发出事件的对象都是events.EventEmitter的实例,可以通过require(" ...

The issus in Age Progression/Regression by Conditional Adversarial Autoencoder (CAAE)

Today I tried a new project named: Face-Aging-CAAE Paper Name: Age Progression/Regression by Conditi ...

8.11联考题解

样例输入: 3 6 0 -1 1 1 0 -1 -1 1 0 1 2 3 1 2 3 样例输出: 3 题解不要看上面那个吓人的时间限制--实际上内网给了4Sec,高明的模拟能过:外网给的时 ...

和为sum的两个数字

题目:输入一个递增排序的数组和一个数字S,在数组中查找两个数,是的他们的和正好是S,如果有多对数字的和等于S,输出两个数的乘积最小的. 思路:两个指针,两边到中间.... public ArrayLi ...

集合框架(一) ----------Map集合遍历的方法

import java.util.*; /** * Map集合遍历的方法 * @author Administrator * */public class Test2 { public static ...

js设置文本框只读属性的小bug

在js中设置文本框为只读属性的时候 , document.getElementById('你文本框的id').readOnly=true; 如果页面刚开始加载, 该文本框就获得焦点了,只读属性就不成立 ...

Cordova是做什么的

Cordova提供了一组设备相关的API,通过这组API,移动应用能够以JavaScript访问原生的设备功能,如摄像头.麦克风等. Cordova还提供了一组统一的JavaScript类库,以及为这 ...

采用运放构成的串联稳压电源及可调恒流源电路图

采用运放构成的串联稳压电源及可调恒流源电路图集成运算放大器具有开环增益高和输出阻抗低等特点,用它做稳压电源中的比较放大器是很理想的. 图1-34所示,由稳压管VDw提供的12V基准电压通过电位器RP ...

leetcode || 96、Unique Binary Search Trees

problem: Given n, how many structurally unique BST's (binary search trees) that store values 1...n? ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.