Python实现抓取页面上链接

方法一：
# coding:utf-8
import re
import requests
# 获取网页内容
r = requests.get(‘http://www.163.com‘)
data = r.text
# 利用正则查找所有连接
link_list =re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\‘).+?(?=\‘)" ,data)
for url in link_list:
print url

方法二：

import urllib2
import re
#connect to a URL
website = urllib2.urlopen(url)
#read html code
html = website.read()
#use re.findall to get all the links
links = re.findall(‘"((http|ftp)s?://.*?)"‘, html)
for url in links:
print url

时间： 2024-11-10 05:39:56

Python实现抓取页面上链接的相关文章

.NET抓取数据范例抓取页面上所有的链接

原文发布时间为:2009-11-15 -- 来源于本人的百度文章 [由搬家工具导入] .NET抓取数据范例抓取页面上所有的链接前台： <%@ Page Language="C#" AutoEventWireup="true" CodeFile="Default.aspx.cs" Inherits="_Default" %> <!DOCTYPE html PUBLIC "-//W3C//DTD X

Python 简单抓取页面学习

最近想做一个小web应用,就是把豆瓣读书和亚马逊等写有书评的网站上关于某本书的打分记录下来,这样自己买书的时候当作参考. 这篇日志这是以豆瓣网为例,只讨论简单的功能. 向服务器发送查询请求这很好处理,找到网站的搜索框,然后填入相关信息,提交后查看url即可. 这里以豆瓣为例,当我在http://book.douban.com页面的搜索框中输入现代操作系统后得到下面的url: http://book.douban.com/subject_search?search_text=%E7%8E%B

Python抓取页面乱码问题的解决

import urllib2 response=urllib2.urlopen('http://house.focus.cn/') html=response.read() print html.decode('gbk') Python抓取页面乱码问题的解决,布布扣,bubuko.com

python 爬虫抓取心得

quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quote('要编码的字符串') query = urllib.quote(singername) url = 'http://music.baidu.com/search?key='+query response = urllib.urlopen(url) text = response.read()

python 爬虫抓取心得分享

/** author: insun title:python 爬虫抓取心得分享 blog:http://yxmhero1989.blog.163.com/blog/static/112157956201311821444664/ **/ 0x1.urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quote('要编码的字符串') query = urllib.quote(singername) url = 'h

Python3分析sitemap.xml抓取导出全站链接

最近网站从HTTPS转为HTTP,更换了网址,旧网址做了301重定向,折腾有点大,于是在百度站长平台提交网址,不管是主动推送还是手动提交,前提都是要整理网站的链接,手动添加太麻烦,效率低,于是就想写个脚本直接抓取全站链接并导出,本文就和大家一起分享如何使用python3实现抓取链接导出. 首先网站要有网站地图sitemap.xml文件地址,其次我这里用的是python3版本,如果你的环境是python2,需要对代码进行调整,因为python2和python3很多地方差别还是挺大的. 下面是pyt

使用PHP的正则抓取页面中的网址

最近有一个任务,从页面中抓取页面中所有的链接,当然使用PHP正则表达式是最方便的办法.要写出正则表达式,就要先总结出模式,那么页面中的链接会有几种形式呢? 链接也就是超级链接,是从一个元素(文字.图片.视频等)链接到另一个元素(文字.图片.视频等).网页中的链接一般有三种,一种是绝对URL超链接,也就是一个页面的完整路径:另一种是相对URL超链接,一般都链接到同一网站的其他页面:还有一种是页面内的超链接,这种一般链接到同一页面内的其他位置. 搞清楚了链接的种类,就知道要抓链接,主要还是绝对URL

python Web抓取（一）

需要的模块: python web抓取通过: webbrowser:是python自带的,打开浏览器获取指定页面 requests:从因特网上下载文件和网页 Beautiful Soup:解析HTML Selenium:启动并控制一个Web浏览器.selenium能够填写表单,并模拟鼠标在这个浏览器中点击 >>>这个在这里一.项目:利用Webbrowser模块的快速翻译脚本 webbrowser.open(url) 会在默认浏览器中打开这个地址 >>> impo

好用的 curl 抓取页面的封装函数

由于经常使用php curl 抓取页面的内容,在此mark 平时自己封装的 curl函数,(其实现在也开始用 Python 来爬了~ ^-^) /** * 封装curl方法 * @author FredGui * @param string $url 必选接口地址 * @param string $post 可选如果是post访问填写post参数数组 * @param int $timeout 可选超时时间 * @param string $cookie * @param int $de

猜你喜欢

Unity5.1 新的网络引擎UNET（一）概括2

孙广东 2015.7.12 有两种网络功能的用户:? 用户使用Unity 制作多人游戏.这些用户应该开始使用NetworkManager 或者 High Level API.? 用户建设网络基础设 ...

Measuring PostgreSQL Checkpoint Statistics

Checkpoints can be a major drag on write-heavy PostgreSQL installations. The first step toward ident ...

poj 2151 Check the difficulty of problems

dp[i][j][s]表示第i个人,在前j个问题解决了s个问题 dp[i][j][s]=dp[i][j-1][s-1]*p[i][j]+dp[i][j-1][s]*(1-p[i][j]); 1 #in ...

leetcode 659. Split Array into Consecutive Subsequences

You are given an integer array sorted in ascending order (may contain duplicates), you need to split ...

PHP操纵session存入数据库

1 为什么需要session入库当session中数据很多时,或者web服务器集群共享session时,就需要将session存入数据库 session存入数据库一般是要重写session存储机制, ...

asp.net mvc5实现单点登录

写这个之前特意找了下,看到也有这方面的别人写的文章资料,但是貌似都是类似于这个的: http://www.cnblogs.com/New-world/p/3865939.html 想了下,要不要把自己 ...

11i - 12 Gather Schema Statistics fails with Ora-20001 errors after 11G database Upgrade (文档 ID 781813.1)

11i - 12 Gather Schema Statistics fails with Ora-20001 errors after 11G database Upgrade (文档 ID 7818 ...

Part2 – OPENVSWICH – VLANs, Trunks, L3 VLAN interface, InterVLAN Routing – Configuration And Testing

In a previous tutorial we showed how to install Openvswitch on Qemu image with Microcore Linux. At t ...

26、输入一个链表，反转链表后，输出链表的所有元素。

输入一个链表,反转链表后,输出链表的所有元素. 思路: ListNode next = null;//用来保存待反序的第一个节点(head 和 next节点) ListNode pre = null ...

各类异常捕获

一.UI线程异常: 1)直接在主线程中的异常,直接用try……catch捕获(如果你怀疑某个代码会抛出异常). 2)其它可能性:建议使用Application.ThreadException+Appl ...

struts标签解决用户输入验证的解决方案

首先新建 User测试类 package com.cx.verify; /** * Created by cxspace on 16-7-14. */ public class User { priv ...

Linux 常用命令之mv

mv : 移动文件与目录,或更名 1>功能: 移动文件与目录,或更名 2>使用格式: mv [OPTION]... [-T] SOURCE DEST mv [OPTION]... SO ...

Oil Skimming---hdu4185（最大匹配）

题目链接题意:有一个地图.代表水#代表油每个单元格是10*10的,现有10*20的勺子可以提取出水上漂浮的油,问最多可以提取几勺的油: 每次提取的时候勺子放的位置都要是油,不然就被污染而没有价值了: ...

& 位与运算符

在C/C++语言里,&代表取地址或者“位与”运算1.取变量的地址:&变量名,这将获得该变量的地址,例:int a = 1, &p = a.2.进行位与运算,格式是:变量1&am ...

asp.net MVC 使用PagedList.MVC实现分页

在上一篇的EF之DB First中,存在以下的两个问题: 1. 添加/编辑页面显示的是属性名称,而非自定义的名称(如:姓名.专业...) 2. 添加/编辑时没有加入验证 3. 数据展示使用分页 @Ht ...

mysqldump命令使用详解

mysqldump是一个数据库备份程序用法:mysqldump [options] [db_name [tbl_name ...]] 描述:mysqldump是一个客户端逻辑备份的工作,备份的SQL ...

Ubuntu 下disk清理保护

用久了ubuntu的人,很多人会忽然出个提示:磁盘空间不足1G! 然后分析半天..最近也碰到类似问题,记录如下: 一:.xsession-errors.old 可以在终端看到主用户目录下有这么一个隐藏 ...

【Mybatis】Mybatis的sql模糊查询

这个网站中有很多方法.https://code.google.com/p/mybatis/issues/detail?id=85 自己试验了如下的方法. 1. 参数中直接加入%% param.set ...

openjudge 两道hash题目

/* 1 /* 2 关键是两点可以确定一个正放心的另外两点 3 主要得发现一个规律:当两点确认以后,正方形的位置其实就确认了(不过有两个) 4 (这边的两个点是指正方形的一条边的两个点) 5 所以枚举 ...

10个维修中最常见的蓝屏代码，值得收藏！

2015-11-03 2345王牌技术员联盟很多技术员碰到蓝屏或者是听客户说蓝屏,首先想到的都是重装系统.其实windows系统最人性化的地方就是有个日志,你所有出现的蓝屏和错误都会记录在里面,什么 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.