beautifulsoup学习-抓取页面并解析

以汽车之家为例子,抓取页面并进行解析

# -*- coding=utf-8 -*-

import urllib2
from BeautifulSoup import BeautifulSoup as bs3
import json
import codecs

#字符检测,用来检测其真实的编码格式
import chardet

#save content to file
def save_to_file(filename, content):
	f = open(filename, 'w+')
	assert(f)
	f.write(content)
	f.close()

def parse_json_data(content):
	print(chardet.detect(content[0]))

	name_list = ['keyLink', 'config', 'option','color', 'innerColor']
	print(json.dumps(content[0].decode('GB2312')))

def parse_content(content):
	#content是GB2312的编码
	soup = bs3(content)

	key_text = 'var levelId'
	elem_lib = soup.find('script', text=lambda(x):key_text in x)

	#str_script是utf-8的编码
	str_script = str(elem_lib.string)

	#print(chardet.detect(str_script))

	#由于命令行是cp936 GBK的编码,如果编码不符合无法打印
	strGBK = str_script.decode('utf-8').encode('gb2312')
	#print(strGBK)

	#移除html的转义字符 
	strGBK = strGBK.replace(' ','')

	d = strGBK.splitlines()
	list_data = []

	for i in d:
		if i.isspace():
			continue

		#过滤不需要的变量
		if len(i) < 100:
			continue

		#取出json数据
		idx = i.find('{')
		if idx == -1:
			continue

		#移除最后的;
		k = i[idx:-1]
		list_data.append(k)

	parse_json_data(list_data)

	'''
	print('json.count=', len(list_data))
	for i in list_data:
		if len(i) > 200:
			print(i[0:200])
		else:
			print(i)

	parse_json_data(list_data)
	'''

	#不能再函数中直接使用exec,但是可以使用eval
	'''
	strSentece = ''
	for i in d:
		if i.isspace():
			continue

		if 'null' in j:
			continue

		#移除var的类型定义,javascript需要,python不需要
		j = i[4:]

		strSentece += i

	#可以直接在python中执行json的赋值语句,类似dict赋值
	exec(strSentece)

	#输出变量数据
	var_list = ['keyLink', 'config','option','color','innerColor']
	for i in var_list:
		exec('print %s' % (i,))
	'''

def crawler_4_autohome():
	autohome_url = 'http://car.autohome.com.cn/config/series/657.html'

	#uft-8
	content = urllib2.urlopen(url=autohome_url).read()
	#print(chardet.detect(content))
	parse_content(content)

if __name__ == '__main__':
	crawler_4_autohome()

时间: 2024-10-24 03:13:51

beautifulsoup学习-抓取页面并解析的相关文章

使用jsoup爬虫抓取页面

httpclient 和jsoup都可以实现模拟浏览器抓取页面,前者发送请求,后者解析htm标签比较强大.本例直接使用jsoup实现请求和解析. package com.chongdong.log.test; import java.io.IOException; import java.util.HashMap; import java.util.Map; import org.jsoup.Connection; import org.jsoup.Connection.Method; impo

php抓取页面的几种方式

在做一些天气预报或者RSS订阅的程序时,往往 需要抓取非本地文件,一般情况下都是利用php模拟浏览器的访问,通过http请求访问url地址, 然后得到html源代码或者xml数据,得到数据我们不能直接输出,往往需要对内容进行提取,然后再进行格式化,以更加友好的方式显现出来. 下面简单说一下php抓取页面的几种方法及原理: 一. PHP抓取页面的主要方法: 1. file()函数 2. file_get_contents()函数 3. fopen()->fread()->fclose()模式 4

Python抓取页面乱码问题的解决

import urllib2 response=urllib2.urlopen('http://house.focus.cn/') html=response.read() print html.decode('gbk') Python抓取页面乱码问题的解决,布布扣,bubuko.com

好用的 curl 抓取 页面的封装函数

由于经常使用php curl 抓取页面的内容,在此mark 平时自己封装的 curl函数,(其实 现在也开始用 Python 来爬了~ ^-^) /** * 封装curl方法 * @author FredGui * @param string $url 必选 接口地址 * @param string $post 可选 如果是post访问填写post参数数组 * @param int $timeout 可选 超时时间 * @param string $cookie * @param int $de

curl只能抓取页面的部分内容的原因

核心提示:先列出 HessianPHP 的错误提示: CURL transport error: transfer closed with outstanding read data remaining 基础知识背景: 1)"Expect: 100-continue"的来龙去脉: HTTP/1.1 协议里设计100 (Continue) HTTP 状态码的的目的是,在客 ... 先列出 HessianPHP 的错误提示: CURL transport error: transfer c

用PHP抓取页面并分析

在做抓取前,记得把php.ini中的max_execution_time设置的大点,不然会报错的. 一.用Snoopy.class.php抓取页面 一个挺萌的类名.功能也很强大,用来模拟浏览器的功能,可以获取网页内容,发送表单等. 1)我现在要抓取一个网站的列表页的内容,我要抓取的是全国的医院信息内容,如下图: 2)我很自然的将URL地址复制下来,用Snoopy类来抓取前10页的页面内容,而且将内容放到本地来,在本地建立html文件,等下用于分析. $snoopy=new Snoopy(); /

使用PHP的正则抓取页面中的网址

最近有一个任务,从页面中抓取页面中所有的链接,当然使用PHP正则表达式是最方便的办法.要写出正则表达式,就要先总结出模式,那么页面中的链接会有几种形式呢? 链接也就是超级链接,是从一个元素(文字.图片.视频等)链接到另一个元素(文字.图片.视频等).网页中的链接一般有三种,一种是绝对URL超链接,也就是一个页面的完整路径:另一种是相对URL超链接,一般都链接到同一网站的其他页面:还有一种是页面内的超链接,这种一般链接到同一页面内的其他位置. 搞清楚了链接的种类,就知道要抓链接,主要还是绝对URL

HttpWebRequest 抓取页面异常处理办法

抓取页面异常处理办法 public static string GetHtmlTest(string URI) { string fullhtml = null; while (true) { try { HttpWebRequest req = (HttpWebRequest)WebRequest.Create(URI); req.Method = "GET"; req.UserAgent = "Opera/9.25 (Windows NT 6.0; U; en)"

curl抓取页面时遇到重定向的解决方法

用php的curl抓取网页遇到了问题,为阐述方便,将代码简化如下: [php] view plaincopy <?php function curlGet($url) { $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_HEADER, true); return curl_exec($ch);