python初尝试,写一个简单的爬虫程序

1、首先因为mac自带python,版本为python2.7.10

2、安装pip,因为已经有了,所以不能用brew install。这里用sudo easy_install pip

3、安装beatifulsoup4,sudo -H pip install beautifulsoup4。 BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.

4、安装html5lib,sudo pip install html5lib。html5lib是一种html解析库,其解析方式与浏览器一样

5、脚本代码:  

from urllib2 import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://www.baidu.com")
res = BeautifulSoup(html.read(),"html5lib")
print(res.title)

6、结果:

以上就是今天的一个小尝试,记录一下。 学习起来也比较有动力~

原文地址:https://www.cnblogs.com/gaofengfengfeng/p/8183137.html

时间: 2024-10-08 00:39:23

python初尝试,写一个简单的爬虫程序的相关文章

DuiVision开发教程(2)-如何写一个简单的界面程序

基于DuiVision界面库开发的界面程序主要包括如下几部分内容: 1.资源定义,包括图片资源.各个窗口界面的xml定义文件 2.事件处理类代码,用于处理界面响应消息 3.其他业务逻辑代码 下面举例说明如何写一个简单的界面程序. 第一步:使用VC向导创建一个有两个tab页面的DuiVision工程 向导生成的解决方案文件如下: 默认有两个工程,分别是DuiVision库和应用程序工程.自动生成的代码目录中bin目录下的内容那个如下,bkimg目录存放窗口背景图片,skins目录存放图片资源,xm

Python3的tkinter写一个简单的小程序

一.这个学期开始学习python,但是看了python2和python3,最后还是选择了python3 本着熟悉python的原因,并且也想做一些小程序来增加自己对python的熟练度.所以写了一个简单的程序,这个小程序实现了basa64.base32的加解码.并且添加了一个md5生成的功能.ps:觉得python开发也挺好玩的... 二.运行程序截图: 上面的就是程序的整体界面了.. 三.程序的设计: 源代码就在下面贴图了,并且需要的文档可以--------------搜索吧..... imp

Python写一个简单的爬虫

code #!/usr/bin/env python # -*- coding: utf-8 -*- import requests from lxml import etree class Main: def __init__(self): self.headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69

Python入门 —— 用pycharm写一个简单的小程序3

环境:Win10操作系统:Python3.7:Pycharm 题目来源:PTA 编程实例1:日期格式化 世界上不同国家有不同的写日期的习惯.比如美国人习惯写成“月-日-年”,而中国人习惯写成“年-月-日”.下面请你写个程序,自动把读入的美国格式的日期改写成中国习惯的日期. 输入格式: 输入在一行中按照“mm-dd-yyyy”的格式给出月.日.年.题目保证给出的日期是1900年元旦至今合法的日期. 输出格式: 在一行中按照“yyyy-mm-dd”的格式给出年.月.日. 输入样例: 03-15-20

用python requests库写一个人人网相册爬虫

担心人人网会黄掉,写个爬虫,把我的相册照片都下载下来.代码如下: # -*- coding: utf-8 -*- import requests import json import os def mkdir(path): path=path.strip() path=path.rstrip("\\") isExists=os.path.exists(path) if not isExists: print path+u' 创建成功' os.makedirs(path) else: p

python+urllib+beautifulSoup实现一个简单的爬虫

urllib是python3.x中提供的一系列操作的URL的库,它可以轻松的模拟用户使用浏览器访问网页. Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间. 1.安装python最新安装包3.5.2 下载地址:https://www.python.org/ 注:安装的时候注意勾选添加到PATH(系统环境变量)中 验证安装是否成功

随笔写一个简单的爬虫

目标:爬取damai网上即将上演的信息 1 #!/usr/bin/python 2 # -*- coding: utf-8 -*- 3 4 import requests, re 5 from bs4 import BeautifulSoup 6 7 DOWNLOAD_URL = "http://www.damai.cn/bj/" 8 9 #获取url页面内容 10 def download_page(url): 11 headers = {'User-Agent':'Mozilla/

用c++写一个简单的计算器程序

// 050305.cpp : 定义控制台应用程序的入口点.// // 050304.cpp : 定义控制台应用程序的入口点.////四则运算#include "stdafx.h"#include<iostream>#include<stdio.h>using namespace std;void add(){ printf("输入要计算的加数(例如a b)\n"); int adda=0, addb=0,addc=0; cin >&g

一个简单的爬虫程序

#!/usr/bin/env python #coding:utf-8 import urllib, re def getHtml(url):     page = urllib.urlopen(url)     html = page.read()     return html def getImage(html):     reg = r'src="(.+?\.jpg)"'     imgre = re.compile(reg)     imglist = re.findall(