第一个爬虫程序

from urllib import  request
from urllib import parse
from bs4 import BeautifulSoup
req =request.Request("http://www.xinshipu.com/zuofa/49391")
req.add_header( ‘Accept‘,‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8‘)
req.add_header( ‘Accept-Language‘,‘zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3‘)
req.add_header( ‘Cache-Control‘,‘max-age=0‘)
req.add_header(  ‘Connection‘,‘keep-alive‘)
req.add_header( ‘Cookie‘,‘JSESSIONID=7527E0F61B460FD3DFB60BC50DB9B1F0; _ga=GA1.2.1916127465.1503760815; _gid=GA1.2.132850422.1503760815; Visited="49391,685809,685823,598786,685825,685726"‘)
req.add_header(‘User-Agent‘,‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0‘)
response=request.urlopen(req)
html = response.read().decode(‘utf8‘,errors=‘replace‘)
soup = BeautifulSoup(html,"html.parser")
reup = soup.select(".font16.ml10.col")[0].text;

时间： 2024-08-02 13:56:12

第一个爬虫程序的相关文章

python爬虫__第一个爬虫程序

前言机缘巧合,最近在学习机器学习实战, 本来要用python来做实验和开发环境得到一个需求,要爬取大众点评中的一些商户信息, 于是开启了我的第一个爬虫的编写,里面有好多心酸,主要是第一次. 我的文章有幸被你看到的话,如果你也是个初学者,希望能让你也学习到一些东西,下面是干货. 需求: 环境: 1.windows 7 +python2.7.3+BeautifulSoup包 2.BeautifulSoup是用的最新版,4.x的,在bs4的包中,直接用pip install BeautifulSo

小白的第一个爬虫程序（糗事百科）

import urllib.request import re for page in range(1, 10): url = "https://www.qiushibaike.com/8hr/page/"+str(page)+"/" headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0&qu

用 Python 写一个爬图片的程序---------纪念我的第一个爬虫程序

终于到这题了,话不多说.直接上代码. #coding:utf-8 #By :晓明酱 #Date:2016/4/16 #参考:http://blog.csdn.net/xiaowanggedege/article/details/8650034 import urllib,re def get_html(url): page = urllib.urlopen(url) html = page.read() return html def get_img(html): reg = r'src="(.

Python3网络爬虫(十一)：爬虫黑科技之让你的爬虫程序更像人类用户的行为(代理IP池等)

原文链接: Jack-Cui,http://blog.csdn.net/c406495762 运行平台: Windows Python版本: Python3.x IDE: Sublime text3 1 前言近期,有些朋友问我一些关于如何应对反爬虫的问题.由于好多朋友都在问,因此决定写一篇此类的博客.把我知道的一些方法,分享给大家.博主属于小菜级别,玩爬虫也完全是处于兴趣爱好,如有不足之处,还望指正. 在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长.今天大众好像更倾向于

编写一个网易云音乐爬虫程序

本次借助wxPython编写一个网易云音乐的爬虫程序,能够根据一个歌单链接下载其下的所有音乐前置说明网易云音乐提供了一个下载接口:http://music.163.com/song/media/outer/url?id=xxx 所以只需要拿到歌单中每首歌曲对应的 id 即可 1.分析歌单网页元素打开网易云音乐,复制一个歌单链接打开chrome,查看网页元素这里有个细节,我们拿到的歌单url中有一个符号“/#”,因为之前爬虫其他网站时,也是直接请求初始url,一般Elements标签中的

第一个单片机程序(C言语编写)

忙活了半天,预备任务做了那么多,终于要编写我们的程序代码了.假如学过 C 言语的话,你应当很轻松的跟着我的编程本人写出来,假如没学过 C 言语也没紧要,你先照着我的抄,我会在适宜的地位写出来对 C 言语语法的说明,如许抄几回后再看看说明,就应当很明确了,抄的时分必定要仔细,特别标点符号弗成以搞错.第一个单片机程序: #include <reg52.h> //包括特别功用存放器界说的头文件 sbit LED = P0^0; //位地址声明,留意:sbit 必需小写.P 大写! void main

MFC第一节-windows程序内部运行机制

一.窗口设计窗口类时: 1 typedef struct _WNDCLASS{ 2 UINT style; //如水平.垂直变化是否重绘,禁用Close,检测双击 3 WNDPROC lpfnWndProc;//窗口过程函数句柄 4 int cbClsExtra;//类附加内存 5 int cbWndExtra;//窗口附加内存 6 HANDLE hInstance;//实例句柄 7 HANDLE hIcon;//图标 8 HCURSOR hCursor;//光标 9 HBRUSH hbrBa

用Java写的爬虫程序

这是一个web查找的根本程序,从命令行输入查找条件(开端的URL.处置url的最大数.要查找的字符串), 它就会逐一对Internet上的URL进行实时查找,查找并输出匹配查找条件的页面. 这个程序的原型来自<java编程艺术>, 为了非常好的剖析,站长去掉了其间的GUI有些,并稍作修改以适用jdk1.5.以这个程序为基础,可以写出在互联网上查找比如图像.邮件.页面下载之类的"爬虫". 先请看程序运转的进程: D:\java>javac SearchCrawler

微信小程序-----安装，编写第一个小程序和运行到手机端

第一步: 微信公众平台注册账号,并选择小程序,网址:mp.weixin.qq.com 填写相关信息,如:主体类型(个人或者企业) AppID 在开发中都是用的到的,服务器域名在网络请求也是用的到的. 完成信息之后,下载开发工具: 下载地址: https://mp.weixin.qq.com/debug/wxadoc/dev/devtools/download.html 选择自己需要的版本,下载直接安装,和平常的软件安装一样,直接运行用微信扫码登录即可,然后点击添加项目, 输入申请的AppID