爬虫,爬取百度贴吧图片,未完善,请指教

代码如下:用的 Python3.5—————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————import urllib.requestimport reimport os

# 打开网页def url_open(url):    req = urllib.request.Request(url)    req.add_header(‘User-Agent‘, ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36‘)    response = urllib.request.urlopen(url)    html = response.read()    return html

# 下载并保存图片def download(urls):    for link in urls:        html = url_open(link).decode(‘utf-8‘)        p = r‘<img class="BDE_Image" src="([^"]+\.jpg)‘        result = re.findall(p, html)        for i in result:            filename = i.split(‘/‘)[-1]            urllib.request.urlretrieve(i, filename, None)

# 爬取本页内全部帖子的链接def findlink(url):    html = url_open(url).decode(‘utf-8‘)    p = r‘<a href="/p/\d+"‘    result = re.findall(p, html)    urls = []    for i in result:        newurl = ‘http://tieba.baidu.com/‘+ i.split(‘"‘)[-2]        urls.append(newurl)    download(urls)

# 创建文件夹def start(folder = ‘picture‘):    os.mkdir(folder)    os.chdir(folder)

    findlink(url)

#name = urllib.parse.quote(input(‘请输入贴吧名:‘))#num = input(‘请输入页码,0代表第一页,50为第二页,100为第三页,以此类推:‘)

# 贴吧网址,请根据需要自行替换,注意我这里的网址是处理过的,方便选页。#url = ‘http://tieba.baidu.com/f?kw=‘+name+‘&ie=utf-8&pn=‘ + ‘num‘url = ‘http://tieba.baidu.com/f?kw=%E6%9D%A8%E4%B8%9E%E7%90%B3&ie=utf-8&pn=100‘

# 运行脚本start()—————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————

问题多多,继续学习再回头改进吧,有路过的朋友请不吝赐教,非常感谢。
时间: 2024-10-23 14:09:36

爬虫,爬取百度贴吧图片,未完善,请指教的相关文章

Python简易爬虫爬取百度贴吧图片

通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.request.urlopen(url) html=page.read() return html 说明: 向getHtml()函数传递一个网址,就可以把整个页面下载下来. urllib.request 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据. 二.筛选页面

Python爬虫爬取百度贴吧的图片

根据输入的贴吧地址,爬取想要该贴吧的图片,保存到本地文件夹,仅供参考: #!/usr/bin/python#_*_coding:utf-8_*_import urllibimport urllib2import reimport osimport sys reload(sys)sys.setdefaultencoding("utf-8")#下载图片class GetPic: #页面初始化 def __init__(self,baseUrl,seelz): #base链接地址 self.

爬虫爬取百度搜狗图片持久化存储

1.图片下载 # 百度图片:http://image.baidu.com/# 搜狗图片:https://pic.sogou.com/ # 图片爬取:1).寻找图片下载的url: elements与network抓包2).浏览器中访问url, 进行验证3).编写代码获取url4).请求url地址, 获取二进制流5).将二进制流写入文件 # 百度图片:import timeimport requestsfrom lxml import etreefrom selenium import webdri

Python爬虫爬取百度贴吧的帖子

同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python#_*_coding:utf-8_*_import urllibimport urllib2import reimport sys reload(sys)sys.setdefaultencoding("utf-8")#处理页面标签,去除图片.超链接.换行符等class Tool: #去除img标签,7位长空格 removeImg = re.compile('<img.*

python爬虫—爬取百度百科数据

爬虫框架:开发平台 centos6.7 根据慕课网爬虫教程编写代码 片区百度百科url,标题,内容 分为4个模块:html_downloader.py 下载器 html_outputer.py 爬取数据生成html模块 html_parser 获取有用数据 url_manager url管理器 spider_main 爬虫启动代码 spider_main.py 1 #!/usr/bin/python 2 #-*- coding: utf8 -*- 3 4 import html_download

爬虫爬取百度词条

页面是随时升级的,所以现在的链接不代表以后的链接,但是万变不离其宗,只要学会解析页面,那么就能走的更远. 码云链接:https://gitee.com/ALADL/baike_spider.git from baike_spider import url_manager,html_downloader, html_parser, html_outputer class SpiderMain(object): def __init__(self): # 初始化各个对象 self.urls = ur

Python爬虫-爬取百度贴吧帖子

这次主要学习了替换各种标签,规范格式的方法.依然参考博主崔庆才的博客. 1.获取url 某一帖子:https://tieba.baidu.com/p/3138733512?see_lz=1&pn=1 其中https://tieba.baidu.com/p/3138733512?为基础部分,剩余的为参数部分. http://  代表资源传输使用http协议 tieba.baidu.com 是百度的二级域名,指向百度贴吧的服务器. /p/3138733512 是服务器某个资源,即这个帖子的地址定位符

java网络爬虫爬取百度新闻

采用commons-httpclient commons-httpclient是一个遗留版本,现在官方已经不推荐使用了. lucene采用4.3版本 所需jar包 package com.lulei.util; import java.io.BufferedReader; import java.io.ByteArrayInputStream; import java.io.File; import java.io.IOException; import java.io.InputStream;

爬虫 -----爬取百度时事热点和url

使用scrapy top.py    爬虫主要工作 pipelines.py    数据保存 main.py   执行脚本 items.py   初始化item 原文地址:https://www.cnblogs.com/wozuilang-mdzz/p/9736497.html