012 Python 爬虫项目1

# Python 爬虫项目1
  ● Python 网页请求
    requests
      POST
      GET

    网页状态码

1 # -*- coding: UTF-8 -*-
2 from bs4 import BeautifulSoup
3 import requests
4
5 url = "http://www.baidu.com"
6 unknow = requests.get(url)
7 print(type(unknow))
8 print(unknow)

    

    通过标签匹配内容

 1 # -*- coding: UTF-8 -*-
 2 from bs4 import BeautifulSoup
 3 import requests
 4
 5 url = "http://zz.ganji.com/fang1/"
 6 r = requests.get(url)
 7 soup = BeautifulSoup(r.text,‘lxml‘)
 8 for item in soup.find_all(‘dd‘):
 9     if item[‘class‘] == [‘dd-item‘,‘title‘]:
10         #print(item)
11         print(item.a.string)
12         print("----------------------------------------------------")

    通过浏览器复制 copy selector

  

 1 # -*- coding: UTF-8 -*-
 2 from bs4 import BeautifulSoup
 3 import requests
 4
 5 url = "http://zz.ganji.com/fang1/"
 6 r = requests.get(url)
 7 soup = BeautifulSoup(r.text,‘lxml‘)
 8
 9 #价格获取
10 title = soup.select(‘dl > dd.dd-item.info > div.price > span.num‘)
11 print(title)
12
13 title2 = soup.select(‘dl > dd.dd-item.size > span.first.js-huxing‘)
14 print(title2)

1 title = soup.select(‘dl > dd.dd-item.info > div.price > span.num‘)
2 print(title)
3 print(type(title[0]))

  title 的类型还是 标签 Tag

    soup.body.div.div.a 方式获取

1 # -*- coding: UTF-8 -*-
2 from bs4 import BeautifulSoup
3 import requests
4
5 url = "http://zz.ganji.com/fang1/"
6 r = requests.get(url)
7 soup = BeautifulSoup(r.text,‘lxml‘)
8 print(soup.body.div.div.a)

 1 from bs4 import BeautifulSoup
 2 import requests
 3
 4 def isdiv(tag):
 5     return tag.name == ‘div‘
 6
 7 url = "http://zz.ganji.com/fang1/"
 8 r = requests.get(url)
 9 soup = BeautifulSoup(r.text,‘lxml‘)
10
11 value = soup.find_all(isdiv)
12 print(value)

    python 使用代理发送网页请求

1 import requests
2 proxies = { "http": "http://10.10.1.10:3128", "https": "http://10.10.1.10:1080", }
3 requests.get("http://example.org", proxies=proxies)  
时间: 2024-12-12 06:04:16

012 Python 爬虫项目1的相关文章

32个Python爬虫项目让你一次吃到撑

整理了32个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1]- 微信公众号爬虫.基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典. DouBanSpider [2]- 豆瓣读书爬虫.可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分

python爬虫项目(新手教程)之知乎(requests方式)

-前言 之前一直用scrapy与urllib姿势爬取数据,最近使用requests感觉还不错,这次希望通过对知乎数据的爬取为 各位爬虫爱好者和初学者更好的了解爬虫制作的准备过程以及requests请求方式的操作和相关问题.当然这是一个简单的爬虫项目,我会用重点介绍爬虫从开始制作的准备过程,目的是为了让和我一样自学的爬虫爱好者和初学者更多的了解爬虫工作. 一.观察目标网页模板和策略 很多人都忽略这一步,其实这一步最为重要,因为它决定了你将采取什么策略来获取数据,也可以评估出你能够做到什么程度 (1

Python爬虫项目--爬取链家热门城市新房

本次实战是利用爬虫爬取链家的新房(声明: 内容仅用于学习交流, 请勿用作商业用途) 环境 win8, python 3.7, pycharm 正文 1. 目标网站分析 通过分析, 找出相关url, 确定请求方式, 是否存在js加密等. 2. 新建scrapy项目 1. 在cmd命令行窗口中输入以下命令, 创建lianjia项目 scrapy startproject lianjia 2. 在cmd中进入lianjia文件中, 创建Spider文件 cd lianjia scrapy genspi

基于python爬虫项目,爬取某网站电子书,实战项目

1.主要反扒机制2.爬虫失败机制3.分析机制4.暂停续点爬取机制5.如需合作,请加我qq752477168,或者私信6.项目效果图 原文地址:https://blog.51cto.com/12119115/2453310

Python爬虫项目,获取所有网站上的新闻,并保存到数据库中,解析html网页等

1.需求说明 需求: 爬取虎嗅网站的所有新闻,并保存到数据库中. http://www.huxiu.com 技术: 1.爬虫 获取服务器的资源(urllib) 解析html网页(BeautifulSoup) 2.数据库技术 数据库 MySQLdb 业务逻辑的分析: (1).虎嗅网站的新闻,包括首页和分页信息(下一页) (2).需要从首页的资源和分页的资源中获取每个新闻的url连接 如何获取url: 解析网站html文件,如果A标签的href属性包含 article字段,就表示这是一个新闻 (3)

Python爬虫项目--爬取自如网房源信息

本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储 正文 1.分析目标站点 1. url: http://hz.ziroom.com/z/nl/z3.html?p=2 的p参数控制分页 2. get请求 2.获取单页源码 1 # -*- coding: utf-8 -*- 2 import requests 3 import time 4 from requests.exceptions import

23个Python爬虫开源项目代码:爬取微信、淘宝、豆瓣、知乎、微博等

来源:全球人工智能 作者:SFLYQ 今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [1]– 微信公众号爬虫. 基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典. github地址:https://github.com/Chyroc/WechatSogou 2.DouBanSpider [2]– 豆瓣

23个Python爬虫开源项目代码

今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [1]– 微信公众号爬虫. 基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典. github地址:https://github.com/Chyroc/WechatSogou 2.DouBanSpider [2]– 豆瓣读书爬虫. 可以爬下豆瓣读书标签下的所

python爬虫之细节小问题

AttributeError: QSBK instance has no attribute 'stories' 在python爬虫项目定义的地方发生错误如下图 中def _init_发生错误,应该是def __init__ 问题解决