爬取崔庆才大神的爬虫教程,最后存储到mysql

# -*- coding: utf-8 -*-#coding:utf8import requests,time,unittestfrom lxml import etreeimport pymysqlurl =‘http://cuiqingcai.com/1052.html‘

head = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36",        "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",        "Accept-Encoding":"gzip, deflate",        "Accept-Language":"zh-CN,zh;q=0.8"

}html = requests.get(url)

selector = etree.HTML(str(html.text))

r = selector.xpath("/html/body/section/div[3]/div/article/p/a/text()")t = selector.xpath("/html/body/section/div[3]/div/article/p/a/@href")#print(r)#print(t)

now = str(time.strftime(‘%Y-%m-%d-%H-%M‘,time.localtime(time.time())))

class datas(object):

def Data_storage(self,dt):

for each in dt:            self.uid=",".join(each).split(‘,‘)[0]            self.uname=",".join(each).split(‘,‘)[1]            self.ulink=",".join(each).split(‘,‘)[2]            uid="\‘"+str(self.uid)+"\‘"            uname="\‘"+str(self.uname)+"\‘"            ulink="\‘"+str(self.ulink)+"\‘"            time="\‘"+str(now)+"\‘"            r="\‘"+str(‘ggg‘)+"\‘"

#print(uid,uname,ulink,r,time)

conn=pymysql.connect(host=‘192.168.191.1‘,user=‘root‘,passwd=‘123456789‘,db=‘data‘,port=3306,charset=‘utf8‘)            cur=conn.cursor()#获取一个游标            sql =‘‘‘INSERT INTO xxb(id,name,remark,link,time)VALUES(%s,%s,%s,%s,%s)‘‘‘%(uid,uname,r,ulink,time)

cur.execute(sql)            cur.execute(‘select * from xxb‘)#执行查询sql语句+            data=cur.fetchall()#执行查询后获取的数据赋值给data变量,每次查到的数据是上一个sql语句的结果,如果要重新查询别的数据,则要在上面重新写个sql查询语句

cur.close()#关闭游标            conn.commit()#事务提交            conn.close()#释放数据库资源

def Data_processing(self):        a=[]        for i in  range(1,31):            a.append(str(i))        dt = list(zip(a,r,t))        self.Data_storage(dt)

if __name__=="__main__":    gg = datas()    gg.Data_processing()
时间: 2024-08-28 03:19:16

爬取崔庆才大神的爬虫教程,最后存储到mysql的相关文章

用pyquery 初步改写崔庆才的 抓取猫眼电影排行(正在更新)特意置顶,提醒自己更新

目前正在学Python爬虫,正在读崔庆才的<Python3网络爬虫开发实战>,之前学习正则表达式,但是由于太难,最后放弃了(学渣的眼泪....),在这本书上的抓取猫眼电影排行上,后来自学了pyquery,发现用pyquery可以解决这个问题,目前自己试着写了代码 这个是抓取一页的情况的代码(没有图的链接以及排名还有其他90页的情况) import requests from pyquery import PyQuery as pq def get_one_page(url): headers

Python 3网络爬虫开发实战.pdf(崔庆才著)

内容简介  · · · · · · 本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib.requests.正则表达式.Beautiful Soup.XPath.pyquery.数据存储.Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实现数据爬取,后介绍了pyspider框架.Scrapy框架和分布式爬虫. 本书适合Python程序员阅读. 作者简介  · · · · · · 崔庆才 北京航空航天大学硕士,静觅博客(https:/

分享百度云链接 Python 3网络爬虫开发实战 ,崔庆才著

分享百度云链接 Python 3网络爬虫开发实战 ,崔庆才著 百度云链接: https://pan.baidu.com/s/1cIB7etdwh8_eybTiatDbQQ 原文地址:http://blog.51cto.com/11018611/2326618

《Python3网络爬虫实战案例(崔庆才著)》 中文版PDF下载,附源代码+视频教程

<Python3网络爬虫实战案例(崔庆才著)>中文版PDF下载,附源代码+视频教程,带目录资料下载:https://pan.baidu.com/s/1OzxyHQMLOzWFMzjdQ8kEqQ 原文地址:http://blog.51cto.com/7369682/2330247

崔庆才python爬虫教程

崔庆才python爬虫教程全套资源,免费获取!(获取方式见下) 课程列表: 现在关注公众号:小熊学python,回复:“崔庆才爬虫”,即可免费获取! 崔庆才python爬虫教程全套资源! 原文地址:https://www.cnblogs.com/dylan123/p/12272754.html

爬取校花网大学校花代码

import re import os import requests count = 0 for i in range(10): url = f"http://www.xiaohuar.com/list-1-{count}.html" response = requests.get(url) data = response.text result_list = re.findall('src="(.*?)" /></a>',data) # pri

scrapy 爬取知乎问题、答案 ,并异步写入数据库(mysql)

  python版本  python2.7 爬取知乎流程: 一 .分析 在访问知乎首页的时候(https://www.zhihu.com),在没有登录的情况下,会进行重定向到(https://www.zhihu.com/signup?next=%2F)这个页面, 爬取知乎,首先要完成登录操作,登陆的时候观察往那个页面发送了post或者get请求.可以利用抓包工具来获取登录时密码表单等数据的提交地址. 1.利用抓包工具,查看用户名密码数据的提交地址页就是post请求,将表单数据提交的网址,经过查看

爬取京东商品信息和评价的爬虫实现源码

话不多说,直接上源码: var keyword = "d3.js";//@input(keyword, 查询关键字, 爬取该关键字搜索出来的京东商品) var comment_count = 100;//@input(comment_count, 爬取的评论数, 最多爬取多少条评论) var page_count = comment_count / 10; keyword = keyword.trim(); var scanUrls = []; scanUrls.push("

【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验

一.写在前面 之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对IP的检测.本文介绍的是利用Redis数据库实现的分布式爬虫,Redis是一种常用的菲关系型数据库,常用数据类型包括String.Hash.Set.List和Sorted Set,重要的是Redis支持主从复制,主机能将数据同步到从机,也就能够实现读写分离.因此我们可以利用Redis的特性,借助req