python2.7 爬虫_爬取小说盗墓笔记章节及URL并导入MySQL数据库_20161201

1、爬取页面 http://www.quanshu.net/book/9/9055/

2、用到模块urllib（网页下载),re正则匹配取得title及titleurl,urlparse(拼接完整url),MySQLdb(导入MySQL）数据库

3、for 循环遍历列表取得盗墓笔记章节title 和 titleurl

4、try except 异常处理

5、python 代码

#-*-coding: utf-8 -*-
import urllib
import re
import urlparse
import MySQLdb
rooturl=‘http://www.quanshu.net/book/9/9055/‘
def getlist(url):
    html=urllib.urlopen(url).read()
    html=html.decode(‘gb2312‘).encode(‘utf-8‘)
    reg=r‘<li><a href="(.*?)" title=".*?">(.*?)</a></li>‘
    return re.findall(reg,html)
try:
    conn = MySQLdb.connect(host=‘localhost‘, user=‘root‘, passwd=‘123456‘, db=‘local_db‘, port=3306, charset=‘utf8‘)
    with conn:
        cursor = conn.cursor()
        drop_table_sql=‘DROP  TABLE IF EXISTS daomubiji‘
        cursor.execute(drop_table_sql)
        conn.commit()
        create_table_sql = ‘‘‘
           CREATE TABLE daomubiji (
           ID INT(11),
           title VARCHAR(255),
           titleurl VARCHAR(255)
           )ENGINE=INNODB DEFAULT CHARSET=utf8
        ‘‘‘
        cursor.execute(create_table_sql)
        conn.commit()
        urllist = getlist(rooturl)
        #href属性取得的url不完整 仅取出了完整url的右半段 因此下面for循环变量名起名righturl
        ID=0
        for righturl in urllist:
            title = righturl[1]
            newurl = righturl[0]
            #urlparse 模块的urlparse.urljoin方法将righturl 按照rooturl格式拼接成完整url
            titleurl = urlparse.urljoin(rooturl, newurl)
            ID+=1
            print ID,title, titleurl
            cursor.execute("INSERT INTO  daomubiji values(%s,%s,%s)", (ID,title, titleurl))
            conn.commit()
        print "输入了"+ str(ID) +"条数据"
except MySQLdb.Error:
    print "连接失败！"

代码执行情况：

6、MySQL数据库查询是否导入成功

SELECT * FROM daomubiji

7、执行成功

时间： 2024-10-11 02:48:11

python2.7 爬虫_爬取小说盗墓笔记章节及URL并导入MySQL数据库_20161201的相关文章

python爬虫：爬取易迅网价格信息，并写入Mysql数据库

本程序涉及以下方面知识: 1.python链接mysql数据库:http://www.cnblogs.com/miranda-tang/p/5523431.html 2.爬取中文网站以及各种乱码处理:http://www.cnblogs.com/miranda-tang/p/5566358.html 3.BeautifulSoup使用 4.原网页数据信息不全用字典的方式,把不存在的字段设置为空详细代码: #!/usr/bin/python # -*- encoding:utf-8 -*

Python实战项目网络爬虫之爬取小说吧小说正文

本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容链接:http://tieba.baidu.com/p/4792877734 首先,自己定义一个类,方便使用.其实类就像一个"水果篮",这个"水果篮"里有很多的"水果",也就是我们类里面定义的变量啊,函数啊等等,各种各样的.每一种"水果&q

Python爬虫：爬取小说并存储到数据库

爬取小说网站的小说,并保存到数据库第一步:先获取小说内容 #!/usr/bin/python # -*- coding: UTF-8 -*- import urllib2,re domain = 'http://www.quanshu.net' headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrom

爬虫练习-爬取小说

# 程序启动文件 start.py#!/usr/bin/python # -*- coding: utf-8 -*- import os, sys BASEPATH = os.path.dirname(os.path.dirname(os.path.realpath(__file__))) print(BASEPATH) sys.path.append(BASEPATH) from core import SpiderMan if __name__ == '__main__': s=Spider

Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页

1 . 什么是 AJAX ? AJAX = 异步 JavaScript 和 XML. AJAX 是一种用于创建快速动态网页的技术. 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新.这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新. 传统的网页(不使用 AJAX)如果需要更新内容,必需重载整个网页面. 几个常见的用到ajax的场景. 比如你在逛知乎,你没有刷新过网页,但是你却能看到你关注的用户或者话题有了新动态的消息提示. 还比如,我们在看视频时,可以看到下面

scrapy爬取小说盗墓笔记

# -*- coding: utf-8 -*- import scrapy import requests from daomu.items import DaomuItem from pyquery import PyQuery as pq class DaomuspiderSpider(scrapy.Spider): name = "daomuspider" # allowed_domains = ["www.daomubiji.com"] start_urls

python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇(转载)

转载出处:药少敏 ,感谢原作者清晰的讲解思路! 下述代码是我通过自己互联网搜索和拜读完此篇文章之后写出的具有同样效果的爬虫代码: 1 from bs4 import BeautifulSoup 2 import requests 3 4 if __name__ == '__main__': 5 html = requests.get('http://www.136book.com/huaqiangu/') 6 soup = BeautifulSoup(html.content, 'lxml'

Golang 简单爬虫实现，爬取小说

为什么要使用Go写爬虫呢? 对于我而言,这仅仅是练习Golang的一种方式. 所以,我没有使用爬虫框架,虽然其很高效. 为什么我要写这篇文章? 将我在写爬虫时找到资料做一个总结,希望对于想使用Golang写爬虫的你能有一些帮助. 爬虫主要需要解决两个问题: 获取网页解析网页如果这两个都无法解决的话就没法再讨论其他了. 开发一个爬取小说网站的爬虫会是一个不错的实践. 这是两个实例: Golang 简单爬虫实现 golang 用/x/net/html写的小爬虫,爬小说这是需要的两个项目: go

如何用python爬虫从爬取一章小说到爬取全站小说

前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun 很多好看的小说只能看不能下载,教你怎么爬取一个网站的所有小说知识点: requests xpath 全站小说爬取思路开发环境: 版本:anaconda5.2.0(python3.6.5) 编辑器:pycharm 第三方库: requests parsel 进行