python爬虫抓取51cto博客大牛的文章保存到MySQL数据库

脚本实现:获取51cto网站某大牛文章的url,并存储到数据库中。

#!/usr/bin/env python
#coding:utf-8
from  bs4  import  BeautifulSoup
import urllib
import re
import MySQLdb
k_art_name = []
v_art_url = []
db = MySQLdb.connect(‘192.168.115.5‘,‘blog‘,‘blog‘,‘blog‘)
cursor = db.cursor()
for page in range(1,5):
page = str(page)
url = ‘http://yujianglei.blog.51cto.com/all/7215578/page/‘  + page
request = urllib.urlopen(url)
response = request.read()
response = unicode(response,‘GBK‘).encode(‘UTF-8‘)
soup = BeautifulSoup(response,‘html.parser‘)
a_tag = soup.find_all(href=re.compile("^/\d{7,}/\d{7,}$"))
for i  in a_tag:
art_name = i.string
art_url  = ‘http://yujianglei.blog.51cto.com‘ + i[‘href‘]
k_art_name.append(art_name)
v_art_url.append(art_url)
if  len(k_art_name) == len(v_art_url):
number1 = len(k_art_name)
number2 = len(v_art_url)
for j in range(number1):
a = k_art_name[j]
b = v_art_url[j]
print a,b
sql = ‘‘‘INSERT   INTO    blog_51cto  (art_name,art_url)  VALUES ("%s","%s")‘‘‘   %(a,b)
try:
cursor.execute(sql)
db.commit()
except Exception, e:
print e
db.rollback()
else:
print   ‘k_art_name:‘,   len(k_art_name)
print   ‘v_art_url:‘ ,   len(v_art_url)
cursor.close()
db.close()

# insert  into  blog_51cto   (art_name,art_url)  VALUES ("oracle 手动归档、自动归档、归档位置、归档进程","http://yujianglei.blog.51cto.com/7215578/1560485")
#CREATE DATABASE blog;
#CREATE TABLE `blog_51cto` (
#   `id` int(11) NOT NULL AUTO_INCREMENT,
#   `art_name` varchar(500) DEFAULT NULL,
#   `art_url` varchar(500) DEFAULT NULL,
#   PRIMARY KEY (`id`)
# ) ENGINE=InnoDB AUTO_INCREMENT=1609 DEFAULT CHARSET=utf8;
时间: 2024-10-20 06:16:20

python爬虫抓取51cto博客大牛的文章保存到MySQL数据库的相关文章

python爬虫抓取51cto博客大牛的文章名和文章url

脚本一: #!/usr/bin/env python #coding:utf-8 from  bs4  import  BeautifulSoup import urllib import re art = {} for page in range(1,5): page = str(page) url = 'http://yujianglei.blog.51cto.com/all/7215578/page/'  + page response = urllib.urlopen(url).read

Python爬虫抓取csdn博客

昨天晚上为了下载保存某位csdn大牛的全部博文,写了一个爬虫来自动抓取文章并保存到txt文本,当然也可以 保存到html网页中.这样就可以不用Ctrl+C 和Ctrl+V了,非常方便,抓取别的网站也是大同小异. 为了解析抓取的网页,用到了第三方模块,BeautifulSoup,这个模块对于解析html文件非常有用,当然也可以自己使用正则表达式去解析,但是比较麻烦. 由于csdn网站的robots.txt文件中显示禁止任何爬虫,所以必须把爬虫伪装成浏览器,而且不能频繁抓取,得sleep一会再抓,使

python爬虫爬取csdn博客专家所有博客内容

python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 结果如下: 版权声明:本文为博主原创文章,未经博主允许不得转载.

抓取指定博客的内容

1.指定博客的地址 周国平的博客地址:http://blog.sina.com.cn/s/articlelist_1193111400_0_1.html 打开上述链接,然后按F12,找到<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_471d6f680102x7cu.html">太现实的爱情算不上爱情</a> 2.代码的实现 指定的网址为:h

python 爬虫抓取心得

quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quote('要编码的字符串') query = urllib.quote(singername) url = 'http://music.baidu.com/search?key='+query response = urllib.urlopen(url) text = response.read()

Python爬虫抓取网页图片

本文通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地. 下面就看看如何使用python来实现这样一个功能. # -*- coding: utf-8 -*- import urllib import re import time import os #显示下载进度 def schedule(a,b,c): ''''' a:已经下载的数据块 b:数据块的大小 c:远程文件的大小 ''' per = 100.0 * a * b / c if per > 100 : per =

python爬虫抓取站长之家IP库,仅供练习用!

python爬虫抓取站长之家IP库,单线程的,仅供练习,IP库数据有43亿条,如果按此种方法抓取至少得数年,所以谨以此作为练手,新手代码很糙,请大家见谅. #!/usr/bin/python #coding=UTF-8 import urllib2 import re import os import csv import codecs user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = { 'User-

python 爬虫抓取心得分享

/** author: insun title:python 爬虫抓取心得分享 blog:http://yxmhero1989.blog.163.com/blog/static/112157956201311821444664/ **/    0x1.urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quote('要编码的字符串') query = urllib.quote(singername) url = 'h

Python scrapy爬虫数据保存到MySQL数据库

除将爬取到的信息写入文件中之外,程序也可通过修改 Pipeline 文件将数据保存到数据库中.为了使用数据库来保存爬取到的信息,在 MySQL 的 python 数据库中执行如下 SQL 语句来创建 job_inf 数据表: CREATE TABLE job inf ( id INT (11) NOT NULL AUTO_INCREMENT PRIMARY KEY, title VARCHAR (255), salary VARCHAR (255), company VARCHAR (255),