python 抓取"一个"网站文章信息放入数据库

# coding:utf-8
import requests
from bs4 import BeautifulSoup
import json
import time
import datetime
import pymysql
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8‘)

# 获取文章内容方法
def getartinfo( url ):
page = requests.get(url).content
soup = BeautifulSoup(page,‘lxml‘)

res={}
res[‘curr‘] = soup.find(‘div‘,class_="comilla-cerrar").string.strip()
res[‘title‘] = soup.find(‘h2‘,class_="articulo-titulo").string.strip()
res[‘auchor‘] = soup.find(‘p‘,class_="articulo-autor").string.strip()
res[‘contents‘] =soup.find(‘div‘,class_="articulo-contenido")
res[‘add_time‘] = (int)(time.time())
return res

# 获取问答内容方法
def getqueinfo( url ):
page = requests.get(url).content
soup = BeautifulSoup(page,‘lxml‘)

res={}
res[‘title‘] = soup.find(‘h4‘).string.strip()
res[‘curr‘] = soup.find(‘div‘,class_="cuestion-contenido").string.strip()
res[‘auchor‘] = soup.find(‘p‘,class_="cuestion-editor").string.strip()
res[‘contents‘] =soup.find_all(‘div‘,class_="cuestion-contenido")[1]
res[‘add_time‘] = (int)(time.time())
return res

# 抓取“一个每日文章和问答”
url = "http://wufazhuce.com/"
page = requests.get(url).content
soup = BeautifulSoup(page,‘lxml‘)

# 每日文章
art_list = soup.find_all("p", class_="one-articulo-titulo")
art_url = art_list[0].a.get(‘href‘)

artinfo = getartinfo(art_url)

# 每日问答
que_list = soup.find_all("p", class_="one-cuestion-titulo")
que_url = que_list[0].a.get(‘href‘)

queinfo = getqueinfo(que_url)
que_list = list(queinfo.values())

conn = pymysql.connect(host=‘localhost‘,port=3306,user=‘root‘,password=‘root‘,db=‘one‘,charset=‘utf8‘)
cursor = conn.cursor()
cursor.execute("INSERT INTO day_art(title,curr,author,contents,add_time)VALUES(‘{0}‘,‘{1}‘,‘{2}‘,‘{3}‘,‘{4}‘);".format(artinfo[‘title‘],artinfo[‘curr‘],artinfo[‘auchor‘],artinfo[‘contents‘],artinfo[‘add_time‘]))
cursor.execute("INSERT INTO day_art(title,curr,author,contents,add_time)VALUES(‘{0}‘,‘{1}‘,‘{2}‘,‘{3}‘,‘{4}‘);".format(queinfo[‘title‘],queinfo[‘curr‘],queinfo[‘auchor‘],queinfo[‘contents‘],queinfo[‘add_time‘]))
conn.commit()
cursor.close()
conn.close()
print ‘ok‘

原文地址:http://blog.51cto.com/itafei/2074211

时间: 2024-12-11 14:26:11

python 抓取"一个"网站文章信息放入数据库的相关文章

python 抓取电影天堂电影信息放入数据库

# coding:utf-8 import requests from bs4 import BeautifulSoup from multiprocessing import Pool import urllib2 import re import json import chardet import pymysql # url = "http://dytt8.net/" # page = requests.get(url).content # page_html = Beautif

Java爬虫实战(一):抓取一个网站上的全部链接

前言:写这篇文章之前,主要是我看了几篇类似的爬虫写法,有的是用的队列来写,感觉不是很直观,还有的只有一个请求然后进行页面解析,根本就没有自动爬起来这也叫爬虫?因此我结合自己的思路写了一下简单的爬虫,测试用例就是自动抓取我的博客网站(http://www.zifangsky.cn)的所有链接. 一 算法简介 程序在思路上采用了广度优先算法,对未遍历过的链接逐次发起GET请求,然后对返回来的页面用正则表达式进行解析,取出其中未被发现的新链接,加入集合中,待下一次循环时遍历. 具体实现上使用了Map<

无比强大!Python抓取cssmoban网站的模版并下载

Python实现抓取http://www.cssmoban.com/cssthemes网站的模版并下载 实现代码 # -*- coding: utf-8 -*- import urlparse import urllib2 import re import os import os.path URL='http://www.cssmoban.com/cssthemes' #全局超时设置 urllib2.socket.setdefaulttimeout(500) #根据url获取内容 def ge

抓取一个网站的所有网址链接

作者QQ:231469242 关键字:爬虫,网址抓取,python 测试 url=http://db.yaozh.com/ import requests,bs4,re url="http://db.yaozh.com/" def getLinks(url): res = requests.get(url) soup = bs4.BeautifulSoup(res.text,"lxml") links = [] for link in soup.findAll('a

python抓取内涵段子文章

# coding:utf-8 from urllib.request import urlretrieve import threading import requests from bs4 import BeautifulSoup from datetime import datetime import pymysql import random import json import time number=0 def GetArticel(): max_time = 1519404642 d

使用python抓取CSDN关注人的所有发布的文章

# -*- coding: utf-8 -*- """ @author: jiangfuqiang """ import re import urllib2 import cookielib import time def startParser(author,page=1): reg = r'<a href="/\w+/article/details/\d+">\s*\t*\n*\s*\t*\s*.*?\t*\n

使用python抓取CSDN关注人的全部公布的文章

# -*- coding: utf-8 -*- """ @author: jiangfuqiang """ import re import urllib2 import cookielib import time def startParser(author,page=1): reg = r'<a href="/\w+/article/details/\d+">\s*\t*\n*\s*\t*\s*.*?\t*\n

Java爬虫实战(二):抓取一个视频网站上2015年所有电影的下载链接

前言:这是Java爬虫实战的第二篇文章,在第一篇文章仅仅只是抓取目标网站的链接的基础上,进一步提高难度,抓取目标页面上我们所需要的内容并保存在数据库中.这里的测试案例选用了一个我常用的电影下载网站(http://www.80s.la/).本来是想抓取网站上的所有电影的下载链接,后来感觉需要的时间太长,因此改成了抓取2015年电影的下载链接. 注:文末有我抓取到的整个列表的下载链接(包括:电影名称和迅雷下载链接) 一 原理简介 其实原理都跟第一篇文章差不多,不同的是鉴于这个网站的分类列表实在太多,

Python抓拍博客园文章,并存入数据库

在学习python后,想做个爬虫,抓取博客园文章. 爬虫思路很简单,模拟浏览器访问网页,得到网页的html代码,再根据页面结构,从html中提取自己需要的内容. 本文代码主要分为3个部分: 1.读取博客园首页文章链接. https://www.cnblogs.com/是博客园的首页,列出了文章,分析页面内容,读取文章的链接. 这需要看页面的结构,可以使用浏览器,再浏览页面代码,选择元素,看界面上选中哪一部分,根据自己的需要,可以看到对应模块的代码. 2.对于每个页面,分析页面内容. 这需要看页面