人民法院重大事件抓取

时间:2017-8-3 23:30

Url:http://www.court.gov.cn

py3.4 + mysql + win7

import urllib.request
import re
import pymysql
from time import sleep
try:
    con = pymysql.connect(host = ‘127.0.0.1‘,user = ‘root‘,passwd=‘root‘)
    con.query(‘create database PeopleCourt‘)
    con = pymysql.connect(host = ‘127.0.0.1‘,user = ‘root‘,passwd=‘root‘,db = ‘PeopleCourt‘)
except:
    con = pymysql.connect(host = ‘127.0.0.1‘,user = ‘root‘,passwd=‘root‘,db = ‘PeopleCourt‘)
try:
    con.query(‘create TABLE lawcase(title char(100),url char(100),time char(50))‘)
except:
    print(‘Table existed‘)

url_row = ‘http://www.court.gov.cn/fabu-gengduo-15.html?page=1‘
header = {‘User-Agent‘:‘Mozilla/5.0‘}
req = urllib.request.Request(url_row,headers=header)
res = urllib.request.urlopen(req)
data = res.read().decode()
reg_page = re.compile(‘<li class="last"><a href="/fabu-gengduo-15\.html\?page=(.*?)">‘).findall(data)
print(‘page:‘+str(reg_page[0]))
for page in range(1,int(reg_page[0])+1):
    print(‘Grab page:‘+str(page))
    url = ‘http://www.court.gov.cn/fabu-gengduo-15.html?page=‘+str(page)
    req = urllib.request.Request(url,headers=header)
    res = urllib.request.urlopen(req)
    data = res.read().decode()
    reg_item_string = ‘<a title="(.*?)" target="_blank" href="(.*?)">.*?</a>.*?<i class="date">(.*?)</i>‘
    reg_item = re.compile(reg_item_string,re.S).findall(data)
    for item in reg_item:
        title = item[0].replace(‘\n‘,‘‘)
        Url = ‘http://www.court.gov.cn‘+item[1]
        time = item[2]
        sql = "insert INTO lawcase(title,url,time) VALUES (‘"+title+"‘,‘"+Url+"‘,‘"+time+"‘)"
        con.query(sql)
    sleep(2)
print(‘Ok‘)

数据库截图:

时间: 2024-10-03 13:29:52

人民法院重大事件抓取的相关文章

抓取第三方广告弹窗里的控件事件-测试成功

由于应用里面添加了弹窗的广告,但是为.a的库文件,出于好奇想抓取弹窗广告内的控件事件,于是写了如下代码测试,成功! for (id obj in [[[UIApplication sharedApplication] keyWindow] subviews]) { NSLog(@"Class Name[%s]", object_getClassName(obj)); NSString * str = [NSString stringWithFormat:@"%s",

为何大量网站不能抓取?爬虫突破封禁的6种常见方法

在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长.今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots).最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息. 本文假定读者已经了解如何用代码来抓取一个远程的 URL,并具备表单如何提交及 JavaScript 在浏览器如何运行的机制.想更多了解网络数据采集基础知识,可以参考文后的资料. 在采集网站的时会遇到一些比

c#抓取动态页面WebBrowser

在ajax横行的年代,很多网页的内容都是动态加载的,而我们的小爬虫抓取的仅仅是web服务器返回给我们的html,这其中就 跳过了js加载的部分,也就是说爬虫抓取的网页是残缺的,不完整的,下面可以看下博客园首页 从首页加载中我们看到,在页面呈现后,还会有5个ajax异步请求,在默认的情况下,爬虫是抓取不到这些ajax生成的内容的, 这时候要想获取就必须调用浏览器的内核引擎来下载这些动态页面,目前内核引擎三足鼎立. Trident: 也就是IE内核,WebBrowser就是基于该内核,但是加载性内比

基于angularJs的单页面应用seo优化及可抓取方案原理分析

公司使用angularJs(以下都是指ng1)框架做了互联网应用,之前没接触过seo,突然一天运营那边传来任务:要给网站做搜索引擎优化,需要研发支持.搜了下发现单页面应用做seo比较费劲,国内相关实践资料分享出来的也比较少,略懵,前后花了一番功夫总算完成了.在这里记录下来,做一个总结,也希望能够帮助在做类似工作的朋友少走一点弯路.还是建议需要seo的网站技术选型尽量不要使用angular react一类的单页面框架.如果你和我一样网站做完了发现需要seo,那么往下看吧.如果各位已有更优的方案欢迎

抓取网页中的内容、如何解决乱码问题、如何解决登录问题以及对所采集的数据进行处理显示的过程

本文主要介绍如何抓取网页中的内容.如何解决乱码问题.如何解决登录问题以及对所采集的数据进行处理显示的过程.效果如下所示: 1.下载网页并加载至HtmlAgilityPack 这里主要用WebClient类的DownloadString方法和HtmlAgilityPack中HtmlDocument类LoadHtml方法来实现.主要代码如下. var url = page == 1 ? "http://www.cnblogs.com/" : "http://www.cnblogs

网易新闻页面信息抓取 -- htmlagilitypack搭配scrapysharp

最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决定试一试~ 于是到https://www.nuget.org/packages/ScrapySharp去看看, 看到这句下载提示:To install ScrapySharp, run the following command in the Package Manager Console PM> Install-Package ScrapySharp 接下去我就去找package man

[Android]Android日志抓取软件测试

1. log文件分类简介 1. 实时打印: 1.1 logcat main(应用程序) -- adb logcat -b main -v time > app.log 1.2 logcat radio(射频相关-SIMSTK,modem相关的ATcommand) -- adb logcat -b radio -v time > radio.log 1.3 logcat events(系统事件的日志,比如触屏事件等) -- adb logcat -b events -v time 1.4 tcp

python爬虫:使用urllib.request和BeautifulSoup抓取新浪新闻标题、链接和主要内容

案例一 抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSoup import requests url = 'http://news.sina.com.cn/china/' web_data = requests.get(url) web_data.encoding = 'utf-8' soup = BeautifulSoup(web_data.text,'

使用Apache Flume抓取数据(1)

使用Apache Flume抓取数据,怎么来抓取呢?不过,在了解这个问题之前,我们必须明确ApacheFlume是什么? 一.什么是Apache Flume Apache Flume是用于数据采集的高性能系统 ,名字来源于原始的近乎实时的日志数据采集工具,现在广泛用于任何流事件数据的采集,支持从很多数据源聚合数据到HDFS. 最初由Cloudera开发 ,在2011年贡献给了Apache基金会 ,在2012年变成了Apache的顶级项目,Flume OG升级换代成了Flume NG. Flume