爬取乌云上所有人民币和乌云符号的漏洞(python脚本)

  1 import httplib
  2 from HTMLParser import HTMLParser
  3 import urlparse
  4 import urllib
  5 from bs4 import BeautifulSoup
  6 import re
  7 from time import sleep
  8 ‘‘‘
  9 usage:
 10
 11
 12 input your wooyun cookies,then just go crawl!!
 13
 14 author: Elliott
 15
 16
 17 ‘‘‘
 18
 19
 20
 21
 22 domain = ‘wooyun.org‘
 23 cookies = ‘‘  # !!!!here   input your wooyun cookies
 24 user_agent = ‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:29.0) Gecko/20100101 Firefox/29.0‘
 25
 26
 27
 28 def countnumber():  # the function to get page num
 29     global domain
 30     global cookies
 31     global user_agent
 32     conn = httplib.HTTPConnection(domain)
 33     conn.request(‘GET‘,‘/user.php?action=openbugs‘,‘‘,{‘Cookie‘:cookies,‘User-Agent‘:user_agent,‘Referer‘:‘http://wooyun.org/index.php‘,‘Host‘:‘wooyun.org‘})
 34     content = conn.getresponse()
 35     content = content.read()
 36     soup = BeautifulSoup(content)
 37     tag = soup.find_all(‘p‘,attrs={‘class‘:‘page‘})
 38     if len(tag) == 0:
 39         tag = ‘None‘
 40     else:
 41         tag = str(tag[0])
 42     pattern = re.compile(‘>.*<a class=\"current\">‘)
 43     result = pattern.findall(tag)
 44     if len(result) == 0:
 45         result = ‘None‘
 46     else:
 47         result = str(result[0])
 48     number = filter(str.isdigit, result)
 49     num = number[5:]  #get then total page number
 50     return int(num)
 51
 52
 53 def dealthepage(content):
 54     global domain
 55     global cookies
 56     global user_agent
 57     conn = httplib.HTTPConnection(domain)
 58     soup = BeautifulSoup(content)
 59     k = soup.find_all(‘a‘)
 60     item = k[27:47]
 61     pattern = re.compile(‘href=\"(.+?)\"‘)
 62     hreaf = []
 63     for i in range(len(item)):
 64     ss = pattern.findall(str(item[i]))
 65         if len(ss) == 0:
 66             break
 67     hreaf.append(str(ss[0]))
 68     for i in hreaf:
 69         #sleep(0.5)
 70     conn.request(‘GET‘,i,‘‘,{‘Cookie‘:cookies,‘User-Agent‘:user_agent,‘Referer‘:‘http://wooyun.org/index.php‘,‘Host‘:‘wooyun.org‘})
 71     content2 = conn.getresponse()
 72     content2 = content2.read()
 73     soup2 = BeautifulSoup(content2)
 74     imgtag = soup2.find_all(class_=‘credit‘)
 75     ‘‘‘may be $ or cloud‘‘‘
 76     if len(imgtag) != 0:
 77         findcloud = re.compile(‘src=\"\/images\/credit\.png\"‘)
 78         findmoney = re.compile(‘src=\"\/images\/m(.?)\.png\"‘)
 79         cloudnum = findcloud.findall(content2)
 80         moneylevel = findmoney.findall(content2)
 81         cloud = 0
 82         money = 0
 83         if len(cloudnum) != 0:
 84             if len(cloudnum) == 1:
 85                 cloud = 1
 86             if len(cloudnum) == 2:
 87                 cloud = 2
 88             if len(cloudnum) == 3:
 89                 cloud = 3
 90         if len(moneylevel) != 0:
 91             if len(moneylevel) == 1:
 92                 money = 1
 93             if len(moneylevel) == 2:
 94                 money = 2
 95             if len(moneylevel) == 3:
 96                 money = 3
 97         title = soup2.findAll(attrs={"class":"wybug_title"})
 98         if len(title) == 0:
 99             title = ‘No Title‘
100         else:
101             title = str(title[0])
102         deltag = re.compile(‘r<[^>]+>‘)
103         title = deltag.sub(‘‘,title)
104         author = soup2.findAll(attrs={"class":"wybug_author"})
105         if len(author) == 0:
106             author = ‘No name‘
107         else:
108             author = str(author[0])
109         author = deltag.sub(‘‘,author)
110         date = soup2.findAll(attrs={"class":"wybug_date"})
111         if len(date) == 0:
112             date = ‘No time‘
113         else:
114             date = str(date[0])
115         date = deltag.sub(‘‘,date)
116         link = "http://www.wooyun.org"+i
117         link = str(link)
118         f = open("test.html","a+")
119         s = "<tr><td>level:cloud="+str(cloud)+"money="+str(money)+"</td><th>"+date+"</th><td><a href=‘"+link+"‘>"+title+"</a></td><th>"+author+"</th></tr><br>"
120         f.write(s)
121         f.close
122
123
124
125
126
127
128 if __name__ == ‘__main__‘:
129     num = countnumber()  #get page num
130     for i in range(num):
131         conn = httplib.HTTPConnection(domain)
132         conn.request(‘GET‘,‘/user.php?action=openbugs&pNO=‘+str(i+1),‘‘,{‘Cookie‘:cookies,‘User-Agent‘:user_agent,‘Referer‘:‘http://wooyun.org/index.php‘,‘Host‘:‘wooyun.org‘})
133         content = conn.getresponse()
134         content = content.read()
135         dealthepage(content)
136
137
138
139
140
141     

附章效果图:

时间: 2024-10-05 14:33:21

爬取乌云上所有人民币和乌云符号的漏洞(python脚本)的相关文章

使用python爬取MedSci上的影响因子排名靠前的文献

使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn/sci的交互过程.可以使用谷歌或火狐浏览器的“审查元素-->Network”,然后就可以看到操作页面就可以看到网站的交互信息.当在网页上点击“我要查询”时,网页会发送一个POST消息给服务器,然后,服务器返回查询结果 然后,将查询到的结果使用正则表达式提取出需要的数据. 最后将提取出的数据输出到文

Python编写网页爬虫爬取oj上的代码信息

OJ升级,代码可能会丢失. 所以要事先备份. 一开始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启发和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 python2.7版本, 试了一下修改到3.0版本, 要做很多包的更替,感觉比较烦,所以索性就在这个2.7版本上完善了. 首先观赏一下原始代码,我给加了一些注释: # -*- coding: cp936 -*- import urllib2 import urllib import re import

用Python爬取网页上的小说,让你从此告别书荒!

人生苦短,我用Python.有道爱看小说的小伙伴们,在看小说的期间总会遇到那么一段书荒期,在这段期间想看书却找不到,要么就是要VIP,要么就是下载不了.所以学会爬取网站上的小说是很有必要的,今天就以爬取笔趣阁小说为例,进行网页上小说的爬取.首先当我们打开笔趣阁的网页时,我们会看到很多的小说列表,如下图所示: ? 就拿爬取图上所示的小说来说,我们要进行以下的几个步骤: 爬取小说首先要构建请求表头: ? 然后我们的获取下载链接: ? 接下来我们进行文章内容的爬取: ? 最后我们将爬取来的小说写入到文

1-3 爬取微博上电影主题的热度(主题的阅读数和讨论数)

1 weiboHeat.py 2 #-*- coding:utf-8 -*- 3 ''' 4 该脚本可以从wap版的微博网站上爬取热门电影的信息, 5 尤其是其中的电影主题讨论数和阅读数 6 ''' 7 import json 8 import requests 9 from pandas import DataFrame 10 import time 11 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleW

爬取豆瓣上某个用户标记的想读的图书信息

一,程序的功能和适用人群 程序的功能是爬取豆瓣用户标记的想读的图书,将图书信息保存为excel文件.适用于想备份在豆瓣上标记的图书的用户. 二,执行效果 程序执行后会得到一个excel文件,保存了用户想要读的图书信息,如下图: 三,技术路线 技术路线是选取用户在豆瓣上标记的想读的图书的首页url作为种子url,如下图 遍历这一页中所有的图书信息,通过每本图书链接抓取每本图书的具体信息,以下左图是首页的图书信息,右图是通过左图的链接进入的要爬取的具体的图书信息. 在爬取首页的url中的所有图书时,

C# 爬取网页上的数据

最近工作中需求定时爬取不同城市每天的温度.其实就是通过编程的方法去抓取不同网站网页进行分析筛选的过程..NET提供了很多类去访问并获得远程网页的数据,比如WebClient类和HttpWebRequest类.这些类对于利用HTTP去访问远端的网页并且下载下来是很有用的,但在对于所下载下来的HTML的解析能力方面,则显得功能很弱了.推荐一个开源的组件HTML Agility Pack(http://htmlagilitypack.codeplex.com/),它的设计目标是尽可能简化对HTML文档

爬取京东上商品的所有详细信息

项目介绍 使用python抓取京东商城商品(以手机为例)的详细信息,并将相应的图片下载下载保存到本地. 爬取步骤 1.选取种子URL:http://list.jd.com/list.html?cat=9987,653,655 2.使用urllib和urllib2下载网页 3.使用BeautifulSoup和re正则表达式解析html 4.保存数据 工具 python2.7 演示效果: 下载的图片: 下载示例: 名称: 摩托罗拉 Moto Z(XT1650-05) 模块化手机 流金黑 移动联通电信

谁说Python不能爬取APP上面的数据?看我把快手视频弄到手!

设置代理,重启,下一步,查看本机ip 手机打开网络设置 通过代理服务器: 设置好,刷新快手app 看到请求,去找自己要用的, 非了九牛二虎之力找到了. import requests,json url='http://124.243.249.4/rest/n/feed/hot?appver=5.7.5.508&did=EB3C5966-C50E-432D-801E-D7EB42964654&c=a&ver=5.7&sys=ios9.3.5&mod=iPhone7%2

java爬取网页上qq号,邮箱号等

import java.io.BufferedReader;import java.io.FileReader;import java.io.InputStreamReader;import java.net.URL;import java.net.URLConnection;import java.util.regex.Matcher;import java.util.regex.Pattern; public class GetMail { public static void main(S