python3 获取博彩网站页面下所有域名(批量)

已有的域名信息

详细实现过程如下

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup as Bs4
from urllib.parse import urlparse

headers= {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"
}

#打开域名文件1.txt
def new_url():
    url_list  = []
    bo = open("1.txt","r")
    for i in bo:
        url_list.append(i.replace("\n",""))
    return(url_list)

#数据处理
def get_url():
    head_url = new_url()
    num = 0
    for i in head_url: #按行遍历数据
        num = num +1
        print("***********************************"+ i +"***********************************")
        # head_url = "https://www.tkcp.hk/"
        try:
            response = requests.get(url="http://"+i,headers=headers)
            response.encoding = 'gb2312'
            soup = Bs4(response.text,"lxml")
            # print(soup)
            htmls = soup.find_all("a") #获取页面中的所有a标签
            # print(htmls)
            urls = []
            new_urls = []
            for html in htmls:
                url = html.get("href") #获取页面中所有含"href"的字符串
                urls.append(url.replace('\n',''))
                qc_urls = set(urls)
            for url in qc_urls: #处理数据,得到域名地址
                if "http" in url:
                    res = urlparse(url)
                    # print("返回对象:", res)
                    # print("域名", res.netloc)
                    domain = res.netloc
                    new_urls.append(domain)
            qc_new_urls = set(set(new_urls))
            print("***********************************"+num+"***********************************")
            print(set(qc_new_urls)) #去重
            for j in set(qc_new_urls):
                # print(j)
                with open("url_v1.txt","a+",encoding="utf-8") as f:
                    f.write(j+"\n")
        except Exception as e:
            print("链接无法访问")
    result_list = []
    result = open("./url_v1.txt","r")
    for r in result.readlines():
        result_list.append(r.replace("\n",""))
    for x in set(result_list): #二次数据处理,去掉重复数据
        with open("url_end_V.txt","a+",encoding="utf-8") as f:
            print(x)
            f.write(x+"\n")

if __name__=="__main__":
    get_url()

原文地址:https://www.cnblogs.com/dddjh/p/11806085.html

时间: 2024-08-07 06:33:40

python3 获取博彩网站页面下所有域名(批量)的相关文章

项目经验-博彩网站

本次使用的是由thinkphp的产品onethink开发 以下是本次项目积累的一些经验,方便以后查阅 1.在onethink框架内修改团队信息 因为onethink采用的是插件开发,所以我们必须找到那个并不好找的页面,下面直接给路径 Addons/DevTeam/widget.html 2.onethink需要引用公共资源目录的文件时 这主要指的是引用public公共资源目录下的东西,配置文件在Application/Home/Conf/config.php 使用的时候需要大写 所有内置标签都需

网站被挂暗链、点开同一链接进入不同页面(博彩页面)、恶意脚本(INCLUDE(pack('H*')……)之类

原文链接 论坛被挂暗链问题分析与解决http://blog.kankanan.com/posts/2014/04/01_8bba575b88ab6302669794fe95ee9898520667904e0e89e351b3.html 发现问题 有网友反映我们的论坛被挂了暗链,具体表现为从 google 搜索论坛名称结果如下图所示: 直接搜索论坛网址出现的一些热门帖子也被挂了暗链,通过 google 搜索结果访问会跳到恶意网站, 解决问题 直接通过网址访问论坛则没有任务问题,应该是论坛被注入了恶

Python3.x:获取iframe内嵌页面的源码

Python3.x:获取iframe内嵌页面的源码 前言 在一些网页中经常会看到ifrmae/frame标签,iframe是嵌入式框架一般用来在已有的页面中嵌入另一个页面,当一个元素在iframe里时我们应该先切换到iframe里面. 语法 1.进入iframe iframe = self.driver.find_element_by_xpath("//iframe[contains(@src,'https://************/auth?e_p=1&response_type=

Python3.x:selenium遍历select下拉框获取value值

Python3.x:selenium遍历select下拉框获取value值 Select提供了三种选择方法: # 通过选项的顺序,第一个为 0 select_by_index(index) # 通过value属性 select_by_value(value) # 通过选项可见文本 select_by_visible_text(text) Select提供了四种方法取消选择: deselect_by_index(index) deselect_by_value(value) deselect_by

通过Iframe在A网站页面内嵌入空白页面的方式,跨域获取B网站的数据返回给A网站!

以下代码只是为演示该方法具体是如何操作的,实际的意义并不大. 其实这个方法还可以解决很多方面的跨域操作,以下两点为我工作中遇到的情况! 比如A系统中打开B系统页面的时候,获取B系统页面高度,A系统中可以动态设置窗口的高度 还有A系统中打开B系统页面的时候,B系统页面进行一系列操作,操作成功后需关闭A系统窗口,就可以在操作成功后再在B系统中嵌入A系统的blank.html页面,blank.html页面打开的时候,动态关闭A系统的窗口! 下面为大家讲下是如何实现该方法的 1.在A系统下添加名称为bl

ASP基于B/S模式下的博客网站系统

互联网的普及给人们带来的便利不需多说.因此如果把个人博客与互联网结合起来,利用visual studio2008技术建设博客网站系统,实现个人博客的网络化. 根据本系统的研究现状和发展趋势,系统从需求分析.结构设计.数据库设计,在到系统实现,分别为前端实现和后端实现.论文内容从系统描述.系统分析.系统设计.系统实现.系统测试来阐述系统的开发过程.本系统力求结合实际找出一种切实可行的开发方案,经过反复研究和学习,借助visual studio2008编程语言.net技术.sqlserver数据库和

移动互联引发博彩狂欢

1.体育博彩是整个博彩行业里市场份额最大的一块,利润非常丰厚: 2.在线销售彩票已经成为主流的彩票销售模式,但是线下的彩票销售网点仍然有很高的价值: 3.借助移动互联网和社交媒体,购买彩票的人群正在扩大,这也为彩票销售带来更多机会. 序世界杯,足球和博彩的狂欢 世界杯正如火如荼的进行着,和每一届世界杯一样,这场体育盛会吸引了全世界数亿人的注意.在激烈的赛场之外,世界杯同样是体育博彩行业的盛会. 每一届世界杯都是博彩公司大赚一笔的机会,但是这一届世界杯的独特之处在于,移动互联网已经成为了体育彩票的

雅虎网站页面性能优化的34条黄金守则(转)

雅虎团队经验:网站页面性能优化的34条黄金守则1.尽量减少HTTP请求次数      终端用户响应的时间中,有80%用于下载各项内容.这部分时间包括下载页面中的图像.样式表.脚本.Flash等.通过减少页面中的元素可以减少HTTP请求的次数.这是提高网页速度的关键步骤.      减少页面组件的方法其实就是简化页面设计.那么有没有一种方法既能保持页面内容的丰富性又能达到加快响应时间的目的呢?这里有几条减少HTTP请求次数同时又可能保持页面内容丰富的技术. 合并文件是通过把所有的脚本放到一个文件中

雅虎网站页面性能优化的34条黄金守则

雅虎团队经验:网站页面性能优化的34条黄金守则 1.尽量减少HTTP请求次数      终端用户响应的时间中,有80%用于下载各项内容.这部分时间包括下载页面中的图像.样式表.脚本.Flash等.通过减少页面中的元素可以减少HTTP请求的次数.这是提高网页速度的关键步骤.      减少页面组件的方法其实就是简化页面设计.那么有没有一种方法既能保持页面内容的丰富性又能达到加快响应时间的目的呢?这里有几条减少HTTP请求次数同时又可能保持页面内容丰富的技术. 合并文件是通过把所有的脚本放到一个文件