python开发全自动网站链接主动提交百度工具

自己网站因数据比较多,趁晚上没事就写了一个通过python爬取url自动提交给百度,实现网站全站提交的思路,代码实现很简单,因为编写时间仓储,难免有些bug,可以放在服务器上配置下定时爬取提交。

import os
import re
import shutil  

REJECT_FILETYPE = ‘rar,7z,css,js,jpg,jpeg,gif,bmp,png,swf,exe‘ #定义爬虫过程中不下载的文件类型

def getinfo(webaddress):   #‘#通过用户输入的网址连接上网络协议,得到URL我这里是我自己的域名
    global REJECT_FILETYPE
    url = ‘http://‘+webaddress+‘/‘  #网址的url地址
    print ‘Getting>>>>> ‘+url
    websitefilepath = os.path.abspath(‘.‘)+‘/‘+webaddress   #通过函数os.path.abspath得到当前程序所在的绝对路径,然后搭配用户所输入的网址得到用于存储下载网页的文件夹
    if os.path.exists(websitefilepath):   #如果此文件夹已经存在就将其删除,原因是如果它存在,那么爬虫将不成功
        shutil.rmtree(websitefilepath)     #shutil.rmtree函数用于删除文件夹(其中含有文件)
    outputfilepath = os.path.abspath(‘.‘)+‘/‘+‘output.txt‘   #在当前文件夹下创建一个过渡性质的文件output.txt
    fobj = open(outputfilepath,‘w+‘)
    command = ‘wget -r -m -nv --reject=‘+REJECT_FILETYPE+‘ -o ‘+outputfilepath+‘ ‘+url  #利用wget命令爬取网站
    tmp0 = os.popen(command).readlines()  #函数os.popen执行命令并且将运行结果存储在变量tmp0中
    print >> fobj,tmp0  #写入output.txt中
    allinfo = fobj.read()
    target_url = re.compile(r‘\".*?\"‘,re.DOTALL).findall(allinfo)  #通过正则表达式筛选出得到的网址
    print  target_url
    target_num = len(target_url)
    fobj1 = open(‘result.txt‘,‘w‘)     #在本目录下创建一个result.txt文件,里面存储最终得到的内容
    for i in range(target_num):
        if len(target_url[i][1:-1])<70:   # 这个target_url 是一个字典形式的,如果url 长度大于70 就不会记录到里面
           print >> fobj1,target_url[i][1:-1]     #写入到文件中
        else:
          print "NO"
    fobj.close()
    fobj1.close()
    if os.path.exists(outputfilepath):  #将过渡文件output.txt删除
        os.remove(outputfilepath)  #删除

if __name__=="__main__":
    webaddress = raw_input("Input the Website Address(without \"http:\")>")
    getinfo(webaddress)
    print "Well Done."

  然后进入百度主动提交栏目,找到api接口,提交下数据即可

原文地址:https://www.cnblogs.com/68xi/p/9348357.html

时间: 2024-10-13 15:11:16

python开发全自动网站链接主动提交百度工具的相关文章

通过python 爬取网址url 自动提交百度

通过python 爬取网址url 自动提交百度 昨天同事说,可以手动提交百度这样索引量会上去. 然后想了下.是不是应该弄一个py 然后自动提交呢?想了下.还是弄一个把 python 代码如下: import os import re import shutil REJECT_FILETYPE = 'rar,7z,css,js,jpg,jpeg,gif,bmp,png,swf,exe' #定义爬虫过程中不下载的文件类型 def getinfo(webaddress): #'#通过用户输入的网址连接

C#实现百度站长工具链接主动提交功能

百度站长工具上提供了链接推送的功能,让广大站长更加方便的把自己的链接推送到百度,增加收录的机会和缩短收录时间(当然,百度也说了,你提交了链接,我不一定收录!) 百度提供了好几种方式,有主动推送,自动推送,sitemap推送等.今天我们要说的就是主动推送,从字面意思上就可以明显的看出,主动推送,就是指站长自行将链接推送给百度.那么如何实现呢?其实原理很简单,就是把要推送的链接post到百度指定的地址去就可以了. 下面我们用C#来实现,源代码如下: //推送链接到百度 private string 

Python脚本检测网站链接是否存在

早就听说Python语言操作简单,果然名不虚传,短短几句,就实现了基本的功能. 要检测目标网站上是否存在指定的URL,其实过程很简单: 1.获得指定网站网页的HTML代码 2.在HTML代码中查找指定的URL 3.如果存在,OK:否则,Error 整个程序引用了两个lib库,urllib2和sgmllib. urllib2库主要定义了一些访问URL(基本通过HTTP)的函数与类. sgmllib库主要负责解析HTML代码. 1 import urllib2 2 from sgmllib impo

Python开发程序:简单主机批量管理工具

题目:简单主机批量管理工具 需求: 主机分组 登录后显示主机分组,选择分组后查看主机列表 可批量执行命令.发送文件,结果实时返回 主机用户名密码可以不同 流程图: 说明: ### 作者介绍: * author:lzl ### 博客地址: * http://www.cnblogs.com/lianzhilei/p/5881434.html ### 功能实现 题目:简单主机批量管理工具 需求: 主机分组 登录后显示主机分组,选择分组后查看主机列表 可批量执行命令.发送文件,结果实时返回 主机用户名密

给你的网站添加谷歌AMP、百度MIP、神马MIP链接自动提交功能

我们在做网站的时候,经常会听到别人说SEO优化,网站优化等等.但是我们经常听的云里雾里的,但是经过我们运营一段时间之后,我们慢慢的就会熟悉了,知道什么是SEO.SEO中文译名为搜索引擎优化,既然是叫搜索引擎优化,那么肯定的是从各个方面对网站的链接和内容进行优化了.在移动互联网高速发达的今天,仅仅只是依靠PC端的网页展示是不够的,还需要针对移动端进行优化和展示,在这里我给大家普及一下,SEO的中AMP.MIP和熊掌号的几个知识点. 1.AMP(Accelerated Mobile Pages),是

Ruby与Python开发的环境IDE配置(附软件的百度云链接)

Ruby开发环境配置 1.Aptana_RadRails(提示功能不好,开发Ruby不推荐) 链接:http://pan.baidu.com/s/1i5q96K1 密码:yt04 2.Aptana Studio3(非常非常好,Ruby和Python开发首选,,和Eclipse使用基本完全一样,提示功能完爆Eclipse,而且界面非常漂亮) 链接:http://pan.baidu.com/s/1cFQr2u 密码:vfc4 教程地址:http://www.cnblogs.com/lsgwr/p/5

百度链接主动推送代码对在织梦系统中的添加方法

百度站长推出的一个链接提交的工具,支持网站链接的主动推送,在这里面我们有一段织梦系统的测试代码分享给大家,让大家可以在不用谢代码的直接复制皆可以解决.在dede后台的article_add.php文件进行简单的修改,在259行加入如下代码(代码进行简单修改,$url[]=之后单引号内的网址改成自己的站点,$api后引号内的链接修改成,自己站长平台里的主东推送链接). else{$urls[]='https://www.jianzhumuju.com/'.$artUrl;$api = 'http:

Python开发实战教程(8)-向网页提交获取数据

来这里找志同道合的小伙伴!↑↑↑ Python应用现在如火如荼,应用范围很广.因其效率高开发迅速的优势,快速进入编程语言排行榜前几名.本系列文章致力于可以全面系统的介绍Python语言开发知识和相关知识总结.希望大家能够快速入门并学习Python这门语言. 本次课程是在掌握python基础之上进行的.基础没有学习的话建议先查看文章学习基础目录:Python开发实战系列教程-链接汇总,持续更新.进行学习. 最近几天感冒中,四肢乏力以及最近比较忙导致,更新较慢.还请见谅. 概述 很多时候我们需要给网

Python开发环境 &amp;参考书籍和网站

Python开发环境Python IDE下载: (1) 标准IDE: IDLE (内置,方便小巧) https://www.python.org/ (2) 集成开发平台: Anaconda (支持多种操作系统,集成了主流的科学计算包,推荐初学者先安装这一个,后期需要其他第三方库再用pip等方式安装) https://www.continuum.io/downloads (3) 其他可自由选择PyCharm或Jupyter Notebook等 2.Python参考书籍和网站(1) Python C