抓取51cto推荐博文python脚本

#!/usr/bin/env python
# @Time    : 2017/9/5 15:31
# @Author  : qq:1960050004
import urllib
import re
def getAllUrl():
    list2 = []
    for i in range(1,31):
        url = "http://blog.51cto.com/artcommend/0/"+str(i)
        list2 = list2 + getYuanWenJian(url)
    return list2

def getYuanWenJian(url):
    page = urllib.urlopen(url).read()
    # reg = r‘href="(.*?\d)" china‘
    reg = r‘href="(.*?\d)" china(.*?)\>(.*?)\<‘
    urllist = re.compile(reg)
    urllists = re.findall(urllist, page)
    return urllists

if __name__ == ‘__main__‘:
    for i in getAllUrl():
        print (i[2].decode(‘gb2312‘).encode(‘utf8‘)),i[0]

[[email protected] ~/0910]# python 4.py >51cto.txt

[故障解决]Mysql-Atlas从库始终没有建立连接怎么办? http://chenx1242.blog.51cto.com/10430133/1911763

linux学习:持续集成篇--Maven私有库和本地库的安装与配置-03 http://1754966750.blog.51cto.com/7455444/1911760

Linux系统通过SOCKS4/5做堡垒机 http://tongcheng.blog.51cto.com/6214144/1911476

VPN组网不用愁之1-中小企业VPN网络组建应用实录 http://wangchunhai.blog.51cto.com/225186/1911462

python错误:No module named setuptools 解决方法 http://mofansheng.blog.51cto.com/8792265/1911395

Windows Server 2012 R2域控和Exchange 2016 ALL IN ONE http://rdsrv.blog.51cto.com/2996778/1911356

Rancher容器网络-Floating IP解决方案 http://12462495.blog.51cto.com/12452495/1911306

linux中生成考核用的NTFS文件系统(历史版本) http://zhangyu.blog.51cto.com/197148/1911271

VBS脚本判断及获取两个文件之间的不同内容 http://gaowenlong.blog.51cto.com/451336/1911226

几种VPN组网方式介绍 http://wangchunhai.blog.51cto.com/225186/1911155

RabbitMQ集群 http://navyaijm.blog.51cto.com/4647068/1911130

WeX5客观题软件开发与list组件应用等典型疑问 http://zhuxianzhong.blog.51cto.com/157061/1910985

nginx+tomcat实现反向代理的负载均衡 http://12059878.blog.51cto.com/12049878/1910911

Centos7 下定义MariaDB源Yum安装最新版本的MariaDB http://gaowenlong.blog.51cto.com/451336/1910772

MySQL+Keepalived实现双机热备 http://wuyunkeji.blog.51cto.com/12028005/1910709

记一次存储故障导致数据库坏块处理过程 http://voidyao000.blog.51cto.com/12458042/1910603

redis缓存服务器(Nginx+Tomcat+redis+MySQL实现session会话共享) http://yw666.blog.51cto.com/11977292/1910451

redis缓存服务器(nginx+tomcat+redis+mysql实现session会话共享) http://hexiaoshuai.blog.51cto.com/12156333/1910407

Linux下通过SSH无法访问另外一台Linux服务 http://gaowenlong.blog.51cto.com/451336/1910389

memcache缓存服务器(Nginx+PHP+memcache+MySQL) http://yw666.blog.51cto.com/11977292/1910163

zabbix自动发现oracle表空间并监控其使用率 http://7424593.blog.51cto.com/7414593/1910111

轻松使用Fpm封装制作Rpm包 --Linux http://215687833.blog.51cto.com/6724358/1910102

Zabbix server被入侵了... http://chenx1242.blog.51cto.com/10430133/1909923

电商项目总结 http://sihai.blog.51cto.com/11115680/1909878

[[email protected] ~/0910]# python 4.py >51cto.txt

时间: 2024-10-07 14:18:37

抓取51cto推荐博文python脚本的相关文章

抓取京东商品相关Python脚本

1.http://python.org/download 先去官网根据自己的系统安装Python 2.我的Python2.7版本 3.确认环境都配置好,PIP下载需要的包(可以看脚本里面需要哪些例如:from selenium import webdriver),新建一个test.csv与运行的Python脚本目录同级(查询抓取数据后会保存到文件里面) 4.直接运行我的Python脚本输入查询条件品牌+型号+类型 例子:惠普 7110 打印机 5.http://pan.baidu.com/s/1

自动发送密码抓取远程日志用Shell脚本如何实现?

在linux系统中,如何用shell脚本抓取远程日志?分析线上的日志会有一个困境,机器太多,如果每台都登录上去看不太现实,但是下载下来更麻烦因为每台SCP都要求输入密码.于是我便写了一个自动抓取远程日志的脚本,实现在基本功能. 代码: #!/usr/bin/expect -f if { $argc !=1 && $argc !=2 } {send_user "没有输入远程日志文件名.\n"send_user "格式是:get.sh ${remote_log}

自动抓取163新闻的Python爬虫源码

Python爬虫的学习,自动抓取163新闻的Python爬虫源码,这是一个用Python语言编写的,自动抓取网易新闻的python爬虫实现方法一文. Python爬虫的抓取思路是:(1)通过分析目标新闻网址 ,分析其中以News.xxx.com 开头的链接(2)获取每一个链接的内容,并做整理合并到事前准备好的.txt 文本中,以便查看各新闻.但是需要注意的是:由于今天的测试对象,网易新闻的格式不是非常统一,所有会有部分漏掉的情况,还能大家见谅.也希望有能力的朋友们帮着改进一下. 自动抓取163新

30分钟编写一个抓取 Unsplash 图片的 Python爬虫

我一直想用 Python and Selenium 创建一个网页爬虫,但从来没有实现它. 几天前, 我决定尝试一下,这听起来可能是挺复杂的, 然而编写代码从 Unsplash 抓取一些美丽的图片还是挺容易的. PS:很多人在学习Python的过程中,往往因为遇问题解决不了或者没好的教程从而导致自己放弃,为此我整理啦从基础的python脚本到web开发.爬虫.django.数据挖掘等[PDF等]需要的可以进Python全栈开发交流.裙 :一久武其而而流一思(数字的谐音)转换下可以找到了,里面有最新

抓取百度贴吧python小爬虫 (2015最新版)

网上好多抓取贴吧的小爬虫都失效了,原因是百度贴吧的编码格式变了,或者是html代码变了,像这种简单的读取源代码的爬虫,只要网页源代码改变之后就得重新修改. 请诸位大牛指点. # -*- coding:utf8 -*- """ 程序就是读取网页的源代码,如果想获取相应的内容就找到其特定的格式,再利用正则表达式来获取. """ import string import urllib2 import re class html_Tool: #为了提取文

基于opencv的摄像头脸部识别抓取及格式储存(python)

刚接触opencv,参照opencv的sample例子做了一个视频头像抓取的小代码,顺便一起学习着用,先上视频抓取及存储代码: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 # -*- coding: cp936 -*- import cv2 capture=cv2.VideoCapture(0) #将capture保存为motion-jpeg,cv_fourcc为保存格式 size

python爬虫抓取51cto博客大牛的文章名和文章url

脚本一: #!/usr/bin/env python #coding:utf-8 from  bs4  import  BeautifulSoup import urllib import re art = {} for page in range(1,5): page = str(page) url = 'http://yujianglei.blog.51cto.com/all/7215578/page/'  + page response = urllib.urlopen(url).read

python爬虫抓取51cto博客大牛的文章保存到MySQL数据库

脚本实现:获取51cto网站某大牛文章的url,并存储到数据库中. #!/usr/bin/env python #coding:utf-8 from  bs4  import  BeautifulSoup import urllib import re import MySQLdb k_art_name = [] v_art_url = [] db = MySQLdb.connect('192.168.115.5','blog','blog','blog') cursor = db.cursor

测试开发Python培训:抓取新浪微博抓取数据-技术篇

测试开发Python培训:抓取新浪微博抓取数据-技术篇 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的selenium的课程中,我们在培训的课程里讲python的语言,也是通过项目实战的方式进行讲解,前期分享了个新浪微博的登陆功能,这次在通过抓取新浪微博数据进一步讲解脚本.(大家对课程感兴趣,请加qq:564202718) 微博有发布微博功能,微博发布后需要验证内容,那么如何验证微博发布数据的正确性,首先要