Python学习（2）

爬取网页的部分链接

#!/usr/bin/python
#coding = utf8
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import random
pages = set()
def getlink(pageurl):
    global pages
    html = urlopen(‘http://www.ftchinese.com‘ + pageurl)
    bs_data = BeautifulSoup(html,‘lxml‘)
#from ipdb import set_trace
#set_trace()
    for link in bs_data.find_all(‘a‘,href = re.compile("^(/m/)")):
        if ‘href‘ in link.attrs:
            if link.attrs[‘href‘] not in pages:
            #我们遇到了新页面
                newpage = link.attrs[‘href‘]
                print(newpage)
                pages.add(newpage)
                getlink(newpage)
getlink("")

时间： 2024-11-22 19:52:17

Python学习（2）的相关文章

python学习：程序控制结构·作业20141219

Python学习:程序控制结构 20141219 编程环境: windows 7 x64 python 2.7.6 题目: 1 编写程序,完成下列题目(1分) 题目内容: 如果列出10以内自然数中3或5的倍数,则包括3,5,6,9.那么这些数字的和为23.要求计算得出任意正整数n以内中3或5的倍数的自然数之和. 输入格式: 一个正整数n. 输出格式: n以内中3或5的倍数的自然数之和. 输入样例: 10 输出样例: 23 时间限制:500ms内存限制:32000kb n = int(raw_in

python学习第二天

python学习的第二天就是个灾难啊,这天被打击了,自己写的作业被否认了,不说了,写博客还是个好习惯的,要坚持下去,就不知道能坚持到什么时候.呵呵!!! 这天教的知识和第一天的知识相差不大,区别在于比第一天讲的更细了(我们是两个老师教的,风格是不一样的),这次也写那些比较细的知识点. python的简介 (1)你的程序一定要有个主文件. (2)对于python,一切事物都是对象,对象基于类创建.#似懂非懂,不过有那么点似懂. 知识点 #__divmod__ 会把两个数字相除的商和余数以元组的方式

[Python 学习] 二、在Linux平台上使用Python

这一节,主要介绍在Linux平台上如何使用Python 1. Python安装. 现在大部分的发行版本都是自带Python的,所以可以不用安装.如果要安装的话,可以使用对应的系统安装指令. Fedora系统:先以root登入,运行 yum install python Ubuntu系统:在root组的用户, 运行 sudo apt-get install python 2. 使用的Python的脚本 Linux是一个以文件为单位的系统,那么我们使用的Python是哪一个文件呢? 这个可以通过指令

python学习之最简单的用户注册及登录验证小程序

文章都是从我的个人博客上粘贴过来的哦,更多内容请点击 http://www.iwangzheng.com 正如很多同学所知道的,楼主开始学习python了,前进的道路曲曲折折,有荆棘也有陷阱,从最简单的小程序写起,每天练习,将python进行到底. 有一点比较别扭的就是python的换行之后空四个空格,ruby都是两个,并且python在方法和循环语句的第一句都要加冒号 mysql> show create table user; mysql> alter table user add sal

python学习--创建模块

昨天做了python客户端和服务器端通信,并把接收到的信息写到数据库,因为对数据库进行操作是个经常调用的行为,所以我想把调用数据库的操作写成一个module来给其它python程序调用,所以将昨天的服务器端程序拆分为两个文件: 1.主程序python.py #!/usr/bin/env python import socket import json import connmysql s = socket.socket(socket.AF_INET,socket.SOCK_STREAM,0) h

OpenCV之Python学习笔记

OpenCV之Python学习笔记直都在用Python+OpenCV做一些算法的原型.本来想留下发布一些文章的,可是整理一下就有点无奈了,都是写零散不成系统的小片段.现在看到一本国外的新书<OpenCV Computer Vision with Python>,于是就看一遍,顺便把自己掌握的东西整合一下,写成学习笔记了.更需要的朋友参考. 阅读须知: 本文不是纯粹的译文,只是比较贴近原文的笔记: 请设法购买到出版社出版的书,支持正版. 从书名就能看出来本书是介绍在Pytho

Python学习day5作业-ATM和购物商城

Python学习day5作业 Python学习day5作业 ATM和购物商城作业需求 ATM: 指定最大透支额度可取款定期还款(每月指定日期还款,如15号) 可存款定期出账单支持多用户登陆,用户间转帐支持多用户管理员可添加账户.指定用户额度.冻结用户等购物车: 商品信息- 数量.单价.名称用户信息- 帐号.密码.余额用户可充值购物历史信息允许用户多次购买,每次可购买多件余额不足时进行提醒用户退出时 ,输出当次购物信息用户下次登陆时可查看购物历史商品列表分级显示 1

Python学习记录day6

Python学习记录day6 学习 python Python学习记录day6 1.反射 2.常用模块 2.1 sys 2.2 os 2.3 hashlib 2.3 re 1.反射反射:利用字符串的形式去对象(默认)中操作(寻找)成员 cat commons.py #!/usr/bin/env python#_*_coding:utf-8_*_''' * Created on 2016/12/3 21:54. * @author: Chinge_Yang.''' def login(): pr

python学习笔记12-模块使用

python学习笔记12-模块使用模块os,sys 什么是模块? 模块os,sys 模块是Python组织代码的一种基本方式一个Python脚本可以单独运行,也可以导入到另外一个脚本运行,用import hello语句来导入,不用加入.py 什么是Python的包? Python的模块可以按照目录组织为包创建一个包的步骤: 创建一个名字为包名的目录在改目录下创建一个__init__.py文件根据需要,在该目录下存放脚本文件或已编译的扩展及子包 import pack.m1,pack.

Python.python学习(1).学习规划

Python.python学习.学习规划欢迎收看! 阅读此文表明你也是要学Python这门神奇的语言了.很好,来对地方了,先容我简单介绍一下这个博客系列. 这个系列的博客将会持续专注于Python这个语言的知识积累和开发经验. 编写这个系列,一方面是为了巩固我自己对Python的理解,另一方面也是希望能够分享我的经验,给初学者提供一定帮助.网上现有的各类教程已经汗牛充栋,在我学习的时候就曾参阅过许多教程与文章,它们讲解问题的思路各不相同,综合的阅读使得我最终能够整理起知识的碎片并正确地理解.所

猜你喜欢

如何编辑好看的微信文章微助点微信编辑

微助点微信编辑器,是一款"素材最多,最好用"的微信图文编辑工具,丰富素材样式任您挑选,调整颜色.排版更简单,为您提供好看.易读的文章是我们动力!下面给您具体介绍微助点微信编辑器. ...

机器学习：weka中添加自己的分类和聚类算法

不管是实验室研究机器学习算法或是公司研发,都有需要自己改进算法的时候,下面就说说怎么在weka里增加改进的机器学习算法. 一添加分类算法的流程 1 编写的分类器必须继承 Classifier或是Cl ...

写一个函数排序整个字符串数组

创建一个字符串数组,总共5个元素,每个元素最多保存30个字符, 写一个函数排序整个数组 #include<stdio.h> #include<string.h> #includ ...

vs2012 Nuget错误：“未能解析此远程名称api.nuget.org”

今天在使用vs2012的Nuget功能向新建MVC项目中添加bootstrap时出现一个错误:“未能解析此远程名称api.nuget.org”: 网上查阅资料得知:nuget.org使用的godadd ...

RTX二次开发（二）（基于ASP.NET）

上一篇,我们讲到我开发环境的配置,还没配置好开发环境或再看一遍开发环境配置?接下来,我们开始coding...... 在coding之前,我们先添加引用. 我们在SDK的安装目录中引用这个文件. 引用 ...

TCP协议的3次握手与4次挥手过程【深度详解】

一.前沿尽管TCP和UDP都使用相同的网络层(IP),TCP却向应用层提供与UDP完全不同的服务.TCP提供一种面向连接的.可靠的字节流服务.面向连接意味着两个使用TCP的应用(通常是一个客户和一个 ...

AndroidStudio导入项目常见问题

问题一: 解决:少了依赖的路径问题二: 解决:把runProguard 改成minfyEnable 来源:http://blog.csdn.net/pengkv/article/details/44 ...

java 3种简单的排序

1.冒泡排序 public class MaxMin{ public static void main(String args[]){ int a[]={5,4,9,8,7,6,0,1,3,2}; b ...

手游系统逻辑档案之竞技场与排行榜

再接再厉,前文说了任务系统的设计思路,不知道别人能不能看明白,为了锻炼一下表达能力,还是应该多画图,尤其是动态图.一图胜千言,尤其是讲数据结构和算法的时候,简直是没图没真相.不过画的太细就顾此失彼,画 ...

笔试算法题（54）：快速排序实现之三路划分, 三元中值法和插入排序处理小子文件

议题:快速排序算法实现之三(三路划分遍历,解决与划分元素相等元素的问题) 分析: 算法原理:使用三路划分策略对数组进行划分(也就是荷兰国旗问题,dutch national flag problem) ...

linux mysql 卸载，安装，測试全过程

Mysql卸载 yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf ...

关于一些java操作日期格式

public String progressbarDay(String pid) throws Exception { FinanceProject fp = (FinanceProject)base ...

正则表达式对象模型

正则表达式对象模型本主题介绍在处理 .NET Framework 正则表达式时使用的对象模型. 它包含下列部分: 正则表达式引擎 MatchCollection 和 Match 对象组集合捕获的 ...

ION 内存管理

what is ION? ION 内存管理从android4.0开始被引入 ION模块是可扩展的(API都是统一的),支持各种形式的内存分配方式,可以表述不同的硬件资源和他们的一些限制 ION 支持 ...

深入理解JVM(三)——垃圾收集策略具体解释

Java虚拟机的内存模型分为五个部分.各自是:程序计数器.Java虚拟机栈.本地方法栈.堆.方法区. 这五个区域既然是存储空间,那么为了避免Java虚拟机在执行期间内存存满的情况,就必须得有一个垃圾收 ...

第二部表达式、字面值和数学运算与取余

表达式与操作符概念:操作符.运算对象和表达式. 运算对象:常量.变量.字面值.方法调用.元素访问器和其它表达式. 字面值: @:忽略转义字符,直接显示字符串. 简单数学运算与取余: 加(+).减(-) ...

HMaster/HRegion 工作原理

1.系统架构 2. HMaster/HRegion 工作原理 HRegion Server上线 HMaster通过Zookeeper来追踪HRegion Server的状态. HRegion ...

网络模型

套接字socket通信属于网络的传输层通信,通常都是由操作系统实现,主要有两种tcp和udp两种(分别实现的tcp协议和udp协议),本文诉述的网络模型都是建立在Linux操作系统实现的套接字API基 ...

使用SMTP发送邮件

/// <summary> /// 发送邮件 /// </summary> /// <param name="MailServerName">服 ...

C语言+ODBC+SQL 连接

第一步:配置ODBC. ①.在控制面板找到ODBC,或者在控制面板上搜索ODBC.如图: ②.点击ODBC的添加按钮,选择SQL Server,这是会出现创建SQL Server的新数据源的对话框,我 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.