通过request获取网页资讯 通过BeautifulSoup剖析网页元素

import  requests

newsUrl =‘http://news.sina.com.cn/china/

res = requests.get(newsUrl)

res.encoding =‘utf-8’

pint

print(res.text)

//然后通过DOM Tree来剖析网页元素

from bs4 import BeautifulSoup

html_sample =‘\

<html>\

<body>\

<h1 id="title">this is h1</h1>\

<a class="link" href="fdfdfdfd">this is a link</a>\

<a class="link" href="fdfdfdfd">this is another link</a>\

</body>\

</html>‘

‘‘‘

html.parser  解析器 ,不写的话会发出警告

‘‘‘

soup = BeautifulSoup(html_sample,‘html.parser’)

print(soup.text)

#找出所有含特定标签的HTML元素

#1: 使用select 找出含有h1标签的元素

header = soup.select(‘h1’)

print(header)print(header[0].text )

#第0个标签中的文字

#2: 使用select找出含有a标签的元素

alink = soup.select(‘a’)

print(alink)

for link in alink:

#print(link)

print(link.text)

#取得含有特定CSS属性的元素

#1使用select找出所有id为title的元素(id前需加#)

aTitle = soup.select(‘#title‘)

print(aTitle)

#2使用select找出所有class为link的元素(class前需要加.)

for mylink in soup.select(‘.link‘):

print(mylink)

#取得所有a标签内的链接

#使用select找出所有a tag的href连结

ahref = soup.select(‘a‘)

for ah in ahref:

print(ah[‘href‘])

时间: 2024-11-10 00:38:20

通过request获取网页资讯 通过BeautifulSoup剖析网页元素的相关文章

定义一个方法get_page(url),url参数是需要获取网页内容的网址,返回网页的内容。提示(可以了解python的urllib模块)

1 定义一个方法get_page(url),url参数是需要获取网页内容的网址,返回网页的内容.提示(可以了解python的urllib模块) 2 import urllib.request 3 4 def get_page(url): 5 response = urllib.request.urlopen(url) 6 html = response.read() 7 return html 8 9 print(get_page(url='https://www.baidu,com'))

jsp Request获取url信息的各种方法比较

从Request对象中可以获取各种路径信息,以下例子: 假设请求的页面是index.jsp,项目是WebDemo,则在index.jsp中获取有关request对象的各种路径信息如下 String path = request.getContextPath(); String basePath = request.getScheme()+"://"+request.getServerName()+":"+request.getServerPort()+path+&q

request获取各种路径(转)

equest.getRealPath() 这个方法已经不推荐使用了,代替方法是: request.getSession().getServletContext().getRealPath() 在servlet里用this.getServletContect().getRealPath() 在struts里用this.getServlet().getServletContext().getRealPath() 在Action里用ServletActionContext.getRequest().g

从request获取各种路径总结 request.getRealPath(&quot;url&quot;)

转载:http://blog.csdn.net/piaoxuan1987/article/details/8541839 equest.getRealPath() 这个方法已经不推荐使用了,代替方法是: request.getSession().getServletContext().getRealPath() 从Request对象中可以获取各种路径信息,以下例子: 假设请求的页面是index.jsp,项目是WebDemo,则在index.jsp中获取有关request对象的各种路径信息如下 S

request 获取各种路径

从request获取各种路径总结 request.getRealPath("url"); // 虚拟目录映射为实际目录 request.getRealPath("./");    // 网页所在的目录 request.getRealPath("../"); // 网页所在目录的上一层目录 request.getContextPath();    // 应用的web目录的名称 如http://localhost:7001/bookStore/ /b

request获取各种路径

转自:http://zjutsoft.iteye.com/blog/1084260 从request获取各种路径总结 request.getRealPath("url"); // 虚拟目录映射为实际目录 request.getRealPath("./");    // 网页所在的目录 request.getRealPath("../"); // 网页所在目录的上一层目录 request.getContextPath();    // 应用的web

request获取请求头和请求数据

1 package cn.itcast.request; 2 3 import java.io.IOException; 4 import java.io.InputStream; 5 import java.io.PrintWriter; 6 import java.lang.reflect.InvocationTargetException; 7 import java.util.Enumeration; 8 import java.util.Map; 9 10 import javax.s

request 获取请求参数

/** * 根据request获取请求的用户参数 * @return * @return */ protected <T> T getParamConvertEntity(Class cls) { Object obj = null; try { obj = cls.newInstance(); Map paramMap = new HashMap(); paramMap.putAll(request.getParameterMap()); //设置用户ID paramMap.put(&quo

根据request获取当前访问人的IP

根据request获取IP的方式: public static String getIpAddr(HttpServletRequest request) {        String ip = request.getHeader("x-forwarded-for");        if(ip == null || ip.length() == 0 || "unknown".equalsIgnoreCase(ip)) {            ip = reque