python截取搜索引擎关键词

这段代码是自己学了python的基本语法之后,参考一个网上视频写的代码,功能是截取搜索引擎360的关键词。

代码:

 1 #!/usr/bin/python
 2 #encoding:utf-8
 3
 4 import urllib
 5 import urllib2
 6 import re
 7 import time
 8 from random import choice
 9
10 ipList = [‘1.9.189.65:3128‘, ‘27.24.158.130:80‘, ‘27.24.158.154:80‘]
11
12 listKeyWords = ["集团", "科技"]
13 for item in listKeyWords:
14     ip = choice(ipList)
15     gjc = urllib.quote(item)
16     url = "http://sug.so.360.cn/suggest?callback=suggest_so&encodein=utf-8&encodeout=utf-8&word=" + gjc
17     headers = {
18         "GET":url,
19         "Host":"sug.so.360.cn",
20         "Referer":"http://www.so.com/",
21         "User-Agent":"Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/37.0.2062.120 Chrome/37.0.2062.120 Safari/537.36"
22     }
23
24     #proxy_support = urllib2.ProxyHandler({"http":"http://"+ip})
25
26     #opener = urllib2.build_opener(proxy_support)
27     #urllib2.install_opener(opener)
28     req = urllib2.Request(url)
29
30     for key in headers:
31         req.add_header(key, headers[key])
32
33     html = urllib2.urlopen(req).read()
34     print html
35
36     ss = re.findall("\"(.*?)\"", html)
37     for item in ss:
38         print item
39
40     time.sleep(3)

主要使用了python自i带的几个库,用法可以查看帮助文档。

时间: 2024-12-15 06:49:24

python截取搜索引擎关键词的相关文章

搜索引擎关键词劫持之asp篇

摘要:关键词劫持(黑帽seo)其实原理很简单:搜索引擎关键词劫持的过程实际上就是,修改肉鸡站点(webshell站点)A的首页(希望被搜索引擎收录的页面,一般情况下是首页),使之做出判断... 黑帽SEO代码一: <% function GetBot() '查询蜘蛛 dim s_agent GetBot="" s_agent=Request.ServerVariables("HTTP_USER_AGENT") '关键判断语句 if instr(1,s_agen

搜索引擎关键词劫持之php篇(源码与分析)

摘要:其实原理很简单: 搜索引擎关键词劫持的过程实际上就是,修改肉鸡站点(webshell站点)A的首页(希望被搜索引擎收录的页面,一般情况下是首页),使之做出如下判断: if(来访者是蜘蛛){ 输出指定内容 } if(用户是从搜索引擎点击进入网站的){ 跳转我们希... 其实原理很简单:搜索引擎关键词劫持的过程实际上就是,修改肉鸡站点(webshell站点)A的首页(希望被搜索引擎收录的页面,一般情况下是首页),使之做出如下判断: if(来访者是蜘蛛){输出指定内容}if(用户是从搜索引擎点击

用python爬取搜索引擎关键词的简易方案

环境:python2.7 以360为例,用http截取工具获得url,具体的获取方法根据要求实现功能而定.例如:我要爬取她的关键词,就是截取以...word=结尾的一串url. 没有加入浏览器信息,系统版本,事实证明360对爬虫很友好呢=.=. 1.关于正则表达式的处理,根据实际情况自己写,没有特别统一的格式. 2.关于网站的编码,都可以修改处理,这里用的gbk. 1 #coding=gbk 2 ''' 3 Created on 2014-9-23 4 5 @author: Administra

搜索引擎关键词劫持之.net篇

摘要:蛋疼写的,有需要的就拿去,注意要保存为Global.asax. 重要说明:为避免编码问题,请在劫持页面(data_url)指向页面加入meta标记来指明编码,如 meta content=text/html; charset=utf-8 http-equiv=Content-Type/ 来指明是UTF-8编码,以避免乱码问题. %@A... 蛋疼写的,有需要的就拿去,注意要保存为Global.asax.重要说明:为避免编码问题,请在劫持页面(data_url)指向页面加入meta标记来指明

Python 结巴分词 关键词抽取分析

关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来.这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语.因此,目前依然可以在论文中看到关键词这一项. 除了这些,关键词还可以在文本聚类.分类.自动摘要等领域中有着重要的作用.比如在聚类时将关键词相似的几篇文档看成一个团簇,可以大大提高聚类算法的收敛速度:从某天所有的新闻中提取出这些新闻的关键词,就可以大致了解那天发生了什么事情:或者将某段时间内几个人的微博拼成一篇长文本,然后抽取关键词就可以知道他

python打造批量关键词排名查询工具

自己做站点的时候,都看看收录和关键词排名什么的,所以打造的这个批量关键词查询工具. #encoding:utf-8 import urllib,re,random,time,sys,StringIO,socket try: import pycurl except: pass from bs4 import BeautifulSoup score={1: 28.56, 2: 19.23, 3: 10.20, 4: 8.14, 5: 7.50, 6: 5.72, 7: 4.01, 8: 4.41,

python截取字符串

str = ‘0123456789’ print str[0:3] #截取第一位到第三位的字符 print str[:] #截取字符串的全部字符 print str[6:] #截取第七个字符到结尾 print str[:-3] #截取从头开始到倒数第三个字符之前 print str[2] #截取第三个字符 print str[-1] #截取倒数第一个字符 print str[::-1] #创造一个与原字符串顺序相反的字符串 print str[-3:-1] #截取倒数第三位与倒数第一位之前的字符

python 截取字符串的指定内容

a = '123_abc' 假设有上面这样一个字符串,如果想把里面的指定部分取出来,有以下几种办法: 1. split() a.split('_') # 结果 ['123', 'abc'] a.split('_')[0] # 结果 '123' a.split('_')[1] # 结果 'abc' 2. index() index = a.index('_') # 结果 3 a[:index] # 结果 '123' a[index+1:] # 结果 'abc' index()相比split()的优

Python网络爬虫入门篇

1.  预备知识 学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. 2. Python爬虫基本流程 a. 发送请求 使用http库向目标站点发起请求,即发送一个Request,Request包含:请求头.请求体等. Request模块缺陷:不能执行JS 和CSS 代码. b. 获取响应内容 如果requests的内容存在于目标服务器上,那么服务器会返回请求内容. Response包含:html.Json字符串.图片,