python网络爬虫入门(二)——用python简单实现调用谷歌翻译

最近在看国外的文档,有些生词不认识。就用谷歌翻译来理解,用着用着闲来无事就按F12查看了下页面的源代码。发现可以用python简单的实现下谷歌翻译的页面功能。于是先上网搜下有没有类似的文章博客,发现几篇不错的,于是参考其他代码与自己的思路,简单的实现了下翻译的功能,代码如下:

import re
import urllib,urllib2  

#----------模拟浏览器的行为,向谷歌翻译发送数据,然后抓取翻译结果,这就是大概的思路-------
def Gtranslate(text):  

    #text 输入要翻译的英文句子
    Gtext=text

    #hl:浏览器、操作系统语言,默认是zh-CN
    #ie:默认是UTF-8
    #text:就是要翻译的字符串
    #langpair:语言对,即'en'|'zh-CN'表示从英语到简体中文
    values={'hl':'zh-CN','ie':'UTF-8','text':Gtext,'langpair':"'en'|'zh-CN'"}
    #URL用来存储谷歌翻译的网址
    url='http://translate.google.cn/'
    #将values中的数据通过urllib.urlencode转义为URL专用的格式然后赋给data存储
    data = urllib.urlencode(values)
    #然后用URL和data生成一个request
    req = urllib2.Request(url,data)
    #伪装一个IE6.0浏览器访问,如果不伪装,谷歌将返回一个403错误
    browser='Mozilla/4.0 (Windows; U;MSIE 6.0; Windows NT 6.1; SV1; .NET CLR 2.0.50727)'
    req.add_header('User-Agent',browser)  

    #向谷歌翻译发送请求
    response = urllib2.urlopen(req)

    #读取返回页面,然后我们就从这个HTML页面中截取翻译过来的字符串即可
    html=response.read()

    #使用正则表达式匹配<=TRANSLATED_TEXT=)。而翻译后的文本是'TRANSLATED_TEXT='等号后面的内容
    p=re.compile(r"(?<=TRANSLATED_TEXT=).*?;")
    m=p.search(html)
    chineseText=m.group(0).strip(';')
    return chineseText 

if __name__ == "__main__":
    #Gtext为待翻译的字符串
    Gtext='you should believe yourself,you are the best one! and we sure that you will do something making us being proud of you'
    print('The input text: %s' % Gtext)
    chineseText=Gtranslate(Gtext).strip("'")
    print('Translated End,The output text: %s' % chineseText)

在IDLEz中运行后:

python网络爬虫入门(二)——用python简单实现调用谷歌翻译,布布扣,bubuko.com

时间: 2024-10-12 19:47:58

python网络爬虫入门(二)——用python简单实现调用谷歌翻译的相关文章

python网络爬虫入门(一)——简单的博客爬虫

最近,为了微信公众号的图文,上网疯狂的收集和看了一些有深度的新闻和有趣的引人深思的文字评论,并选择了几篇极品发布出去.但感觉一篇一篇的看实在是麻烦死了.想找一个简单的解决办法,看能不能自动把网上的资料收集起来,然后自己用统一筛选.不巧,最近准备学习下网络爬虫相关知识,于是按照网上的教程自己学着试写了一个小小的爬虫,嘻嘻,是用来爬韩寒博客的. 先把完整的代码贴上来,如果朋友们需要试验下,请先安装python相关环境,然后在复制粘贴保存,再按F5运行. #导入urllib库,python访问网页必须

python网络爬虫入门

python网络爬虫入门(一) 网络爬虫的定义 1.网络蜘蛛.网络机器人,抓取网络数据的程序. 2.其实就是用Python(其他语言也可以这里介绍python)程序模仿人点击浏览器并访问网站,而且模仿的越逼真越好. 对比几种语言 1.Python :请求模块.解析模块丰富成熟,强大的Scrapy网络爬虫框架 2.PHP :对多线程.异步支持不太好 3.JAVA:代码笨重,代码量大 4.C/C++:虽然效率高,但是代码成型慢 爬取数据的一般步骤 1.确定需要爬取的URL地址 2.由请求模块向URL

python网络爬虫进入(一)——简单的博客爬行动物

最近.对于图形微信公众号.互联网收集和阅读一些疯狂的-depth新闻和有趣,发人深思文本注释,并选择最佳的发表论文数篇了.但看着它的感觉是一个麻烦的一人死亡.寻找一个简单的解决方案的方法,看看你是否可以把互联网上的信息自己主动收集,然后,他们使用一个统一的筛选.可惜,最近准备学习的知识网络爬虫,于是按照网上的教程要学会尝试写自己的一个小爬虫,嘻嘻,韩寒的博客是用来攀爬. 第一个完整的代码贴上来,根据假设,朋友们需要测试.请安装python相关环境,存.再按F5执行. #导入urllib库,pyt

Python网络爬虫入门篇

1.  预备知识 学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. 2. Python爬虫基本流程 a. 发送请求 使用http库向目标站点发起请求,即发送一个Request,Request包含:请求头.请求体等. Request模块缺陷:不能执行JS 和CSS 代码. b. 获取响应内容 如果requests的内容存在于目标服务器上,那么服务器会返回请求内容. Response包含:html.Json字符串.图片,

python 网络爬虫入门笔记

参考:http://www.cnblogs.com/xin-xin/p/4297852.html 一.简介 爬虫即网络爬虫,如果将互联网比做成一张大网,那么蜘蛛就是爬虫.如果它遇到资源,将会抓取下来. 二.过程 在我们浏览网页时,我们经常会看到一些形形色色的页面,其实这个过程就是我们输入url,经DNS解析成对应的ip找到对应的服务器主机,向服务器发出一个请求,服务器经过解析之后将html,js等发回浏览器显示. 其实爬虫和这个过程差不多,只不过我们在抓取到html后,通过正则表达式来确定要获取

03,Python网络爬虫第一弹《Python网络爬虫相关基础概念》

引入 为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实际的应用还是从就业上. 我们都知道,当前我们所处的时代是大数据的时代,在大数据时代,要进行数据分析,首先要有数据源,而学习爬虫,可以让我们获取更多的数据源,并且这些数据源可以按我们的目的进行采集. 优酷推出的火星情报局就是基于网络爬虫和数据分析制作完成的.其中每期的节目话题都是从相关热门的互动平台中进行相关数据的爬取,然后对爬取到的数据进行数据分析而得来的.另一

Python网络爬虫实战-Scrapy视频教程 Python系统化项目实战课程 Scrapy技术课程

课程目录01.scrapy是什么.mp4Python实战-02.初步使用scrapy.mp4Python实战-03.scrapy的基本使用步骤.mp4Python实战-04.基本概念介绍1-scrapy命令行工具.mp4Python实战-05.本概念介绍2-scrapy的重要组件.mp4Python实战-06.基本概念介绍3-scrapy中的重要对象.mp4Python实战-07.scrapy内置服务介绍.mp4Python实战-08.抓取进阶-对"西刺"网站的抓取.mp4Python

Python网络爬虫入门,带你领略Python爬虫的乐趣!

前段时间小编写了一篇有关于Python入门的文章,我觉得写的还是不够好,所以我特地补上一篇Python爬虫的入门的,本文特别适合Python小白,刚学习爬虫不久.接下来就让我们一起来写第一个例子吧! 一.我们的目标 1.作为第一个例子,我就以抓取糗事百科热门贴为例吧 2.糗事百科热门帖,获取其发布者.评论.点赞数.评论等信息 3.将信息清洗并打印,循环输出 4.设计程序,使可以选择抓取的页面范围 5.将每一页的信息保存到文本 二.开发环境介绍 phthon 2.7.13 IDE:PyCharm

python网络爬虫(二)requests库的基本介绍和使用

一.requests库的七个重要方法 (1)最常用方法:requests.get(url,params=None,**kwargs)//对应HTTP协议的GET()操作 (请求获得URL位置的资源) ① url:拟获取页面的url链接.url:在WWW上,每一信息资源都有统一的且在网上唯一的地址, 该地址就叫URL(Uniform Resource Locator,统一资源定位符),它是WWW的统一资源定 位标志,就是指网络地址.例:http://baidu.com ② params:url中的