java爬虫爬取的html内容中空格（ ）变为问号“?”的解决方法

　　用java编写的爬虫，使用xpath爬取内容后，发现网页源码中的 全部显示为?（问号），但是使用字符串的replace("?", "")，并不能替换，网上找了一下，大概意思是显示的这个问号其实并不是问号，是乱码，主要是由于编码的问题导致的。

解决方法如下：

//替换抓取内容中“&nbsp;”变为问号的问题
try {
        intro = new String(intro.getBytes(),"GBK").replace(‘?‘, ‘ ‘).replace(‘　‘, ‘ ‘);
} catch (Exception e){
        e.printStackTrace();
}

其中replace(‘　‘, ‘ ‘)中，前面哪一个空格是全角空格。

参考链接：

http://bbs.csdn.net/topics/360072952

时间： 2024-11-13 18:05:10

java爬虫爬取的html内容中空格（ ）变为问号“?”的解决方法的相关文章

Java爬虫爬取天猫淘宝京东搜索页和商品详情

Java爬虫爬取天猫淘宝京东搜索页和商品详情先识别商品url,区分平台提取商品编号,再根据平台带着商品编号爬取数据. 1.导包  <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>3.10-FINAL</version> </

java爬虫问题二: 使用jsoup爬取数据class选择器中空格多选择怎么解决

问题描述: 在使用jsoup爬取其他网站数据的时候,发现class是带空格的多选择,如果直接使用doc.getElementsByClass("class的值"),这种方法获取不到想要的数据. 爬取网站页面结构如下: 其中文章列表的div为:<div class="am-cf inner_li inner_li_abtest"></div> 我们可以看到其class的值为:am-cf inner_li inner_li_abtest.带空格的

java爬虫爬取网页内容前，对网页内容的编码格式进行判断的方式

近日在做爬虫功能,爬取网页内容,然后对内容进行语义分析,最后对网页打标签,从而判断访问该网页的用户的属性. 在爬取内容时,遇到乱码问题.故需对网页内容编码格式做判断,方式大体分为三种:一.从header标签中获取Content-Type=#Charset:二.从meta标签中获取Content-Type=#Charset:三.根据页面内容分析编码格式. 其中一/二方式并不能准确指示该页面的具体编码方式,周全考虑,加入第三种方式. 第三种方式引入开源jar包info.monitorenter.cp

java爬虫爬取博客园数据

网络爬虫编辑网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕虫. 网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler).聚焦网络爬虫(Focused Web Crawler).增量式网络爬虫(Incremental Web Crawler).深层网络爬虫(Deep We

java爬虫爬取学校毕设题目

背景效果思路代码准备依赖(jar包): 建表代码 java爬虫过程解析如何解决分页问题背景最近很多大四学生问我毕业设计如何选题 “你觉得图书管理系统怎么样?” “导师不让做这个,说太简单” “那你觉得二手交易平台怎么样?” “导师说没新意,都有咸鱼了你做这个有什么意思?要新颖的” “那你觉得个人博客平台的搭建怎么样?” “啥是博客?” “emmmm……在线售票怎么样?” “导师说今年不让选xx管理系统,这些都太简单” “那你觉得做人脸识别或者垃圾自动分类怎么样” “导师说这些太难

爬虫---爬取公众号内容

前面写都是抓取一些网站上的数据,今天工作提前完成了,闲来无事写一篇如何抓取公众号数据. 爬取公众号常见的爬取公众号有3种方法 1.通过抓包获取公众号数据(app端) 2.通过抓包获取公众号数据(PC端) 3.通过搜狗搜索公众号(目前只能显示前10篇文章) 今天写的是通过抓取PC端数据获取公众号内容. 抓取思路 1.选择需要抓取的公众号链接通过PC端微信选择需要抓取的公众号 2.分析公众号数据格式通过fiddler查看请求信息发现我们请求的地址为:https://mp.weixin.qq.

Java爬虫爬取京东商品信息

<strong> java<em style="color:red;">爬虫</em></strong>工具:Jsoup Maven地址 <dependency>  <groupId>org.jsoup</groupId> <artifactId>jsoup</ar

java新手在实际开发中所遇到的问题及解决方法小结，（持续更新遇到的问题）

?从事开发一年有余,想到自己初入公司时的困窘,在此把我记忆中在实际开发中所遇到的问题做一总结性的小结,为自己以后方便查阅,以及后来者遇到相同问题时解决更加方便快捷,希望大家集思广益把自己遇到的问题及解决方法写出来,添砖加瓦.为后来者给予一点帮助! 实用案例如何使用Java实现汉诺塔问题 Java中定时器的使用方法 Java打印杨辉三角的具体实现代码 Java中如何实现分页功能 Java读取大文件如何高效率 Java中生成随机数的几种方法 Java zip压缩单个文件实现方法如何计算Java对

python3 爬虫学习-根据关键词爬取百度百科内容

小白编了好久才写出来,记录一下免得之后再用的时候都忘了还得重新学~ 学习爬虫最开始是学习了慕课上的python课程,然后学习了慕课和网易云上的爬虫教程.这两个自己去查一下就好了~ 开始还比较费劲,毕竟熟悉需要时间么,而且python也不太熟悉. 关于python版本:我一开始看很多资料说python2比较好,因为很多库还不支持3,但是使用到现在为止觉得还是pythin3比较好用,因为编码什么的问题,觉得2还是没有3方便.而且在网上找到的2中的一些资料稍微改一下也还是可以用. 好了,开始说爬百度百

java爬虫爬取的html内容中空格（&nbsp;）变为问号“?”的解决方法

java爬虫爬取的html内容中空格（&nbsp;）变为问号“?”的解决方法的相关文章

java爬虫爬取的html内容中空格（）变为问号“?”的解决方法

java爬虫爬取的html内容中空格（）变为问号“?”的解决方法的相关文章