最近在使用hadoop做apache日志分析,发现测试数据没问题,但数据一多就出问题,报
java.lang.StackOverflowError错误,最后定位为正则表达式栈溢出,发现某些行的日志数据长度超过了800,所以就会报这个错误,
最后的解决方案是把这一小部分数据舍去掉。
添加如下代码
String log = value.toString();
if(log.length()>=800)
return;
在map阶段读入每一行的时候先判断这一行的长度,如果长度超过了800就不对这一行进行处理。
时间: 2024-10-12 12:22:20