某些场景下,我们在写UDF实现业务逻辑时候,可能需要去读取某个配置文件。
大多时候我们都会将此文件上传个hdfs某个路径下,然后通过hdfs api读取该文件,但是需要注意:
UDF中读取文件部分最好放在静态代码块中(只会在类加载时候读取一次),尤其在处理的数据量比较大的时候,否则会反反复复的读取,造成不必要的开销,甚至任务失败,示例代码如下:
package cn.com.dtmobile.udf; import java.util.HashMap; import org.apache.spark.sql.api.java.UDF2; import cn.com.dtmobile.util.HdfsUtil; public class CalculateRsrp implements UDF2<Double, String, Double> { private static final long serialVersionUID = 1L; private static HashMap<String,Double> paramteres = null; static { paramteres = HdfsUtil.readHdfsFile("your file location"); } @Override public Double call(Double t1, String t2) throws Exception { // 处理逻辑 return null; } }
原文地址:https://www.cnblogs.com/dtmobile-ksw/p/11468557.html
时间: 2024-10-13 20:48:17