问题现象
我们实现了一个名叫libilvrfplugin.so的lib,该lib链接了libiubsntconflib.so, 而libiubsntconflib.so 又链接了libipconflib.so, libipconflib.so里面实现了一个方法check_vrf_r()用于检查VRF的合法性。
简单点来说,A lib链接了B lib,而B lib又链接了C lib,C lib实现了方法check_vrf_r().
某些场景下,系统会动态加载A lib, 但是A lib根本没用到方法check_vrf_r()。注意这里是动态加载的lib库,也就是lib的使用方运行时会使用dlopen()加载该lib。
在新发布的版本里,我们发现该lib竟然没起做用,好像该lib 根本就不存在一样。
我们在syslog里找到下面一条log:
Apr 17 15:46:27.718075 info CFPU-0 Validator: CPluginManager : Unable to load plugin libilvrfplugin.so Error:/opt/nokiasiemens/lib64/libiubsntconflib.so: undefined symbol: check_vrf_r
从syslog 里可以看出动态加载libilvrfplugin.so(也就是 A lib)时失败,原因是找不到符号check_vrf_r。
疑惑一:这几个lib在上一个版本里工作正常,当前版本里没有任何改动,为什么会出错呢?
疑惑二:libilvrfplugin.so 中根本没用到符号check_vrf_r,为什么会报找不到符号呢?
查找问题
根据syslog里的线索,定位到出事的代码:
... lib_handle=dlopen(ep[count]->d_name,RTLD_LAZY); if(!lib_handle) { error = dlerror(); TRACER(TRC_INFO)<<"CPluginManager : Unable to load plugin " <<ep[count]->d_name << " Error:"<<error<<std::endl; free(ep[count]); continue; } // if ...
这里使用dlopen()来加载动态链接库,并设置flag为RTLD_LAZY,该flag控制了dlopen()加载lib时的解析方式,加载时不解析未定义的符号。本例中符号check_vrf_r就属于找不到定义的符号(因为A 库只是通过相应的include把符号包含了进来)。
顺便说一句,dlopen()还有一种解析方式是RTLD_NOW,这就要求所有的符号都需要解析到地址,不管该符号有没有用到。
但是本例中dlopen()解析方式是正确的,我们期望不去解析符号check_vrf_r,可是为什么还是去解析了呢?
原因可能是glibc的实现有变,有个bug也说不准,还有可能是哪里改变了dlopen的实现。顺便说一句由于C语言没有命名空间的概念,所以你可以定义一个与系统函数同名的函数以覆盖系统函数,大多数情况应该避免这么做。
经查glibc在我们发布的两个版本中没有变化,那么很可能是哪里改变了或影响了dlopen()。不得已,只能去翻看我们这个版本中所有代码变化。
我们惊奇的发现,在某个脚本里新增了这么一行代码:
export LD_PRELOAD=/opt/nokiasiemens/SS_FConfigure/lib/libdlopeninterceptor.so
从字面意义上看跟dlopen有关,"dlopen劫持者",好霸气的名字!接着看这个代码会起什么作用。
这里export了环境变量LD_PRELOAD,该环境变量声明了应用程序加载前优先加载的动态链接库,换句话说如果这里的动态链接库实现了与系统函数同名的函数的话,那么将覆盖系统函数。
怀着激动的心情查看该动态lib的实现:
#include <dlfcn.h> #include <syslog.h> #include <stdlib.h> #ifdef __cplusplus__ extern "C" { #endif typedef void* (*dlopen_func_t)(const char* filename, int flag); static dlopen_func_t _glibc_dlopen = NULL; void* dlopen(const char* filename, int flag) { int realflag = flag; if (NULL == _glibc_dlopen) { _glibc_dlopen = (dlopen_func_t)dlsym(RTLD_NEXT, "dlopen"); if (NULL == _glibc_dlopen) { syslog(LOG_CRIT, "dlopeninterceptor:Failed to resolve dlopen, got error:%s", dlerror()); return NULL; } } if (realflag & RTLD_LAZY) { realflag = realflag & ~RTLD_LAZY; realflag = realflag | RTLD_NOW; syslog(LOG_DEBUG, "dlopeninterceptor:Changing dlopen flag from to %d to %d when opening %s", flag, realflag, filename); } return _glibc_dlopen(filename, realflag); } #ifdef __cplusplus__ } #endif
惊奇的发现该Lib确实重写了dlopen(), 如果dlopen()指定的flag时RTLD_LAZY将强制转换成RTLD_NOW。找到root cause了,松一口气。
最后
查找到root cause后就简单了,给相应的组织或部门报个issue,将你的分析结果放上去就OK了,问题很快就解决了。后来听说是某个同事误操作在脚本中加了一行代码让dlopen()劫持者生效了。
类似这样的问题,root cause是很简单的,去fix花费的effort也不大。稍有困难的是如何在庞杂的系统中逐步定位问题,而且需要去查看整个系统的代码实现,由于对系统其他模块的不熟悉,必要时还需要给矛支持。感谢在此过程中给予支持的同事,也很欣慰公司有种很好的机制或氛围,让你在必要时都能得到给力的support。
系统函数dlopen()被劫持导致symbol找不到的问题记录