段错误核心已转储尝试解决

1.在进行

gdb python
r XX.py
where

调试时，报出以下错误：

1）每次运行都开38个线程，是否是线程超载[New Thread 0x7ffff2fd2700 (LWP 7415)]

[New Thread 0x7ffff27d1700 (LWP 7416)]
[New Thread 0x7fffeffd0700 (LWP 7417)]
[New Thread 0x7fffeb7cf700 (LWP 7418)]
[New Thread 0x7fffe8fce700 (LWP 7419)]
[New Thread 0x7fffe67cd700 (LWP 7420)]
[New Thread 0x7fffe3fcc700 (LWP 7421)]
[New Thread 0x7fffe17cb700 (LWP 7422)]
[New Thread 0x7fffdefca700 (LWP 7423)]
[New Thread 0x7fffdc7c9700 (LWP 7424)]
[New Thread 0x7fffd9fc8700 (LWP 7425)]
[New Thread 0x7fffd77c7700 (LWP 7426)]
[New Thread 0x7fffd4fc6700 (LWP 7427)]
[New Thread 0x7fffd27c5700 (LWP 7428)]
[New Thread 0x7fffcffc4700 (LWP 7429)]
[New Thread 0x7fffcd7c3700 (LWP 7430)]
[New Thread 0x7fffcafc2700 (LWP 7431)]
[New Thread 0x7fffc87c1700 (LWP 7432)]
[New Thread 0x7fffc5fc0700 (LWP 7433)]
[New Thread 0x7fffc37bf700 (LWP 7434)]
[New Thread 0x7fffc0fbe700 (LWP 7435)]
[New Thread 0x7fffbe7bd700 (LWP 7436)]
[New Thread 0x7fffbbfbc700 (LWP 7437)]
[New Thread 0x7fffb97bb700 (LWP 7438)]
[New Thread 0x7fffb6fba700 (LWP 7439)]
[New Thread 0x7fffb47b9700 (LWP 7440)]
[New Thread 0x7fffb1fb8700 (LWP 7441)]
[New Thread 0x7fffaf7b7700 (LWP 7442)]
[New Thread 0x7fffacfb6700 (LWP 7443)]
[New Thread 0x7fffaa7b5700 (LWP 7444)]
[New Thread 0x7fffa7fb4700 (LWP 7445)]
[New Thread 0x7fffa57b3700 (LWP 7446)]
[New Thread 0x7fffa2fb2700 (LWP 7447)]
[New Thread 0x7fffa07b1700 (LWP 7448)]
[New Thread 0x7fff9dfb0700 (LWP 7449)]
[New Thread 0x7fff9b7af700 (LWP 7450)]
[New Thread 0x7fff98fae700 (LWP 7451)]
[New Thread 0x7fff967ad700 (LWP 7452)]
[New Thread 0x7fff93fac700 (LWP 7453)]

2）现在报出：

ERROR (theano.gpuarray): Could not initialize pygpu, support disabled
。。。
  File "pygpu/gpuarray.pyx", line 658, in pygpu.gpuarray.init
  File "pygpu/gpuarray.pyx", line 587, in pygpu.gpuarray.pygpu_init
GpuArrayException: cuDeviceGet: CUDA_ERROR_INVALID_DEVICE: invalid device ordinal

先不解决这个，先尝试测试一下：

发现，在import keras，也会报上述同样的错误！

 conda install mkl
conda install mkl-service
#使用以上两句均显示：
# All requested packages already installed.

conda install blas

依旧不可以导入keras包。

3)将原有的conda环境删除，又新创建了环境，用conda安装了mkl之后，尝试import keras之后，仍然报错：

Using Theano backend.
~/lib/python2.7/site-packages/theano/gpuarray/dnn.py:184: UserWarning: Your cuDNN version is more recent than Theano. If you encounter problems, try updating Theano or downgrading cuDNN to a version >= v5 and <= v7.
  warnings.warn("Your cuDNN version is more recent than "
ERROR (theano.gpuarray): Could not initialize pygpu, support disabled
Traceback (most recent call last):
  File "~/lib/python2.7/site-packages/theano/gpuarray/__init__.py", line 227, in <module>
    use(config.device)
  File "~/lib/python2.7/site-packages/theano/gpuarray/__init__.py", line 214, in use
    init_dev(device, preallocate=preallocate)
  File "~/lib/python2.7/site-packages/theano/gpuarray/__init__.py", line 99, in init_dev
    **args)
  File "pygpu/gpuarray.pyx", line 658, in pygpu.gpuarray.init
  File "pygpu/gpuarray.pyx", line 587, in pygpu.gpuarray.pygpu_init
GpuArrayException: cuDeviceGet: CUDA_ERROR_INVALID_DEVICE: invalid device ordinal

在我的.theanorc配置文件中，是这么写的：

[global]
floatX = float32
device =cuda1

尝试去掉cuda编号？居然成功了！

Using Theano backend.
~/.conda/envs/xhs/lib/python2.7/site-packages/theano/gpuarray/dnn.py:184: UserWarning: Your cuDNN version is more recent than Theano. If you encounter problems, try updating Theano or downgrading cuDNN to a version >= v5 and <= v7.
  warnings.warn("Your cuDNN version is more recent than "
Using cuDNN version 7201 on context None
Mapped name None to device cuda: GeForce GTX 1080 Ti (0000:03:00.0)

接下来尝试解决上述的用户警告。

由于theano已经是1.0.4最新版本，无法再进行更新，只能尝试将cuDNN版本降级。

但是使用conda list查看所有安装的包：

cudnn                     6.0.21                cuda8.0_0    https://mirrors.tuna.tsinghua.edu.cn/a

#尝试此命令查看pygpu是否可用
DEVICE="cuda" python -c "import pygpu; pygpu.test()"

出现以下问题：https://github.com/Theano/Theano/issues/6420

此帮助里说，如果不是使用多个GPU可以忽略test_collectives error。

#尝试以下，
python test_gpu.py
~/.conda/envs/xhs/lib/python2.7/site-packages/theano/gpuarray/dnn.py:184: UserWarning: Your cuDNN version is more recent than Theano. If you encounter problems, try updating Theano or downgrading cuDNN to a version >= v5 and <= v7.
  warnings.warn("Your cuDNN version is more recent than "
Using cuDNN version 7201 on context None
Mapped name None to device cuda: GeForce GTX 1080 Ti (0000:03:00.0)
[GpuElemwise{exp,no_inplace}(<GpuArrayType<None>(float32, vector)>), HostFromGpu(gpuarray)(GpuElemwise{exp,no_inplace}.0)]
Looping 1000 times took 0.192847 seconds
Result is [1.2317803 1.6187935 1.5227807 ... 2.2077181 2.2996776 1.623233 ]
Used the gpu

发现其使用的cudnn版本是7.2，明明是6.0但是却调用了7.2？

查看cuda的版本信息发现：

nvcc -V

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2017 NVIDIA Corporation
Built on Fri_Sep__1_21:08:03_CDT_2017
Cuda compilation tools, release 9.0, V9.0.176

test_collectives error

原文地址：https://www.cnblogs.com/BlueBlueSea/p/10780182.html

时间： 2024-10-10 10:21:38

段错误核心已转储尝试解决的相关文章

Linux下运行C++程序出现"段错误(核心已转储)"的原因

今天写程序出现了“段错误(核心已转储)"的问题,查了一下资料,加上自己的实践,总结了以下几个方面的原因. 1.内存访问出错这类问题的典型代表就是数组越界. 2.非法内存访问出现这类问题主要是程序试图访问内核段内存而产生的错误. 3.栈溢出 Linux默认给一个进程分配的栈空间大小为8M.c++申请变量时,new操作申请的变量在堆中,其他变量一般在存储在栈中. 因此如果你数组开的过大变会出现这种问题. 首先我们先看一下系统默认分配的资源: 1 ulimit -a 可以看到默认分配的栈大

段错误（核心已转储）的原因

一.什么是段错误? 一旦一个程序发生了越界访问,cpu 就会产生相应的保护,于是 segmentation fault 就出现了,通过上面的解释,段错误应该就是访问了不可访问的内存,这个内存区要么是不存在的,要么是受到系统保护的,还有可能是缺少文件或者文件损坏. 二.段错误产生的原因下面是一些典型的段错误的原因: 非关联化空指针--这是特殊情况由内存管理硬件试图访问一个不存在的内存地址(在进程的地址空间) 试图访问内存的程序没有权利(如内核结构流程上下文) 试图写入只读存储器(如代码段) 1

C++中单项链表的结点删除问题——为什么我的链表编译能过，但是运行的时候显示：* Error in `./list': free(): invalid pointer: 0x08ba20cc * 已放弃 (核心已转储)

1 #include<iostream> 2 #include<cstring> 3 using namespace std; 4 5 struct student{ 6 int my_id; 7 char name[20]; 8 int my_age; 9 int my_score; 10 student *next = nullptr; 11 student() = default; 12 student(int id,const char *n,int age,int sco

linux下C编程free()时出现飘忽诡异的段错误（核心已转储）问题

先说一下问题现场. 代码如下 free(volthisframe->Tops); free(volthisframe->Bots); printf("what\n"); free(volthisframe->SCTops); free(volthisframe->SCBots); 运行时出现段错误,"what"随机出现,也就是说可能是打印前出现段错误,也可能是打印后出现段错误.但最终定位就在这几行free里面. 人格保证,各个指针都有初始化,

GCC 4.6.3段错误（核心已转储）

//串口相关的头文件 #include <stdio.h> /*标准输入输出定义*/ #include <stdlib.h> /*标准函数库定义*/ #include <sys/types.h> #include <sys/stat.h> #include <fcntl.h> /*文件控制定义*/ #include <unistd.h> /*标准输入输出定义*/ #include <errno

788错误。L2TP 连接尝试失败，因为安全层不能身份验证远程计算机。怎么解决？

需要确保IPsec Policy Agent服务已经自动随机器启动,计算机管理-->服务-->把IPsec Policy Agent启动方式改自动. 600发生了内部错误,重启 601检测到无效的端口 602问题:指定的端口已打开,拨号网络由于设备安装错误或正在使用,不能进行连接原因:虚拟拔号软件没有完全和正确的安装,解决:退出COM应用程序,卸载干净任何拔号软件,并重新安装拔号软件. 603缓冲区太小,发生了内部错误 604指定了错误的信息.重新配置“网络和拨号连接” 605不能设置的端口信

常见的Linux下的段错误及解决办法

一.段错误所谓的段错误就是指访问的内存超出了系统所给这个程序的内存空间,通常这个值是由gdtr来保存的,他是一个48位的寄存器,其中的32位是保存由它指向的gdt表,后13位保存相应于gdt的下标,最后3位包括了程序是否在内存中以及程序的在cpu中的运行级别,指向的gdt是由以64位为一个单位的表,在这张表中就保存着程序运行的代码段以及数据段的起始地址以及与此相应的段限和页面交换还有程序运行级别还有内存粒度等等的信息.一旦一个程序发生了越界访问,cpu就会产生相应的异常保护,于是segment

水晶报表服务器运行一段时间提示错误：已达到系统管理员配置的最大报表处理作业数限制。

大家可能在第一次使用水晶报表时会因为忘记释放资源导致,用上一段时间遇到水晶报表加载错误:已达到系统管理员配置的最大报表处理作业数限制. 一般情况以下两种方法即可解决问题. 1.直接修改注册表新建一个.REG文件新建一下注册表值 [HKEY_LOCAL_MACHINE\SOFTWARE\Crystal Decisions\12.0\Report Application Server\InProcServer]"PrintJobLimit"="1000" [HKEY_

liunx 下面段错误段解决

起因:因为错误的配置了 gcc,并写入了 .bashrc source 文件后一值出现段错误,重启也解决不了尝试很多次,发现export 命令可以正常使用因为是gcc 报的错,临时将gcc 设置如下 export LD_LIBRARY_PATH="" 命令可以使用了修改.bashrc 既可以备注 :gcc lib 库的环境变量不要随便改,有可能导致系统不可用原文地址:https://blog.51cto.com/sdsca/2455510

段错误 核心已转储尝试解决

段错误 核心已转储尝试解决的相关文章

段错误核心已转储尝试解决

段错误核心已转储尝试解决的相关文章