代码问题—IRGAN_baseline

来源:互联网 发布:爱淘宝流氓软件 编辑:程序博客网 时间:2024/06/08 00:40

用的版本tensorflow是1.1+,python3.5,
原来的代码有几个mul和sub需要更新一下,另外就是log文件夹是没有的,代码中没有进行判断,不能够生产目录,会报错,所以自己创建了一个log文件夹,运行时,生成了相关的文件,结果程序没正常结束,生成的文件也是空的,所以这个地方的代码最后要注意改下。
这里写图片描述

这里写图片描述

本来觉得是时候跑下baseline的代码了(运行看哪里会出问题,没想到数据那么大),所以晚上开着跑了一晚上,现在来看,电脑没有死机,还挺好的,结果看下,竟然不是正常结束的。
以前遇到的问题是GPU内存不够,然后报错,切换成使用cpu之后就没有问题了。
这个呢?是不是也是因为内存溢出之类的。
这里写图片描述

have sampled 18100 pairshave sampled 18200 pairshave sampled 18300 pairshave sampled 18400 pairshave sampled 18500 pairsgenerate_dns_pair runed 6372.51 seconds2017-07-11 23:43:52.888271: E c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\35\tensorflow\stream_executor\cuda\cuda_driver.cc:1068] failed to synchronize the stop event: CUDA_ERROR_LAUNCH_FAILED2017-07-11 23:43:52.888575: E c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\35\tensorflow\stream_executor\cuda\cuda_timer.cc:54] Internal: error destroying CUDA event in context 000001EFCBA943F0: CUDA_ERROR_LAUNCH_FAILED2017-07-11 23:43:52.888880: E c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\35\tensorflow\stream_executor\cuda\cuda_timer.cc:59] Internal: error destroying CUDA event in context 000001EFCBA943F0: CUDA_ERROR_LAUNCH_FAILED2017-07-11 23:43:52.889206: F c:\tf_jenkins\home\workspace\release-win\m\windows-gpu\py\35\tensorflow\stream_executor\cuda\cuda_dnn.cc:2479] failed to enqueue convolution on stream: CUDNN_STATUS_EXECUTION_FAILEDProcess finished with exit code -1073740791 (0xC0000409)

这里写图片描述

那只能百度谷歌问题。
cuda_driver.cc:1068] failed to synchronize the stop event: CUDA_ERROR_LAUNCH_FAILED

cuda_timer.cc:54] Internal: error destroying CUDA event in context 000001EFCBA943F0: CUDA_ERROR_LAUNCH_FAILED

cuda_dnn.cc:2479] failed to enqueue convolution on stream: CUDNN_STATUS_EXECUTION_FAILED

Process finished with exit code -1073740791 (0xC0000409)

其他人也有这样完全相同的问题,也有某个报错信息一样。
这里写图片描述
有说是cuda在windows下限制核运行时间。
这里写图片描述
有些是提示参数问题。
这里写图片描述

这里写图片描述
有些是说cuda版本低的问题(但是我的更新到8了,应该不是这个问题)。

打算用cpu跑下, 结果将gpu换成cpu,发现一开始就会报错。改成小点的epoch之后还是这样的问题,不是吧,程序代码有问题?。
这里写图片描述

只能重新改回来,发现原来gpu的运行正常,缩小epoch 500000to5000to10数目,再跑一遍,也没有报错。:
这里写图片描述

呵呵,又没有解决问题。那就只能挂着问题,以后再看吧

原创粉丝点击