为何要用二进制文件读写

来源：互联网发布：js在数组的末尾加上空编辑：程序博客网时间：2024/05/21 10:19

google发布word2vec以后，身为NLP一枚小菜鸡，必须也得试试它的效果。尝试把这套神经网络架构的word embedding代码搞清楚，于是详读代码了。

好久不碰C，加上本来就不熟C，所以在I/O上读的有点吃力

不过一开始就学到一点，二进制文件的读写

coding的时候基本上没有什么区别，加一个binary的mode就可以，但是为什么要用二进制读写文件

参考：http://www.cnblogs.com/flying-roc/articles/1798817.html

使用二进制文件的好处
　　为什么要使用二进制文件。原因大概有三个：
　　第一是二进制文件比较节约空间，这两者储存字符型数据时并没有差别。但是在储存数字，特别是实型数字时，二进制更节省空间，比如储存 Real*4 的数据：3.1415927，文本文件需要 9 个字节，分别储存：3 . 1 4 1 5 9 2 7 这 9 个 ASCII 值，而二进制文件只需要 4 个字节（DB 0F 49 40）
　　第二个原因是，内存中参加计算的数据都是用二进制无格式储存起来的，因此，使用二进制储存到文件就更快捷。如果储存为文本文件，则需要一个转换的过程。在数据量很大的时候，两者就会有明显的速度差别了。
　　第三，就是一些比较精确的数据，使用二进制储存不会造成有效位的丢失。

考虑到大量的训练语料，以及每个词对应的向量是几百维的float类型，所以不论是存储空间，时间以精度上，都完爆文本文件，所以，二进制完胜

0 0