Android/java 计算大文件的SHA1值

来源：互联网发布：数据可视化方案编辑：程序博客网时间：2024/05/29 15:12

最近做android的一个小工具，其中一个功能要计算一个apk的sha1值。但是遇到大的文件就会报错。遇到任何问题，首先要发现问题，然后分析问题，最后解决问题。

发现问题

我调试了一下程序，发现问题出现在下面的代码里如下：

[java] view plaincopy
File file=new File(path);  
long length=file.length();  
DataInputStream in;  
in = new DataInputStream(new FileInputStream(path));  
byte[] buf = new byte[(int) length];     

当我要计算一个大小为50M的apk包时，我的程序直接就报错了，内存溢出。

[java] view plaincopy
byte[] buf = new byte[(int) length];     

这行代码，导致内存溢出，一次直接申请50M的内存，导致程序崩溃。

2. 分析问题

当我们发现了问题，通过分析问题，找到了原因。不能一次根据文件大小而申请内存空间，因为判断一下，如果是大文件，我们应该分割成小文件进行对应操作。

3. 解决问题

通过分析问题，我们找到解决问题的大概思路。将大文件分割成小文件进行处理。这个比较容易。代码如下：

[java] view plaincopy
File file=new File(path);  
FileInputStream in = new FileInputStream(file);  
MessageDigest messagedigest;  
try {  
messagedigest = MessageDigest.getInstance("SHA-1");  
  
   byte[] buffer = new byte[1024 * 1024 * 10];  
   int len = 0;  
     
   while ((len = in.read(buffer)) >0) {  
  //该对象通过使用 update（）方法处理数据  
    messagedigest.update(buffer, 0, len);  
   }  

首先，buffer申请10M大小的空间，调用函数in.read(buffer)，每次读取10M的内容赋给buffer，然后通过调用MessageDigest.update进行对应操作(MessageDigest后续介绍)。通过这个方法，把内存溢出解决了。

但是，我遇到一个新的问题。在java,android里面，计算SHA1或者MD5值的时候，不用像C那样按照原理进行操作，sdk里面已经有封装好的类，可以直接调用。这个类就是MessageDigest。计算sha1的时候，都是将整个文件的内容，进行MessageDigest.update，我的理解update就是提交数据。然后调用MessageDigest.digest()进行计算就可以了。之前对MessageDigest不了解，以为我每次 messagedigest.update(buffer, 0, len)，旧的数据会被新数据覆盖。

通过调研，发现事实不是这样的。

MessageDigest.update()你调用多次，它会将这些数据合并一起，不会覆盖。当你调用digest方法，则说明输入消息结束。进行初始化，update提交的数据丢失。

举了个例子。

[java] view plaincopy
//现在有i1、i2和i3，分别是3个字节数组，构成一个消息，计算其散列函数值：  
MessageDigest sha1 = MessageDigest.getInstance（“sha-1”）；  
sha1.Update（i1）；  
sha1.Update（i2）；  
sha1.Update（i3）；  
byte[] hash = sha1.digest();  

咱们这样计算出的是这i1,i2,i3组成的字节数组的sha1值，而不是i3值。在一些散列函数实现中，可以通过复制（clone）来获得中间散列数值。如下所示：

[java] view plaincopy
//要分别计算：i1，i1和i2，i1、i2和i3的散列数值。  
//计算i1 hash  
sha1.update(i1);  
byte[] i1Hash = sha1.clone().digest();  
//计算i1和i2 hash  
sha1.update(i2);  
byte[] i12Hash = sha1.clone().digest();  
//计算i1、i2和i3 hash  
sha1.update(i3);  
byte[] i123Hash = sha1.digest();  

这样，把计算大文件sha1值，内存溢出的问题就解决了。这也让我明白，以后遇到文件方面操作的时候，尽量别一次性读取。

下面贴出计算sha1值的代码，供大家参考。

[java] view plaincopy
/** 
 * 适用于上G大的文件 
 */  
 public static String getFileSha1(String path) throws OutOfMemoryError,IOException {  
File file=new File(path);  
FileInputStream in = new FileInputStream(file);  
MessageDigest messagedigest;  
try {  
    messagedigest = MessageDigest.getInstance("SHA-1");  
  
    byte[] buffer = new byte[1024 * 1024 * 10];  
    int len = 0;  
      
    while ((len = in.read(buffer)) >0) {  
   //该对象通过使用 update（）方法处理数据  
     messagedigest.update(buffer, 0, len);  
    }  
     
  //对于给定数量的更新数据，digest 方法只能被调用一次。在调用 digest 之后，MessageDigest 对象被重新设置成其初始状态。  
    return byte2hex(messagedigest.digest());  
}   catch (NoSuchAlgorithmException e) {  
    NQLog.e("getFileSha1->NoSuchAlgorithmException###", e.toString());  
        e.printStackTrace();  
    }  
catch (OutOfMemoryError e) {  
      
    NQLog.e("getFileSha1->OutOfMemoryError###", e.toString());  
        e.printStackTrace();  
        throw e;  
    }  
finally{  
     in.close();  
}  
    return null;  
 }  

原文地址：点击打开链接