使用阻塞队列批量导入与使用forkjoinPool框架的导入对比

来源：互联网发布：淘宝实名认证的截图编辑：程序博客网时间：2024/06/16 12:23

一：本人使用的环境

jdk1.7+window 10 + oracle 11g

二：使用的技术

1：阻塞队列（BlockingQueue）：先进先出（FIFO），生产者-消费者的模式

分为有界队列（ArrayBlockingQueue）、无界队列（linkedBlocingQueue）等，其他的不在此举例

其put（）方法：如果队列已满则阻塞，直到队列中减少，才能被唤醒其线程，有机会去争取资源，继续添加元素到队列中。

其take（）方法：如果队列中没有元素，则阻塞该线程，直到阻塞队列中put元素到队列中，才能被唤醒线程。

2：使用ForkJoinPool框架：一种将大任务分割成若干的小任务来执行，至于分成多少个，设置其阀值，比如阀值为100，如果小于100，则不分割，超过100，就再次的分割，其一个重要的特点（也是其框架的一种有效的智能方法来平衡可用线程的工作负载）：工作密取（working-stealing），当某个线程的所有任务都现行执行完毕时，就会向其他执行慢的任务队列中偷取任务来完成，从队列的尾部来偷取，（该队列使用的是双端队列），正常情况下都是从队列头部来取任务来执行，只有工作窃取的时候才会从队列的尾部来取任务，需要继承一个计算合并结果的RecursiveTask<T>或一个没有任务返回的RecursiveAction。其中invoke（ForkJoinTask）同步/有返回结果、execute（）异步/没有返回任何。submit（ForkJoinTask）异步/返回一个ForkJoinTask

3：使用线程池（ThreadPoolExecutor）：可以很大的程度上减少传统的新建（new Thread）以及销毁而带来的性能降低和内存资源消耗的开销。（接口ExecutorService可以执行线程）

1.newFixedThreadPool（int）可以指定固定的线程数,操作无界队列

2.newScheduleThreadPool(int corePoolsize):可以调度一个在给定的延迟后运行。

3.newSingleThreadPool():创建一个单一的线程来执行。

4.newCacheThreadPool():根据需要来创建新的线程，但在可用时将重用先前的构建的线程。

三：使用阻塞队列时：

ExecutorService executorService = Executors.newFixedThreadPool(10);

BlockingQueue<String> queue = new ArrayBlockingQueue<String>(10000);
BlockQueuThread aa = new BlockQueuThread(queue, randomCodeSeg);
executorService.execute(aa);

SegCodeQueueThread codeQueue = null;
for(int i =0 ; i<4;i++){
codeQueue = new SegCodeQueueThread(baseCdsService,codeSegmentDao, codePoolBean, queue);
executorService.execute(codeQueue);
}

BlockQueuThread 读入到队列中的run方法体：

int siez = randomCodeSeg.size();
String aa = "end";
try {
for(int i = 0 ; i< siez ; i++ ){
queue.put(randomCodeSeg.get(i));
System.out.println("线程name:"+Thread.currentThread().getName()+"-->该线程状态："+Thread.currentThread().getState()+"queue队列长度："+queue.size());
}
queue.put(aa);
} catch (InterruptedException e) {
// TODO Auto-generated catch block
System.out.println(e.getMessage());
e.printStackTrace();

SegCodeQueueThread中的run方法体：

boolean bo = false;
// final LinkedList<Object[]> list = new LinkedList<>();
while(!bo){
final String take = queue.take();
final Object[] ob = new Object[2];
ob[0] = codePoolBean.getSEGMENT_ID();
ob[1] = take;
// list.add(ob);
if("end".equals(take)){
System.out.println("结束blockingQueue");
bo = true;
continue;
}
System.out.println("线程name:"+Thread.currentThread().getName()+"-->该线程状态："+Thread.currentThread().getState()+"queue取出："+take);
// codeSegmentDao.insertCodeSegNumT(take,codePoolBean);
baseCdsService.update(sql, ob);
}

执行92万条数据，纯插入单张表，但是执行到一定的时候，线程发生死锁；锁死的错误如下：

堆栈跟踪:

java.io

.FileOutputStream.writeBytes(Native Method)

java.io

.FileOutputStream.write(FileOutputStream.java:318)

java.io

.BufferedOutputStream.flushBuffer(BufferedOutputStream.java:82)

java.io

.BufferedOutputStream.flush(BufferedOutputStream.java:140)
- 已锁定

java.io

.BufferedOutputStream@fe5ea3e

java.io

.PrintStream.write(PrintStream.java:482)
- 已锁定

java.io

.PrintStream@40ee52e3
sun.nio.cs.StreamEncoder.writeBytes(StreamEncoder.java:221)
sun.nio.cs.StreamEncoder.implFlushBuffer(StreamEncoder.java:291)
sun.nio.cs.StreamEncoder.flushBuffer(StreamEncoder.java:104)
- 已锁定

java.io

.OutputStreamWriter@3f759499

java.io

.OutputStreamWriter.flushBuffer(OutputStreamWriter.java:185)

java.io

.PrintStream.write(PrintStream.java:527)
- 已锁定

java.io

.PrintStream@40ee52e3

java.io

.PrintStream.print(PrintStream.java:669)

java.io

.PrintStream.println(PrintStream.java:806)
- 已锁定

java.io

.PrintStream@40ee52e3
org.apache.tomcat.util.log.SystemLogHandler.println(SystemLogHandler.java:264)
com.uniform.codeSegment.util.SegCodeQueueThread.run(SegCodeQueueThread.java:52)
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
java.lang.Thread.run(Thread.java:722)

问题定位：从上面已锁定可以看出，在操作IO的时候出现死锁，在网上搜索下，原因是system.out.print()的问题，在多线程使用的情况下，出现这种情况，

有使用log4j，也会log。info（）出现问题。

问题解决：将所有执行的操作中去掉system打印语句。

可参考文章：http://blog.csdn.net/qq_24504453/article/details/75028213

使用forkJoinPool框架的时候，同样的批量导入操作，经本人多次的测试，没有发生异常，每秒达到680次。

继承两种方式：一种有返回值的，合并所有的子任务后返回数据（RecursiveTask），还有一种没有返回数据的

（RecursiveAction）

代码如下：

ForkJoinPool forkJoinPool = new ForkJoinPool();
SegCodeTask codeTask = new SegCodeTask(baseCdsService,codeSegmentDao, codePoolBean, randomCodeSeg, 0, randomCodeSeg.size());
// forkJoinPool.execute(codeTask);
Integer invoke = forkJoinPool.invoke(codeTask);
System.out.println("获取已启动但是还未执行完成的线程数目："+forkJoinPool.getPoolSize());
System.out.println("获取由工作线程队列中的任务总数的计算："+forkJoinPool.getQueuedTaskCount());
System.out.println("获取从一个线程被另一个线程窃取的总任务数："+forkJoinPool.getStealCount());
System.out.println("获取活动的线程数目："+forkJoinPool.getActiveThreadCount());
System.out.println("总任务执行数目："+invoke);

@Override
protected Integer compute() {
if(end - begin <= mid){
LinkedList<Object[]> list = new LinkedList<>();
try{
long startTime=System.currentTimeMillis();
for(int i= begin ; i<end;i++){
Object[] ob = new Object[2];
ob[0] = codePoolBean.getSEGMENT_ID();
ob[1] = randomCodeSeg.get(i);
list.add(ob);
// String take = randomCodeSeg.get(i);
// codeSegmentDao.insertCodeSegNumT(take,codePoolBean);
}
baseCdsService.batchInsert(sql, list);
// codeSegmentDao.insertCodeSeg(list,codePoolBean);
long endTime=System.currentTimeMillis();
float excTime=(float)(endTime-startTime)/1000;
System.out.println("执行sql语句的时间："+excTime+"s");

}catch (Exception e) {
// TODO: handle exception
e.getStackTrace();
return 0;
}
return list.size();
}else{
int middle = (end + begin) / 2;
SegCodeTask oneTask = new SegCodeTask(baseCdsService,codeSegmentDao, codePoolBean, randomCodeSeg,begin,middle);
SegCodeTask twoTask = new SegCodeTask(baseCdsService,codeSegmentDao, codePoolBean, randomCodeSeg, middle, end);
invokeAll(oneTask,twoTask);
return oneTask.join() + twoTask.join();
}

特别注意，上述的操作都是使用SPRING 中的jdbc，使用批量插入batchInsert以及单条插入

但是使用mybatis中sqlSession交互数据库，却发现92万根本无法导入成功，都会在几万的时候会锁死，也使用过动态sql的foreach作导入，也不尽人意

不知道是否是mybatis就不支持大批量的导入操作呢？还是sqlsession连接数问题？

阅读全文

0 0