2021年12月 – gitweixin

Java 12月 14,2021

Java多线程使用总结

Java线程的3种创建方式，使用继承方式的好处是方便传参，你可以在子类里面添加成员变量，通过set方法设置参数或者通过构造函数进行传递，而如果使用Runnable方式，则只能使用主线程里面被声明为final的变量。不好的地方是Java不支持多继承，如果继承了Thread类，那么子类不能再继承其他类，而Runable则没有这个限制。前两种方式都没办法拿到任务的返回结果，但是Futuretask方式可以。

sleep与yield方法的区别在于，当线程调用sleep方法时调用线程会被阻塞挂起指定的时间，在这期间线程调度器不会去调度该线程。而调用yield方法时，线程只是让出自己剩余的时间片，并没有被阻塞挂起，而是处于就绪状态，线程调度器下一次调度时就有可能调度到当前线程执行。

守护线程并非只有虚拟机内部可以提供，用户也可以手动将一个用户线程设定/转换为守护线程。在Thread类中提供了一个setDaemon(true)方法来将一个普通的线程（用户线程）设置为守护线

public final void setDaemon(boolean on);

如果你希望在主线程结束后JVM进程马上结束，那么在创建线程时可以将其设置为守护线程，如果你希望在主线程结束后子线程继续工作，等子线程结束后再让JVM进程结束，那么就将子线程设置为用户线程。

作者 east

Java, 数据库 12月 14,2021

华为大数据平台FusionInsight HD Redis批量删除key方法

spark程序突然跑不起来，排查后发现原来是内存满了。（可以通过redis客户端的 info memory命令查看）

./redis-cli -h 127.0.0.1 -p 6379
info memory

网上查到的批量方案

./redis-cli -h 127.0.0.1 -p 6379 keys "mykeys*" | xargs ./redis-cli -h 127.0.0.1 -p 6379 del

运行后报错。好像在华为的FusionInsight HD集群这种方案行不通。

后来通过阅读源码，在ClusterUtil的类发现可以批量删除key的方法。

  public void batchDelete(String pattern, int tryTimes)
  {
    if (tryTimes <= 0) {
      throw new IllegalArgumentException("tryTimes must be greater than or equal to 0");
    }
    ScanParams scanRarams = new ScanParams().match(pattern).count(1000);
    Set<JedisPool> pools = this.jedisCluster.getServingNodes();
    CountDownLatch latch = new CountDownLatch(pools.size() * tryTimes);
    try
    {
      for (int i = 0; i < tryTimes; i++) {
        for (JedisPool jedisPool : pools) {
          this.threadPool.submit(new DelRunnable(jedisPool, scanRarams, latch));
        }
      }
      latch.await();
    }
    catch (InterruptedException e)
    {
      throw new JedisException(e);
    }
  }

作者 east

shardingsphere 12月 10,2021

Shardingsphere 4.0.0-RC1使用遇到的坑

1、使用pagehelper后跨表查询奇慢无比

shardingsphere后面的版本还没试过，在目前版本时，结合mybatis + pagehelper组件是有存在问题的。在
Shardingsphere 4.0.0-RC1和pagehelper分页时报错解决一文解决了冲突，没想到后来又发现新的问题，在进行分表时，每个表数据几百万，查询跨几个表时，发现要等几分钟才出来结果。这样比单库查询加索引查还慢，一时很崩溃，本来分库分表为了提高速度，现在反而速度更慢了。后来在查询前把

PageHelper.startPage(pageNum, pageSize);

注释掉，刷刷一下子出来结果了。看来如果要实现分页还是自己实现。

2、查询语句太复杂，不走分片规则，进行全库查询

原来sql语句片段如下：

(VALUE1 LIKE concat(#(value,jdbcType=VARCHAR},%) AND TYPE = 1) OR  
(VALUE2 LIKE concat(#(value,jdbcType=VARCHAR},%) AND TYPE = 2) OR 
(VALUE2 LIKE concat(#(value,jdbcType=VARCHAR},%) AND TYPE = 3)

没有调用到分片规则，后来把sql改简单后就正常了。例如下面的

TYPE != 4 AND VALUE1 LIKE concat(#(value,jdbcType=VARCHAR},%) OR VALUE2 LIKE concat(#(value,jdbcType=VARCHAR},%)

作者 east

Spark 12月 6,2021

Spark Streaming多个输入流

由于业务需要，一个地方部署1个Spark Streaming程序，由于业务扩展部署了多个地方，导致大数据平台的yarn资源不足了，CPU和内存经常是100%的。而且多套只是配置不同的程序，一旦有修改，维护起来也不方便。于是想到提升Spark Streaming的并行度，同时接收多个Dstream的输入。

通过网络接收数据（如Kafka、Flume、套接字等）需要将数据反序列化并存储在Spark上，如果数据接收成为系统中的瓶颈，则需要并行接收数据。主要通过提升Receiver的并发度和调整Receiver的RDD数据分区时间隔。提升Receiver的并发度：在Worker节点上对每个输入DStream创建一个Receiver并运行，以接收一个数据流。通过创建多个输入DStream并配置从数据源接收不同分区的数据流，从而实现接收多数据流。例如，一个单Kafka输入DStream接收两个主题的数据，可以分成两个Kafka的输入流，每个仅仅接收一个主题。输入DStream运行在两个Worker节点的接收器上，从而能够并行接受并行，提高整体的吞吐量。多DStream可以通过联合（union）在一起从而创建一个DStream，这样一些应用在一个输入DStream的转换操作便可以用在联合后的DStream上。

JavaDstream<string> sources1=ssc.receiverstream(new JavacustomReceiver2(ip1, port, StorageLevel.MEMORY_ONLY-2()));

JavaDStream<String> sources2 = ssc.receiverStream(new JavaCustomReceiver2(ip2, port, StorageLevel.MEMORY_ONLY-2()));
JavaDStream<String> sources3 = ssc.receiverstream(new JavaCustomreceiver2(whip, port, StorageLeve1.MEMORY_ONLY-2()));

Javadstream<string> sources3 = ssc.socketTextstream(ip3, port, storagetevel.MEMORY ONLY2())); 
JavaDStream<String> sources = sources1.union(sources2).union(sources3);

作者 east

月度归档12月 2021