bug清单 – 第2页

bug清单, 大数据开发 4月 17,2023

CDH一个节点故障影响namenode启动

CDH某个节点磁盘故障，导致上面的角色都有问题。启动namenode时失败，日志报下面错误：

Error: recoverUnfinalizedSegments failed for required journal (JournalAndStream(mgr=QJM to [10.0.20.102:8485, 10.0.20.103:8485, 10.0.20.104:8485], stream=null))
java.io.IOException: Timed out waiting 120000ms for a quorum of nodes to respond.
at org.apache.hadoop.hdfs.qjournal.client.AsyncLoggerSet.waitForWriteQuorum(AsyncLoggerSet.java:137)
at org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager.createNewUniqueEpoch(QuorumJournalManager.java:197)
at org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager.recoverUnfinalizedSegments(QuorumJournalManager.java:436)
at org.apache.hadoop.hdfs.server.namenode.JournalSet6.apply(JournalSet.java:616) at org.apache.hadoop.hdfs.server.namenode.JournalSet.mapJournalsAndReportErrors(JournalSet.java:385) at org.apache.hadoop.hdfs.server.namenode.JournalSet.recoverUnfinalizedSegments(JournalSet.java:613) at org.apache.hadoop.hdfs.server.namenode.FSEditLog.recoverUnclosedStreams(FSEditLog.java:1603) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startActiveServices(FSNamesystem.java:1210) at org.apache.hadoop.hdfs.server.namenode.NameNode6.apply(JournalSet.java:616)atorg.apache.hadoop.hdfs.server.namenode.JournalSet.mapJournalsAndReportErrors(JournalSet.java:385)atorg.apache.hadoop.hdfs.server.namenode.JournalSet.recoverUnfinalizedSegments(JournalSet.java:613)atorg.apache.hadoop.hdfs.server.namenode.FSEditLog.recoverUnclosedStreams(FSEditLog.java:1603)atorg.apache.hadoop.hdfs.server.namenode.FSNamesystem.startActiveServices(FSNamesystem.java:1210)atorg.apache.hadoop.hdfs.server.namenode.NameNodeNameNodeHAContext.startActiveServices(NameNode.java:1898)
at org.apache.hadoop.hdfs.server.namenode.ha.ActiveState.enterState(ActiveState.java:61)
at org.apache.hadoop.hdfs.server.namenode.ha.HAState.setStateInternal(HAState.java:64)
at org.apache.hadoop.hdfs.server.namenode.ha.StandbyState.setState(StandbyState.java:49)
at org.apache.hadoop.hdfs.server.namenode.NameNode.transitionToActive(NameNode.java:1756)
at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.transitionToActive(NameNodeRpcServer.java:1700)
at org.apache.hadoop.ha.protocolPB.HAServiceProtocolServerSideTranslatorPB.transitionToActive(HAServiceProtocolServerSideTranslatorPB.java:107)
at org.apache.hadoop.ha.proto.HAServiceProtocolProtosHAServiceProtocolServiceHAServiceProtocolService2.callBlockingMethod(HAServiceProtocolProtos.java:4460)
at org.apache.hadoop.ipc.ProtobufRpcEngineServerServerProtoBufRpcInvoker.call(ProtobufRpcEngine.java:523)
at org.apache.hadoop.ipc.RPCServer.call(RPC.java:991) at org.apache.hadoop.ipc.ServerServer.call(RPC.java:991)atorg.apache.hadoop.ipc.ServerRpcCall.run(Server.java:869)
at org.apache.hadoop.ipc.ServerRpcCall.run(Server.java:815) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:422) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1875) at org.apache.hadoop.ipc.ServerRpcCall.run(Server.java:815)atjava.security.AccessController.doPrivileged(NativeMethod)atjavax.security.auth.Subject.doAs(Subject.java:422)atorg.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1875)atorg.apache.hadoop.ipc.ServerHandler.run(Server.java:2675)

CDH重新启动namenode时报错，错误信息为：Error: recoverUnfinalizedSegments failed for required journal (JournalAndStream(mgr=QJM to [10.0.20.102:8485, 10.0.20.103:8485, 10.0.20.104:8485], stream=null))，而且提示等待120秒超时，无法响应。这与Hadoop分布式协议不一致有关，可能由于某个节点的欠缺或故障造成了段错误。建议检查所有节点的网络连接是否正常、端口是否打开，以及检查journal节点的状态。同时也需要检查在这个问题出现之前是否已经存在其他问题。如果仍然无法解决问题，建议向CDH官方技术支持组寻求帮助。

作者 east

bug清单 3月 25,2023

运行python发生错误：AttributeError: partially initialized module ‘googletrans’ has no attribute ‘translate’ (most likely due to a circular import)

最近在运行一个运用谷歌翻译的python，发生了一下错误：

Traceback (most recent call last): File “/root/newcode/python/googletrans.py”, line 1, in import googletrans as gt File “/root/newcode/python/googletrans.py”, line 4, in print(gt.translate(“Hello, How are you?”, “ko”)) AttributeError: partially initialized module ‘googletrans’ has no attribute ‘translate’ (most likely due to a circular import)

这个错误的原因可能是您的Python文件名和一个Python库的名称相同了，导致Python解释器在导入这个库时出现了错误。具体来说，您的Python文件名为googletrans.py，而您尝试导入了一个名为googletrans的库，这可能会导致Python解释器混淆两者之间的名称，从而出现错误。为了解决这个问题，您可以尝试将您的Python文件重命名为一个不同的名称，例如my_googletrans.py，然后在您的Python文件中使用正确的库名称来导入googletrans库

把 googletrans.py 重新修改了名字，终于运行没问题了。

作者 east

bug清单, flume 6月 13,2021

Flume pollDelay设置不正确停止采集

使用FusionInsight HD Flume从本地采集静态日志（ Spooling Source ）保存到Kafka，由于采集堆积太多了，flume配置参数做了一些修改。后来发现一个诡异问题：每次重启flume采集，只采集1、2个文件就停止采集了，也没报什么错误。

采用对比法排查问题，对比正常运行的flume配置，看到pollDelay跟之前的不同。才想起之前一顿三百五的操作：想加快速度。pollDelay的设置值从5000改成500。

采集方案采用的Spooling Source + Memory Channel + kfaka

Spooling Source常用配置：

Memory Channel使用内存作为缓存区，Events存放在内存队列中。常用配置如下表所示：

Kafka Sink将数据写入到Kafka中。常用配置如下表所示：

参考配置如下：

a1.channels = c1
a1.sources = s1
a1.sinks = sink1

a1.sources.s1.type = spooldir
a1.sources.s1.channels = c1
a1.sources.s1.spoolDir = /home/ftp （填写实际的路径）
a1.sources.s1.bufferMaxLineLength = 1073741824
a1.sources.s1.pollDelay = 5000
a1.sources.s1.consumeOrder = random

a1.channels.c1.type = memory
a1.channels.c1.capacity = 30000
a1.channels.c1.tansactionCapacity = 30000

a1.sinks.sink1.channel = c1
a1.sinks.sink1.type = org.apache.kafka.kafkaSink
a1.sinks.sink1.bootstrap.servers=192.168.1.1:210007  (根据实际填写）
a1.sinks.sink1.topic = mytopic （根据实际填写）
a1.sinks.sink1.batchSize = 200
a1.sinks.sink1.producer.requiredAcks = 1

作者 east

bug清单, Kafka, Spark 6月 10,2021

运行 Spark Streaming出现”Could not find KafkaClient entry in the JAAS configuration”

在使用FusionInsight HD大数据平台，用Spark Streaming来处理数据接入，kafka作为消费者，运行程序时出现”Could not find KafkaClient entry in the JAAS configuration”，当时怀疑是FusionInsight HD 的客户端相关配置有问题。

采用替换法思维，在另一台已经验证 FusionInsight HD 的客户端没问题的服务上运行，果然这个问题没做出现，仔细对比了这2台服务FusionInsight HD 的客户端的配置，发现在spark配置文件（hd安装目录/Spark2x/spark/conf/Jaas.conf）要修改为下面的配置：

KafkaClient{
com.sun.security.auth.module.Krb5LoginModule required
useKeyTab=true
principal="大数据平台账号"
useTicketCache=false
keyTab="user.keytab的路径"
storeKey=true;
};

作者 east

bug清单 2月 28,2021

ZooKeeper客户端无法使用

现象描述

当往ZooKeeper节点写入超过4MB数据的文件时，ZooKeeper客户端无法使用，出现如下信息。

2014-11-07 15:23:34,237 | WARN | NIOServerCxn.Factory:/10.18.51.157:24002 | 
Exception causing close of session 0xe4985ef3128000d due to java.io.IOException: Len error 1080037 | 
org.apache.zookeeper.server.NIOServerCnxn.doIO(NIOServerCnxn.java:362)

2014-11-07 15:23:34,238 | INFO | NIOServerCxn.Factory:/10.18.51.157:24002 | 
Closed socket connection for client /10.18.51.156:44987 which had sessionid 0xe4985ef3128000d | 
org.apache.zookeeper.server.NIOServerCnxn.closeSock(NIOServerCnxn.java:1007)

可能原因

ZooKeeper的数据大小是由“jute.maxbuffer”参数的值决定的。如果数据超过配置的值，服务端会拒绝访问并出现以上异常。该参数的默认值为4MB，且该参数不能修改。在集群的服务端和客户端必须保持这两个参数的一致性。

定位思路

无。

处理步骤

建议用户不要去修改“jute.maxbuffer”参数的值，在ZooKeeper节点写入数据时，确保单个文件的大小不超过4MB。为确保ZooKeeper的性能，建议不要将大量的数据写入到ZooKeeper节点中。

作者 east

bug清单 2月 28,2021

NodeManager出现DBException导致无法启动

现象描述

NodeManager无法启动。NodeManager日志中显示如下错误信息。

org.fusesource.leveldbjni.internal.NativeDB$DBException: Corruption: 1 missing files;

可能原因

当“yarn.nodemanager.recovery.enabled”=“true”时，并且由于磁盘空间不足或文件句柄用尽，使“levelDB”作为NodeManager恢复被损坏时，会发生此异常情况。

处理步骤

删除在“yarn-site.xml”中“{yarn.nodemanager.recovery.dir}/yarn-nm-state”所指定的文件夹。其产生结果如下：
- 对于已经在这个节点上完成的应用程序，其日志聚合可能会受影响。您需要手动删除已完成应用残留的文件或文件夹。进入{yarn.nodemanager.log-dirs}参数指定的路径，删除应用ID对应的文件夹。
- 在此节点上已本地化的临时文件和container临时文件不会被清理。您需要手动删除已完成应用残留的文件和文件夹。进入{yarn.nodemanager.local-dirs}参数指定的路径，删除应用ID对应的文件夹。
- 由于Container-tokens在NodeManager停用之后没有刷新，当前container可能会失败。
启动NodeManager。

作者 east

bug清单 2月 28,2021

Hive 执行动态插入分区时，在MapReduce日志中报“java.lang.OutOfMemoryError: GC overhead limit exceeded”错误

执行动态插入分区时，在MapReduce日志中报“java.lang.OutOfMemoryError: GC overhead limit exceeded”错误

现象描述

在HiveServer服务正常的情况下，执行动态插入分区时，在MapReduce日志中报“java.lang.OutOfMemoryError: GC overhead limit exceeded”错误。

可能原因

产生OOM的原因是单个任务处理的分区数过多，需要针对具体场景，减少单个task处理的分区数。

定位思路

参照如下样例进行操作。

样例建表语句如下：

create table test(id int )partitioned by (dt int);

create table test1(id int, dt int);

正常的动态插入分区语句为：

insert overwrite table test partition (dt) select id, dt from test;

处理步骤

由于dt是分区字段，减少单个task处理分区数的办法是，将分区字段distribute到不同的task来处理。修改后的语句： insert overwrite table test partition (dt) select id, dt from test1 distribute by dt；
当distribute by的分区字段存在倾斜时，比如值为NULL的占了很大部分，那么还可以将其打散处理。存在倾斜字段为NULL时的优化后语句： insert overwrite table test partition (dt) select id, dt from test1 distribute by nvl(dt,round(rand()*50)); 说明： nvl函数是一个将null转换为需要的值的hive内置udf。内置udf的使用，可参考https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF。其中rand返回一个0-1之间的随机数，乘以一个常数50（也可以是其他数字，根据自己任务的并发度合理选取，以能在合理的时间处理完为宜）。然后通过round函数取整，就能够将值为NULL的分区，分散到多个不同的task中处理。

作者 east

bug清单 2月 28,2021

Hive TEXTFILE类型文件ARC4压缩Select时乱码

TEXTFILE类型文件ARC4压缩Select时乱码

现象描述

Hive查询结果表做压缩存储（ARC4），对结果表做select * 查询时返回结果为乱码。

可能原因

TEXTFILE文件非块文件，使用ARC4按条加密后，读取文件会异常，无法解析内容，导致乱码。

定位思路

设置压缩类：org.apache.hadoop.io.encryption.arc4.ARC4BlockCodec，按块对TEXTFILE类型文件加密。
正常设置耗时1分钟以内。

处理步骤

查询出乱码以后，在beeline客户端执行以下命令。 set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.encryption.arc4.ARC4BlockCodec; set hive.exec.compress.output=true; 输入admin用户的密码完成登录。
重新导入数据到结果表。 insert overwrite table tbl_result select * from tbl_source;
执行select命令检查内容是否为乱码。 select * from tbl_result; 没有乱码证明问题得到解决。

作者 east

bug清单 2月 28,2021

Hive客户端连接失败，提示“Read timed out”

客户端连接失败，提示“Read timed out”

现象描述

安全版本的集群中，HiveServer服务正常的情况下，使用Shell客户端或二次开发工具登录HiveServer失败，日志异常提“Read timed out”示关键字，具体信息如下：

org.apache.hadoop.hive.ha.client.HAConnectMonitor.<init>(HAConnectMonitor.java:54) 
 at org.apache.hadoop.hive.ha.client.HATTransport.open(HATTransport.java:158) 
 at org.apache.hadoop.hive.jdbc.ha.HAHiveConnection.<init>(HAHiveConnection.java:60) 
 ... 6 more 
 Caused by: java.net.SocketTimeoutException: Read timed out
 at java.net.SocketInputStream.socketRead0(Native Method) 
 at java.net.SocketInputStream.read(SocketInputStream.java:152) 
 at java.net.SocketInputStream.read(SocketInputStream.java:122) 
 at org.apache.thrift.transport.TIOStreamTransport.read(TIOStreamTransport.java:127)

可能原因

网络原因导致Hive客户端连接HiveServer时，Socket超时，连接失败。

定位思路

Hive客户端连接HiveServer时，是建立Socket连接，当网络丢包时，就有可能导致Socket超时，使Hive客户端连接HiveServer失败。
执行ping命令检查客户端到HiveServer所在节点的网络连通性与稳定性。
当网络经过排查和修复达到稳定后，正常连接耗时在1分钟以内。

处理步骤

在客户端所在机器上，执行ping HiveServer所在节点IP地址命令检查Hive客户端与集群网络质量。如果执行命令后，如果网络不通或者延迟较大，证明网络状况较差。请联系网络管理员排查网络问题，以保证满足业务使用。
增加网络闪断的保护，使用Hive客户端的应用层，增加连接失败重试机

作者 east

bug清单 2月 28,2021

由于datanodeUuid值不一致导致DataNode数据目录出现Failure

现象描述

在“dfs.datanode.data.dir”中添加新目录后，发现老的目录出现failure。

由于datanodeUuid值不一致导致DataNode数据目录出现Failure

可能原因

新老目录下“VERSION”文件里的“datanodeUuid”值不一致。

定位思路

查看DataNode的日志文件，检查是否有InconsistentFSStateException异常信息，是否显示“datanodeUuid”不一致。

heartbeating to 9-96-101-251/172.18.0.111:25000 | org.apache.hadoop.hdfs.server.common.InconsistentFSStateException: Directory /export4/BigData/datanode/dn3 is in an inconsistent state: 
Root /export4/BigData/datanode/dn3: DatanodeUuid=2a8c2266-7d3f-428c-b47f-6c7e2500bdc5, does not match 3d61ca33-c3ba-4c73-998a-7667c747545d from other StorageDirectory. | DataStorage.java:375

处理步骤

进入“新目录/current/”，查询“VERSION”文件中的“datanodeUuid”值。 #Tue Jul 05 22:23:04 CST 2016 storageID=DS-7c410c98-29bc-49de-b3dd-87cd48d4f7d3 clusterID=myhacluster cTime=0 datanodeUuid=3d61ca33-c3ba-4c73-998a-7667c747545d storageType=DATA_NODE layoutVersion=-56
进入“老目录/current/”，将“VERSION”文件中的“datanodeUuid”修改成1查询到的“datanodeUuid”值。
重启DataNode。

参考信息

DataNode启动时，会从数据目录中的“VERSION”文件中读取“datanodeUuid”值，并将该值写入到系统的DataStorage对象中。每个DataNode对应一个“datanodeUuid”值，即同一个DataNode上的所有目录使用同一个“datanodeUuid”值。

该问题中，删除老目录，添加新目录时，“VERSION”文件并没有被拷贝到新目录中，重启DataNode后，新目录中的“VERSION”文件由format操作生成，并自动生成了一个新的“datanodeUuid”值。

将老目录加回到“dfs.datanode.data.dir”中，并且位于新目录之前，重启DataNode后，DataNode会先从老目录中加载“VERSION”文件，读取其中的“datanodeUuid”值，并写入到系统的DataStorage对象中。再从新目录中的“VERSION”文件中读取“datanodeUuid”值并与系统的DataStorage对象中的“datanodeUuid”值作对比时，由于新目录中的“datanodeUuid”值是后来重新生成的，与老目录中的不同，所以系统会抛出“datanodeUuid”不匹配的InconsistentFSStateException异常。

作者 east

bug清单 2月 28,2021

Datanode报InvalidProtocolBufferException异常

现象描述

DataNode无法发送block报告给NameNode。以下为DataNode日志信息：

java.lang.IllegalStateException: com.google.protobuf.InvalidProtocolBufferException: 
Protocol message was too large.  May be malicious.  Use CodedInputStream.setSizeLimit() 
to increase the size limit exception

可能原因

此类故障发生在DataNode向NameNode发送block报告时。HDFS是专门为大文件设计的，所以为了防止其用于小文件上，限制了每个卷的block报告的体积。

定位思路

以防这类异常发生，用户可指定多种“dfs.datanode.data.dir”，在多个卷内将block分散开来，block报告消息的体积将会变小。

在运行的环境中遇到此类异常时，Hadoop目前无法做到自动完成上述修复。

处理步骤

关闭相关的DataNode。
使用mv命令将block副本和meta对从“dfs.datanode.data.dir”目录移动到新目录下，同时确保块在磁盘间移动时subdir目录的结构始终完全保持不变。例如，如果block副本和meta对是在“/data/1/dfs/dn/current/BP-1788246909-10.10.1.202-1412278461680/current/finalized/subdir0/subdir1/”目录下，若想要将其移动到“/data/5/disk”下，必须移到相同的子目录结构，即“/data/5/dfs/dn/current/BP-1788246909-10.10.1.202-1412278461680/current/finalized/subdir0/subdir1/”。如果目录结构发生改变，移动后的DataNode将不能定位副本。
重启DataNode。

作者 east

bug清单 2月 28,2021

资源异常导致HDFS进入安全模式

现象描述

在性能环境上验证性能指标时HDFS进入安全模式。 NameNode日志中出现下列信息：

WARN org.apache.hadoop.hdfs.server.namenode.NameNodeResourceChecker: Space available on volume 'null' is 0, 
WARN org.apache.hadoop.hdfs.server.namenode.FSNamesystem: NameNode low on available disk space. Entering safe mode.

可能原因

参数“dfs.namenode.name.dir”配置目录的磁盘空间不足。
底层网络文件系统出现了不可用的情况导致的，如网络不稳定等。

定位思路

查看参数“dfs.namenode.name.dir”配置目录的磁盘空间是否足够。
查看底层网络文件系统是否异常，如网络不稳定等。
查看NameNode日志中是否出现类似“NameNode low on available disk space. Entering safe mode”的日志。

处理步骤

查看参数“dfs.namenode.name.dir”配置目录的磁盘空间是否足够。
修复底层网络文件系统之后（网络稳定之后），手动退出安全模式。执行hdfs dfsadmin -safemode leave命令手动退出安全模式。

作者 east

分类归档bug清单