大数据开发 – 第23页

Java 8月 19,2022

Thread.currentThread().getContextClassLoader.getResourceAsStream空指针问题

在idea运行代码时，下面的代码一直空指针

Thread.currentThread().getContextClassLoader.getResourceAsStream(“core.properties”);

网上查解决方案，很多都是说idea需要把工程设置为Resources，查了已经是设置了。后来查到有的说是pom问题，经常摸索，果然是pom问题，是下面的pom设置影响到了。

<resources>
            <resource>
                <directory>${project.basedir}/libs</directory>
                <targetPath>BOOT-INF/lib/</targetPath>
                <includes>
                    <include>**/*.jar</include>
                </includes>
            </resource>
            <resource>
                <directory>src/main/resources</directory>
                <targetPath>BOOT-INF/classes/</targetPath>
            </resource>
        </resources>

配置文件是否能访问，可以看在target/classes文件夹中是否存在

后来修改了pom文件，再运行果然没有报空指针的问题了

<resources>
    <resource>
        <directory>src/main/java</directory>
        <includes>
            <include>**/*.properties</include>
            <include>**/*.xml</include>
        </includes>
        <filtering>false</filtering>
    </resource>
    <resource>
        <directory>${project.basedir}/libs</directory>
        <targetPath>BOOT-INF/lib/</targetPath>
        <includes>
            <include>**/*.jar</include>
        </includes>
    </resource>
</resources>

作者 east

Java 8月 17,2022

解决Failed to execute goal org.apache.maven.plugins:maven-enforcer-plugin:1.4.1:enforce

在编译spark-atlas-connector的源码时，遇到下面的报错：

[INFO] --- maven-enforcer-plugin:1.4.1:enforce (enforce-versions) @ spark-atlas-connector-main_2.11 ---
[WARNING] Rule 2: org.apache.maven.plugins.enforcer.RequireOS failed with message:
OS Arch: x86 Family: dos Name: windows 10 Version: 10.0 is not allowed by Family=unix
[INFO] ------------------------------------------------------------------------
[INFO] Reactor Summary:
[INFO] 
[INFO] spark-atlas-connector-main_2.11 .................... FAILURE [  2.116 s]
[INFO] spark-atlas-connector_2.11 ......................... SKIPPED
[INFO] spark-atlas-connector-assembly ..................... SKIPPED
[INFO] ------------------------------------------------------------------------
[INFO] BUILD FAILURE
[INFO] ------------------------------------------------------------------------
[INFO] Total time: 2.189 s
[INFO] Finished at: 2022-08-17T17:06:06+08:00
[INFO] Final Memory: 26M/495M
[INFO] ------------------------------------------------------------------------
[ERROR] Failed to execute goal org.apache.maven.plugins:maven-enforcer-plugin:1.4.1:enforce (enforce-versions) on project spark-atlas-connector-main_2.11: Some Enforcer rules have failed. Look above for specific messages explaining why the rule failed. -> [Help 1]
[ERROR] 
[ERROR] To see the full stack trace of the errors, re-run Maven with the -e switch.
[ERROR] Re-run Maven using the -X switch to enable full debug logging.
[ERROR] 
[ERROR] For more information about the errors and possible solutions, please read the following articles:
[ERROR] [Help 1] http://cwiki.apache.org/confluence/display/MAVEN/MojoExecutionException

刚开始很头疼，搜索了不少“Failed to execute goal org.apache.maven.plugins:maven-enforcer-plugin:1.4.1:enforce”，还是没解决问题。后面发现上面的“

org.apache.maven.plugins.enforcer.RequireOS failed with message:
OS Arch: x86 Family: dos Name: windows 10 Version: 10.0 is not allowed by Family=unix”

原来， Maven Enforcer 插件提供了非常多的通用检查规则，比如检查 JDK 版本、检查 Maven 版本、检查依赖版本，等等

<plugin>
        <groupId>org.apache.maven.plugins</groupId>
        <artifactId>maven-enforcer-plugin</artifactId>
        <inherited>false</inherited>
        <configuration>
          <rules>
            <requireMavenVersion>
              <version>[3.0.0,)</version>
            </requireMavenVersion>
            <requireJavaVersion>
              <version>[${minJavaVersion}.0,${maxJavaVersion}.1000}]</version>
            </requireJavaVersion>
            <requireOS>
              <family>unix</family>
            </requireOS>
          </rules>
        </configuration>
        <executions>
          <execution>
            <id>clean</id>
            <goals>
              <goal>enforce</goal>
            </goals>
            <phase>pre-clean</phase>
          </execution>
          <execution>
            <id>default</id>
            <goals>
              <goal>enforce</goal>
            </goals>
            <phase>validate</phase>
          </execution>
          <execution>
            <id>site</id>
            <goals>
              <goal>enforce</goal>
            </goals>
            <phase>pre-site</phase>
          </execution>
        </executions>
      </plugin>

由于是在windows编译，而原来是如下配置的：

<requireOS>
  <family>unix</family>
</requireOS>

需要修改如下：

<requireOS>
     <family>windows</family>
 </requireOS>

果然可以顺利编译了。

作者 east

大数据开发 8月 17,2022

CDH6.3.2安装Atlas2.1.0遇到的坑

1、服务器默认是python3,启动atlas报错

Atlas 2.1.0使用的是python2，不支持python3，安装atlas的服务器是默认用python3（用于深度学习），而python3和python2语法差别大，修改了print的语法差异，又报别的错误。

服务器centos默认安装有python2.7了，可以指定python2来执行atlas命令。

例如像下面这样：

/usr/bin/python2.7

2.启动atlas连不上hbase或zookeeper

安装atlas后，访问atlas地址 http://cdh01:21000，看后台日志报错

java.net.ConnectException: Connection refused
	at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)
	at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:717)
	at org.apache.zookeeper.ClientCnxnSocketNIO.doTransport(ClientCnxnSocketNIO.java:350)
	at org.apache.zookeeper.ClientCnxn$SendThread.run(ClientCnxn.java:1224)
2022-08-16 18:29:03,585 WARN  - [ReadOnlyZKClient-cdh01:2181,cdh02:2181,cdh03:2181@0x120df990:] ~ 0x120df990 to cdh01:2181,cdh02:2181,cdh03:2181 failed for gete/hbaseid, code = CONNECTIONLOSS, retries = 1 (ReadOnlyZKClient$ZKTask$1:192)
2022-08-16 18:29:04,622 WARN  - [main:] ~ org.apache.solr.client.solrj.impl.Krb5HttpClientBuilder is configured without specifying system property 'java.securiogin.config' (Krb5HttpClientBuilder:142)
2022-08-16 18:29:05,105 WARN  - [main-SendThread(cdh03:2181):] ~ Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnntCnxn$SendThread:1245)

网上看原因说是连不上zookeeper，明明CDH有安装zookeeper。又查了别的atlas安装教程，觉得配置是没问题。

在zookeeper的命令行输入

./zkServer.sh status

看到输出的日志是：

JMX enabled by default
Using config: /opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/zookeeper/bin/../conf/zoo.cfg
Mode: standalone

想到报错日志是cdh01:2181,cdh02:2181,cdh03:2181，而zookeeper却是单机模式，觉得也许有问题，于是在CDH的管理后台又添加多2个实例

3、访问atlas后台地址一直转圈

由于有别的端口占用21000，导致访问不了，修改atlas-application.properties的端口地址就可以，然后重新启动。

作者 east

Hive 8月 15,2022

用Sqoop 从Hive导入到mysql发生java.lang.NumberFormatException异常

用CDH自带的sqoop，把hive的数据导入到sqoop，发生java.lang.NumberFormatException异常

在Yarn查找到详细日志如下：

java.lang.NumberFormatException
	at java.math.BigDecimal.<init>(BigDecimal.java:494)
	at java.math.BigDecimal.<init>(BigDecimal.java:383)
	at java.math.BigDecimal.<init>(BigDecimal.java:806)
	at org.apache.sqoop.mapreduce.hcat.SqoopHCatExportHelper.convertStringTypes(SqoopHCatExportHelper.java:271)
	at org.apache.sqoop.mapreduce.hcat.SqoopHCatExportHelper.convertToSqoop(SqoopHCatExportHelper.java:211)
	at org.apache.sqoop.mapreduce.hcat.SqoopHCatExportHelper.convertToSqoopRecord(SqoopHCatExportHelper.java:134)
	at org.apache.sqoop.mapreduce.hcat.SqoopHCatExportMapper.map(SqoopHCatExportMapper.java:56)
	at org.apache.sqoop.mapreduce.hcat.SqoopHCatExportMapper.map(SqoopHCatExportMapper.java:35)
	at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:146)
	at org.apache.sqoop.mapreduce.AutoProgressMapper.run(AutoProgressMapper.java:64)
	at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:799)
	at org.apache.hadoop.mapred.MapTask.run(MapTask.java:347)
	at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:174)
	at java.security.AccessController.doPrivileged(Native Method)
	at javax.security.auth.Subject.doAs(Subject.java:422)
	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1875)
	at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:168)

想到可能是定义的mysql表结构，Decimal类型转化出问题。有可能是decimal没有定义精度，尝试先改为string类型，再用sqoop导入hive到mysql中，一切正常，在mysql也顺利看到数据了。

作者 east

Hive 8月 10,2022

Oozie重复执行和Container exited with a non-zero exit code 143

写了1个比较复杂的spark任务，用shell脚本来执行。用shell脚本直接执行时一点问题都没有。但用hue配置了Oozie任务后，经常执行不到一半就中断，看到又重复执行，但没多久就中止了。

查了很久原因，后来在yarn的Oozie执行日志找到下面这个

[2022-08-04 17:05:36.981]Container killed on request. Exit code is 143
[2022-08-04 17:05:36.998]Container exited with a non-zero exit code 143.

通过各种相关关键字在网上找原因和解决方案，后来在差不多放弃时，看到一个留言：

通过将部署模式从客户端更改为群集解决了此问题。我正在从oozie应用程序触发spark作业。因此，在客户端模式下，驱动程序将在oozie JVM上启动。为了避免这种情况，我将模式设置为集群。

进行修改尝试，果然顺利执行成功：

spark-submit –master yarn –deploy-mode cluster –class com.xxx.Test –jars hdfs://cdh1:8020/data/apps/jars/fastjson-1.2.51.jar,hdfs://cdh1:8020/data/apps/jars/hive-jdbc-2.1.1-cdh6.3.2-standalone.jar –conf spark.yarn.maxAppAttempts=0 –driver-memory 2g –driver-cores 1 –executor-memory 3200m –executor-cores 3 –num-executors 4 hdfs://cdh1:8020/data/apps/test.jar

作者 east

Hive 8月 9,2022

sqoop导入mysql带json字段显示不全或乱码

原来是在hive的建表结构如下：

CREATE external TABLE IF NOT EXISTS ods_test_delta(
 id string COMMENT "", 
 create_date string COMMENT "创建时间",
 jsonValue string COMMENT "带json的字段",
 update_date string COMMENT "更新时间",
 del_flag string COMMENT "删除标志"
) COMMENT "测试表"
partitioned by (dt string)
row format delimited
fields terminated by '\u0001'
lines terminated by '\n'
stored as textfile
LOCATION '/data/warehouse/warehouse/ods/ods_test_delta/';

在做ods抽取数据到dwd层时，发现带json的字段显示不全，怀疑是fields terminated影响了。后来想到的一个方法，不预先创建hive的表结构，直接用sqoop导入，发现没有显示不全或乱码。

进入hive的命令行，输入

show create table ods_test_delta

CREATE external TABLE IF NOT EXISTS ods_test_delta(
 id string COMMENT "", 
 create_date string COMMENT "创建时间",
 jsonValue string COMMENT "带json的字段",
 update_date string COMMENT "更新时间",
 del_flag string COMMENT "删除标志"
) COMMENT "测试表"
partitioned by (dt string)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES ( 
  'field.delim'='', 
  'line.delim'='\n', 
  'serialization.format'='')
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION '/data/warehouse/warehouse/ods/ods_test_delta/';

用上面的表结构进行创建hive的表结构，经测试没有json显示不全的问题。

作者 east

运维 7月 25,2022

亲测可以，centos7 安装和配置odbc连接mysql

从软件库安装稳定版本

yum install unixODBC unixODBC-devel libtool-ltdl libtool-ltdl-devel

yum install mysql-connector-odbc

要在rpm 语句后面加上 –nodeps –force，安装时忽略依赖关系，否则会提示error: Failed dependencies:mysql-community-client-plugins

升级驱动到8.0

rpm -ivh mysql-community-libs-8.0.27-1.el7.x86_64.rpm –nodeps –force

vim /etc/odbcinst.ini ,配置修改如下

[PostgreSQL]

Description=ODBC for PostgreSQL

Driver=/usr/lib/psqlodbcw.so

Setup=/usr/lib/libodbcpsqlS.so

Driver64=/usr/lib64/psqlodbcw.so

Setup64=/usr/lib64/libodbcpsqlS.so

FileUsage=1

[MySQL]

Description=ODBC for MySQL

Driver=/usr/lib/libmyodbc5.so

Setup=/usr/lib/libodbcmyS.so

Driver64=/usr/lib64/libmyodbc5.so

Setup64=/usr/lib64/libodbcmyS.so

FileUsage=1

[MySQLw]

Description=ODBC for MySQL w

Driver=/usr/lib/libmyodbc5w.so

Setup=/usr/lib/libodbcmyS.so

Driver64=/usr/lib64/libmyodbc5w.so

Setup64=/usr/lib64/libodbcmyS.so

FileUsage=1

[MySQL ODBC 8.0 Unicode Driver]

Driver=/usr/lib64/libmyodbc8w.so

UsageCount=2

[MySQL ODBC 8.0 ANSI Driver]

Driver=/usr/lib64/libmyodbc8a.so

UsageCount=2

查看已经配置的驱动

odbcinst -q -d

[PostgreSQL]

[MySQL]

[MySQLw]

[MySQL ODBC 8.0 Unicode Driver]

[MySQL ODBC 8.0 ANSI Driver]

vim /etc/odbc.ini,配置修改如下：

[my_db]

Driver = MySQL ODBC 8.0 Unicode Driver

SERVER = 10.0.80.82

Description = MySQLw connection to ‘my_db’ database

PORT = 3306

DATABASE = my_db

OPTION = 67108864

USER = root

PASSWORD = 123456

CHARSET = UTF8

Driver采用的驱动，与odbcinst.ini的名字要对应上
SERVER数据库服务器的IP地址
PORT数据库的端口
DATABASE数据库的名称
OPTION连接数如果是FreeSWITCH的连接需要配置这个
USER数据库用户名
PASSWORD数据库密码

验证是否成功

现在利用isql功能验证能连到你的数据库上，当你输入指令后会看到结果为1的返回值就表明连接成功了

echo “select 1” | isql -v my_db;
+—————————————+
| Connected! |
| |
| sql-statement |
| help [tablename] |
| quit |
| |
+—————————————+
+———————+
| 1 |
+———————+
| 1 |
+———————+

作者 east

大数据开发 7月 21,2022

CDH6.3.2集群 oozie使用遇到的坑

拖拽任务后找不到相应文件

oozie添加spark等，出现搜索文档，点下拉框或搜索关键字时，一直找不到任务文件。在工作区添加了相关的脚本或jar包，还是找不到。

后来经过试验和提示，发现首先是要下图中，先进行操作和保存，然后拖拽这个类型时，下拉框才会出来相关的文件。

YARN资源不足

运行报错如下：

please note that maximum allowed allocation is calculated by scheduler based on maximum resource of registered NodeManagers, which might be less than configured maximum allocation=
原因是 yarn配置的最大容器申请资源是1024M，oozie配置的启动资源要2048M，在CM中修改oozie的相关配置。

spark shell中的路径要为hdfs的路径

提交spark任务，jar包和依赖文件刚开始用服务器本地路径，发现提示找不到相关的包和主类，后来修改为hdfs下的路径就顺利执行了。

spark-submit --class com.xxx.Main --jars hdfs://cdh01:8020/data/apps/jars/fastjson-1.2.51.jar,hdfs://cdh01:8020/data/apps/jars/a.jar,hdfs://cdh01:8020/data/apps/jars/b.jar hdfs://cdh01:8020/data/apps/myspark-0.0.1-SNAPSHOT.jar

限制数据量的大小

执行shell任务出错，错误如下：

java.io.IOException: output.properties data exceeds its limit [2048]
原因是由于shell脚本中一次提交的hql-mr作业量太大，其中包含的信息超过oozie launcher一次容许的最大值2K（2K是默认值）

非CDH集成的修改如下：

<property>
<name>oozie.action.max.output.data</name>
<value>204800</value>
</property>

CDH集群中修改 oozie-site.xml 的 Oozie Server 高级配置代码段（安全阀），如图：

串行引用同一个Shell脚本，配置参数后都指向同一个参数

1个Spark Shell脚本，串行引用这个shell脚本，通过配置shell参数，本来想通过调用不同的class来实现复用这个脚本，但实践后发现最终的参数都指向同一个了。最后还是老老实实搞多个shell脚本。

时区的差8个小时的问题（在界面和Oozie存数据的数据库）

步骤1：非CDH集群修改如下

在/conf/oozie-site.xml，添加如下属性：

<!-- Time Zone -->
<property>
        <name>oozie.processing.timezone</name>
        <value>GMT+0800</value>
</property>

在CDH集群添加如下图：

步骤2：在/opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/oozie/embedded-oozie-server/webapp 文件夹中找到oozie-console.js，修改下面时区相关的代码：

function getTimeZone() {
    Ext.state.Manager.setProvider(new Ext.state.CookieProvider());
    return Ext.state.Manager.get("TimezoneId","GMT+0800");
}

上传的shell脚本可以在hue文件浏览器修改，workflow.xml修改没有效果

workflow在文件浏览器修改，运行后又会变化修改前。要修改workflow.xml，需要在hue的Oozie编辑器定义参数等方式来修改。

Oozie定时任务没有如期执行

有2个要注意的地方

1、Oozie安装的默认时区不是东八区，需要在hue进行指定时区。

2、保存后需要提交才能生效

作者 east

Hive 7月 20,2022

Hive批量删除表的工具

在建设数仓时，批量创建了很多表，发现创建错了，想批量删除，一个个删除觉得太麻烦，想批量删除。

可以利用hive打印出所有表名，用shell来搜索关键字，并用shell的管道技术来输出。

#/bin/sh
db_name=$1
#用于筛选出待删除表名的关键字
key_word=$2
hive -e "SHOW TABLES IN ${db_name};"|grep "${key_word}"|xargs -I{} echo drop table ${db_name}.{}\;>>batch_drop.log

然后打开batch_drop.log，就可以批量删除table的命令，复制到hive的shell命令界面中执行就可以。

作者 east

Hive 7月 14,2022

Hive增加字段casecade报“Error while compiling statement: FAILED: NullPointerException null”

最近在使用hive做数仓开发遇到各种坑，使用casecade为了刷新旧分区数据（
cascade的中文翻译为“级联”，也就是不仅变更新分区的表结构（metadata），同时也变更旧分区的表结构）

例如用下面的语句

ALTER TABLE plaintiff_info ADD COLUMNS(test3 STRING ) CASCADE

就遇到下面的错误：Error while compiling statement: FAILED: NullPointerException null

因为之前这样增加字段并刷新历史数据成功过，怀疑过字段为空等，各种怀疑和尝试，最后发现之前成功的是手动创建分区表，失败的是非分区表。非分区表再添加字段时不能加CASCADE 。

分区表，指创建时有

PARTITIONED BY (
dt string)

或者使用spark SQL创建带有 partitionBy(“year”)

作者 east

Spark 7月 12,2022

Idea java和scala混合打包遇到的各种坑

1、采用默认java的maven配置，运行时发现scala的包没打进去。

发现需要配置scala的编译器，网上有2种方式：

方式1：

 <plugin>
                <groupId>org.scala-tools</groupId>
                <artifactId>maven-scala-plugin</artifactId>
                <version>2.15.2</version>
                <configuration><</configuration>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>

            </plugin>

方式2：

<plugin>
    <groupId>net.alchim31.maven</groupId>
    <artifactId>scala-maven-plugin</artifactId>
    <version>3.2.2</version>
    <configuration>
        <recompileMode>incremental</recompileMode>     
    </configuration>
    <executions>
        <execution>
            <goals>
                <goal>compile</goal>
                <goal>testCompile</goal>
            </goals>
        </execution>
    </executions>
</plugin>

2、编译时scala外部依赖包没找到

需要添加

<configuration>                
                    <args>
                        <!-- 编译时使用 libs 目录下的 jar 包，通过 mvn scala:help 查看说明 -->
                        <arg>-extdirs</arg>
                        <arg>D:/code/spark/jars</arg>
                    </args>
                </configuration>

完整配置如下：

 <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <version>3.2.2</version>
                <configuration>
                    <recompileMode>incremental</recompileMode>
                    <args>
                        <!-- 编译时使用 libs 目录下的 jar 包，通过 mvn scala:help 查看说明 -->
                        <arg>-extdirs</arg>
                        <arg>D:/code/spark/jars</arg>
                    </args>
                </configuration>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>

3、maven打包时提示内存不足

在如图位置,VM Options增加内存就可以

作者 east

Hive, 数据挖掘 7月 1,2022

Datart连接Hive需要的jar包

最近在做数仓开发，把结果输入到datart这个bi工具，刚开始用datart来连接mysql，为了减少层次，想直接连接hive。发现是需要配置jdbc驱动的。

大数据集群用的是CDH6.3.2，需要的jar包跟网上不同。刚开始用hive-jdbc-2.1.1-cdh6.3.2-standalone.jar，发现冲突了。后来从用下面这些包解决了依赖问题。

不过用最新的 datart-1.0.0-beta.3 ，发现存在问题：
无法查询sql 。报错如下：

Request failed with status code 400

github官方论坛提示：该问题已经修复，等beta.4版本发布后升级即可

作者 east

分类归档大数据开发