2023年 – 第3页

Flink 9月 5,2023

Flink CDC对接数据报错：you need (at least one of) the REPLICATION SLAVE privilege(s) for this operation Error code

这个错误消息表明在运行 Flink CDC 连接到 MySQL 数据库时，出现了权限问题。错误消息中提到需要 “REPLICATION SLAVE privilege” 权限来执行操作，但是当前用户似乎没有该权限。

错误原因:

Flink CDC 需要通过 MySQL 的二进制日志来捕获数据库的变更，以便进行实时流式处理。这需要 MySQL 用户具有 REPLICATION SLAVE 权限，以允许 Flink CDC 作为 MySQL 复制从机来读取二进制日志。

解决方案: 为了解决这个问题，您可以采取以下步骤：

授予 REPLICATION SLAVE 权限:
- 通过 MySQL 的 root 或具有足够权限的用户登录。
- 执行以下 SQL 命令，将 REPLICATION SLAVE 权限授予 Flink CDC 使用的用户名（在 Flink 配置中指定的用户名）：sql复制代码GRANT REPLICATION SLAVE ON *.* TO 'your_cdc_user'@'%' IDENTIFIED BY 'your_password';
  - your_cdc_user 替换为 Flink CDC 使用的用户名。
  - your_password 替换为 Flink CDC 使用的密码。
重新启动 Flink CDC 应用:
- 确保 Flink CDC 应用程序重新启动，并尝试重新连接到 MySQL 数据库。
检查 Flink CDC 配置:
- 确保 Flink CDC 配置文件中的连接字符串、用户名和密码正确配置，以匹配 MySQL 数据库的设置。
检查防火墙和网络配置:
- 确保 MySQL 数据库的防火墙和网络配置允许 Flink CDC 应用程序连接到数据库端口。
查看 MySQL 错误日志:
- 检查 MySQL 错误日志以获取更多关于访问被拒绝的详细信息。可能会提供有关错误原因的更多线索。
升级或重新配置 Flink CDC:
- 如果问题仍然存在，考虑升级 Flink CDC 或重新配置其版本，以确保与 MySQL 数据库兼容性。

通过执行上述步骤，您应该能够解决 Flink CDC 连接到 MySQL 数据库时出现的权限问题。确保授予足够的权限，并检查配置以确保准确性。

关注公众号“大模型全栈程序员”回复“大数据面试”获取800页左右大数据面试宝典，回复“大数据”获取多本大数据电子书

作者 east

大数据开发 9月 4,2023

scala比较日期字符串的大小

使用字符串的compareTo方法：如果您的日期字符串是按照“年-月-日”的格式排列的，那么您可以直接使用字符串的compareTo方法来比较它们，无需转换为日期对象。例如，您可以使用以下的Scala代码来比较两个日期字符串¹：

val date1 = "2023-09-03"
val date2 = "2023-08-21"
val result = date1.compareTo(date2)
// result: Int = 1
// result > 0 表示 date1 晚于 date2
// result < 0 表示 date1 早于 date2
// result == 0 表示 date1 等于 date2

作者 east

python 9月 3,2023

python读取doc和docx的word文档工具类

需求：
读取目录下所有word文档，对整行空行的进行删除，输出文件名和word文档的内容

docx后缀的：

使用了第三方库 python-docx 来处理 Word 文档。在运行代码之前，您需要使用以下命令安装该库：

pip install python-docx

python
import os
from docx import Document

class FunnyScriptsReader:
    def __init__(self, directory):
        self.directory = directory

    def process_scripts(self):
        for filename in os.listdir(self.directory):
            if filename.lower().endswith('.doc'):
                file_path = os.path.join(self.directory, filename)
                self.process_script_file(file_path)

    def process_script_file(self, file_path):
        document = Document(file_path)
        file_name = os.path.basename(file_path)

        # 删除整行空行
        for paragraph in document.paragraphs:
            if not paragraph.text.strip():
                runs = paragraph.runs
                for run in runs:
                    run.text = ''
        
        # 输出文件名和文档内容
        print("文件名:", file_name)
        print("文档内容:")
        for paragraph in document.paragraphs:
            if paragraph.text.strip():
                print(paragraph.text)

        print()

# 使用示例
directory = r'D:\BaiduNetdiskDownload\'
reader = FunnyScriptsReader(directory)
reader.process_scripts()

python-docx库读取doc后缀的word文档有问题，可以
win32com库。

pip install pywin32

import os
import win32com.client

# 定义一个函数，用于删除word文档中的空行
def remove_blank_lines(doc):
    paragraphs = doc.Paragraphs
    for paragraph in paragraphs:
        if paragraph.Range.Text.strip() == "":
            paragraph.Range.Delete()

# 定义一个目录路径，用于存放word文档
dir_path = r'D:\BaiduNetdiskDownload'

# 创建一个word应用对象，设置为不可见
word = win32com.client.Dispatch("Word.Application")
word.Visible = False

# 遍历目录下的所有文件，筛选出.doc后缀的文件
for file in os.listdir(dir_path):
    if file.endswith(".doc"):
        # 拼接文件的完整路径
        file_path = os.path.join(dir_path, file)
        try:
            # 打开word文档
            doc = word.Documents.Open(file_path)
            # 调用函数，删除空行
            remove_blank_lines(doc)
            # 输出文件名和文档内容
            print("文件名:", file)
            print("文档内容:", doc.Content.Text)
            # 关闭文档
            doc.Close()
        except Exception as e:
            # 捕获异常，输出错误信息
            print("Error:", e)

# 退出word应用
word.Quit()

作者 east

广告联盟 9月 3,2023

申请adsense的详细攻略

申请Google AdSense是很多网站主和博主的梦想，因为它可以让您通过在您的网站上展示Google的广告来赚取收入。但是，申请AdSense并不是一件容易的事情，您需要满足一些条件和要求，才能通过审核和激活您的账户。本文将为您提供一些申请AdSense的详细攻略，帮助您顺利完成这个过程。

准备您的网站。在申请AdSense之前，您需要确保您的网站符合Google的[内容政策]和[质量指南]，并且有足够的高质量和独特的内容。您的网站应该有一个清晰的主题和目标，有一个专业和易于导航的设计，有一个完整的[隐私政策]和[免责声明]页面，以及一个有效的联系方式。您还需要确保您的网站没有违反任何版权或商标法，没有包含任何色情、暴力、仇恨或非法的内容，没有使用任何欺骗或误导用户的手段，没有参与任何作弊或滥用行为，没有使用任何违反Google广告政策的软件或工具。如果您的网站不符合这些标准，您可能会被拒绝申请或被暂停账户。
注册Google账户。如果您还没有一个Google账户，您需要先[注册]一个。如果您已经有一个Google账户，您可以直接使用它来申请AdSense。请注意，每个人只能拥有一个AdSense账户，如果您已经有一个AdSense账户，您不能再申请另一个。如果您想在多个网站上使用AdSense，您只需要将这些网站添加到您现有的账户中即可。
填写申请表格。当您准备好申请AdSense时，您可以访问[AdSense官网]，点击“开始”按钮，然后按照提示填写申请表格。您需要提供以下信息：
- 您要在上面展示广告的网站地址（例如：https://www.example.com）
- 您要使用AdSense的语言（例如：中文）
- 您的个人信息（例如：姓名、地址、电话号码、电子邮件地址等）
- 您的支付信息（例如：银行账户、税务信息等）
- 您对AdSense条款和条件的同意
- 您对AdSense邮件偏好设置的选择
放置广告代码。当您提交了申请表格后，您会收到一封确认邮件，并且会在您的AdSense账户中看到一个广告代码。这个广告代码是一段HTML代码，您需要将它复制并粘贴到您想要展示广告的网页中。这个广告代码会在审核期间显示一些空白或测试广告，并不会产生任何收入。这个步骤是为了让Google检查您的网站是否符合AdSense政策，并且是否可以正常显示广告。请注意，放置广告代码并不意味着您已经被批准了AdSense账户，您仍然需要等待审核结果。
等待审核结果。当您放置了广告代码后，Google会开始审核您的网站和申请信息。这个过程可能需要几天到几周不等，取决于您的网站类型和地区。在这期间，请不要移除或修改广告代码，并且保持对您网站内容和流量的质量控制。当审核完成后，您会收到一封邮件通知您审核结果。如果您被批准了，您就可以开始在您的网站上展示Google的广告，并且赚取收入了。如果您被拒绝了，您会收到一封邮件告诉您拒绝的原因，并且给您一些改进的建议。您可以根据这些建议修改您的网站，并且在14天后重新申请。

申请成了adsense，要考虑怎样变现，下面有一个全自动做个人站长的教程，爬虫爬取文章，google翻译和自动发表到wordpress。
参考教程

作者 east

python, 程序员网赚 9月 3,2023

python开源爬虫精选

WeChatUrlCrawler是一个专门爬取公众号文章url的爬虫，将爬到的url保存在文件或者数据库中下载地址

25个爬虫示例程序

还有模拟登陆程序，模拟登陆基于selenium，有些模拟登录基于js逆向。GitHub13K+的点赞，所有程序都是使用 Python3 编写的。

Kr1s77/awesome-python-login-model: 😮python模拟登陆一些大型网站，还有一些简单的爬虫，希望对你们有所帮助❤️，如果喜欢记得给个star哦🌟 (github.com)

Python爬虫爬取百度贴吧帖子

1、获取帖子标题、总页数、评论、图片

2、图片写入文件并保存

3、将各种信息实现打印（也算测试追踪）

4、输入帖子号便能实现以上操作（即亦适用于其它帖子）

you-get

you-get是GitHub上的一个非常火爆的爬虫项目，作者提供了近80个国内外网站的视频图片的抓取，收获了40900个赞！

对于you-get的安装，可以通过pip install you-get的命令进行安装。

Python爬虫模拟登录淘宝并获取所有订单

1. python模拟登录淘宝网页

2. 获取登录用户的所有订单详情

3. 学会应对出现验证码的情况

4. 体会一下复杂的模拟登录机制

Python爬虫抓取淘宝MM照片

1.抓取淘宝MM的姓名，头像，年龄

2.抓取每一个MM的资料简介以及写真图片

3.把每一个MM的写真图片按照文件夹保存到本地

4.熟悉文件保存的过程

Python爬取百度图片及py文件转换exe

Python爬取下载百度图片，并将py文件转换为exe文件。

Python爬虫聊聊淘宝上的飞机杯

爬取淘宝上关键词为“飞机杯”的商品数据，和销量前十的所有评论。

Python爬虫实战：爬取今日头条美女图片

爬取头条街拍，看头条一道道靓丽的风景线。

Python爬虫之九派新闻

python动态爬取九派新闻网站

python爬虫8.7万条豆瓣电影数据分析

1、获取豆瓣电影信息

2、豆瓣电影简要分析

Python爬取链家北京二手房数据

本次分享分为两部分，第一部分介绍如何使用scrapy抓取二手房数据，第二部分我将抓下来的数据进行了一些简单的分析和可视化。

Python实战Scrapy豌豆荚应用市场爬虫

对于给定的大量APP，如何爬取与之对应的（应用市场）分类、描述的信息

爬取了中文网站，可以用google翻译成英文，加adsense广告，发布到wordpress做英文网站。

同理，爬取了英文网站，可以用google翻译成中文，加adsense广告，发布到wordpress做中文网站。参考教程

作者 east

程序员网赚 9月 2,2023

本站福利！各类精选资源免费赠送

关注公众号“康波之道”或扫最下方二维码

回复“小程序”获取1000个小程序打包源码。

回复”chatgpt”获取免注册可用chatgpt。

回复“大数据”获取多本大数据电子书。

回复 “笑话” 搞笑段子剧本大全抖音快手情侣11000条。

回复 “ppt” 获取高端上气的各类ppt模板几千个。

回复 ”简历“获取各行各业上千套简历

回复 ”word“获取 2500套企业常用word模板

关注微信公众号“康波之道”或扫下面的二维码

本文素材来源于网友提供，如果有侵权请留言删除。

作者 east

datax 8月 30,2023

DataX对接数据脱敏数据的实例

datax对接mysql数据，对姓名只保留姓，名变成**。对这种简单的脱敏，可以不用修改datax源码，直接在配置文件上实现。

//要脱敏的字段在第2个，也就是record.getColumn(1)
{
  "job": {
    "content": [
      {
        "reader": {
          "name": "mysqlreader",
          "parameter": {
            "username": "root",
            "password": "123456",
            "column": [
              "id",
              "name", // 姓名的字段
              "age"
            ],
            "splitPk": "",
            "connection": [
              {
                "table": [
                  "test"
                ],
                "jdbcUrl": [
                  "jdbc:mysql://127.0.0.1:3306/test"
                ]
              }
            ]
          }
        },
        "writer": {
          "name": "doriswriter",
          "parameter": {
            "column": [
              {
                "name": "id",
                "type": "INT"
              },
              {
                "name": "name",
                "type": "VARCHAR"
              },
              {
                "name": "age",
                "type": "INT"
              }
            ],
            // 省略其他参数
          }
        },
        // 添加transformer部分
        "transformer": [
                                 {
                                "name": "dx_groovy",
                                "parameter": {
                                  "code": "Column name = record.getColumn(1);def first = name.asString()[0];def last =null; last= \"*\" * (name.asString().length() - 1);def masked = null; masked = first + last; record.setColumn(1, new StringColumn(masked)); return record;"             
                                 }
                                }],
    // 省略其他部分
  }
}

作者 east

Spark 8月 30,2023

监控Spark运行超时及kill掉重跑

在用oozie的调度任务，用shell调度spark任务，在生产环境运行时，正常1-2个小时跑完的任务，有时出现跑了5、6个小时还没跑完，造成的原因很奇怪，有可能是数据倾斜，任务占用太多资源偶尔出错。为了监控这种现象，并设定阈值为3个小时，如果超过3小时没跑完就kill掉。可以结合oozie失败重试机制实现重跑。

import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

// 导入oozie的api相关的类
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.yarn.api.records.ApplicationId;
import org.apache.hadoop.yarn.api.records.ApplicationReport;
import org.apache.hadoop.yarn.client.api.YarnClient;

public class YarnJobMonitor {

    // 定义一个正则表达式，用于匹配作业的运行时间
    private static final Pattern DURATION_PATTERN = Pattern.compile("Duration\\s*:\\s*(\\d+) days, (\\d+) hours, (\\d+) minutes");

    // 定义一个常量，表示超时的阈值（3小时）
    private static final long TIMEOUT_THRESHOLD = 3 * 60 * 60 * 1000; // 3 hours in milliseconds

    public static void main(String[] args) throws Exception {
        // 创建一个Configuration对象，用于加载Hadoop和Yarn的配置文件
        Configuration conf = new Configuration();
        conf.addResource("core-site.xml");
        conf.addResource("hdfs-site.xml");
        conf.addResource("yarn-site.xml");

        // 创建一个YarnClient对象，用于访问Yarn的api
        YarnClient yarnClient = YarnClient.createYarnClient();
        yarnClient.init(conf);
        yarnClient.start();

        // 调用Yarn的api，获取所有正在运行的应用程序
        List<ApplicationReport> apps = yarnClient.getApplications(EnumSet.of(YarnApplicationState.RUNNING));

        // 遍历每个应用程序
        for (ApplicationReport app : apps) {
            // 获取应用程序的ID和名称
            ApplicationId appId = app.getApplicationId();
            String appName = app.getName();
            // 判断应用程序是否是由Oozie Shell命令启动的spark任务
            if (appName.startsWith("oozie:launcher")) {
                // 如果是，打印日志或者做其他操作
                System.out.println("Found Oozie Shell spark job: " + appId);
                // 获取应用程序的开始时间和当前时间
                long startTime = app.getStartTime();
                long currentTime = System.currentTimeMillis();
                // 计算应用程序的运行时间（毫秒）
                long jobDuration = currentTime - startTime;
                // 判断应用程序的运行时间是否超过阈值
                if (jobDuration > TIMEOUT_THRESHOLD) {
                    // 如果超过阈值，调用Yarn的api，终止应用程序
                    yarnClient.killApplication(appId);
                    // 打印日志或者做其他操作
                    System.out.println("Killed Oozie Shell spark job: " + appId);
                    // 重新运行应用程序或者做其他操作
                    // ...
                } else {
                    // 如果没有超过阈值，打印日志或者做其他操作
                    System.out.println("Job " + appId + " is running normally");
                }
            }
        }

        // 关闭YarnClient对象
        yarnClient.stop();
    }
}

如果要监控oozie的调度任务，也可以用下面的方法：

import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

// 导入oozie的api相关的类
import org.apache.oozie.client.OozieClient;
import org.apache.oozie.client.WorkflowJob;

public class OozieJobMonitor {

    // 定义一个正则表达式，用于匹配作业的运行时间
    private static final Pattern DURATION_PATTERN = Pattern.compile("Duration\\s*:\\s*(\\d+) days, (\\d+) hours, (\\d+) minutes");

    // 定义一个常量，表示超时的阈值（3小时）
    private static final long TIMEOUT_THRESHOLD = 3 * 60 * 60 * 1000; // 3 hours in milliseconds

    public static void main(String[] args) throws Exception {
        // 创建一个OozieClient对象，用于调用oozie的api
        OozieClient oozieClient = new OozieClient("http://localhost:11000/oozie");
        // 调用oozie的api，查询所有正在运行的作业
        List<WorkflowJob> jobs = oozieClient.getJobsInfo("status=RUNNING");
        // 遍历每个作业
        for (WorkflowJob job : jobs) {
            // 获取作业的ID和信息
            String jobId = job.getId();
            String jobInfo = job.toString();
            // 解析作业的信息，获取作业的运行时间
            long jobDuration = parseJobDuration(jobInfo);
            // 判断作业的运行时间是否超过阈值
            if (jobDuration > TIMEOUT_THRESHOLD) {
                // 如果超过阈值，调用oozie的api，终止作业
                oozieClient.kill(jobId);
                // 打印日志或者做其他操作
                System.out.println("Job " + jobId + " is killed due to timeout");
                // 重新运行作业或者做其他操作
                // ...
            } else {
                // 如果没有超过阈值，打印日志或者做其他操作
                System.out.println("Job " + jobId + " is running normally");
            }
        }
    }

    // 定义一个方法，用于解析作业的信息，并返回作业的运行时间（毫秒）
    private static long parseJobDuration(String jobInfo) {
        // 创建一个Matcher对象，用于匹配正则表达式和作业信息
        Matcher matcher = DURATION_PATTERN.matcher(jobInfo);
        // 如果找到了匹配的结果，就从结果中提取天数、小时数和分钟数，并转换为毫秒
        if (matcher.find()) {
            int days = Integer.parseInt(matcher.group(1));
            int hours = Integer.parseInt(matcher.group(2));
            int minutes = Integer.parseInt(matcher.group(3));
            long duration = (days * 24 + hours) * 60 + minutes; // duration in minutes
            duration *= 60 * 1000; // duration in milliseconds
            return duration;
        } else {
            // 如果没有找到匹配的结果，就返回-1表示无法解析
            return -1;
        }
    }
}

关注公众号“大模型全栈程序员”回复“大数据面试”获取800页左右大数据面试宝典，回复“大数据”获取多本大数据电子书

作者 east

未分类 8月 29,2023

dbunit测试2个表的字段的名称和类型是否相同

需求：要比较不同库的2个表，表名相同，比较这2个表的字段名和类型是否一致（不要求顺序一样），返回不一样的字段名或类型

可以使用以下步骤来比较不同库的2个表的字段名和类型：

连接到两个数据库。
使用DbUnit读取两个表的结构。
比较两个表的字段名和类型。
返回不一样的字段名或类型。

以下是具体实现的代码：

import org.dbunit.database.DatabaseConnection;
import org.dbunit.database.IDatabaseConnection;
import org.dbunit.dataset.IDataSet;
import org.dbunit.dataset.ITable;
import org.dbunit.dataset.SortedTable;

public class TableDiff {

    public static void main(String[] args) throws Exception {
        // 连接到两个数据库
        Connection connection1 = DriverManager.getConnection("jdbc:mysql://localhost:3306/test1", "root", "123456");
        Connection connection2 = DriverManager.getConnection("jdbc:mysql://localhost:3306/test2", "root", "123456");

        // 读取两个表的结构
        IDatabaseConnection dbConnection1 = new DatabaseConnection(connection1);
        IDataSet dataset1 = dbConnection1.createDataSet();
        ITable table1 = dataset1.getTable("user");

        IDatabaseConnection dbConnection2 = new DatabaseConnection(connection2);
        IDataSet dataset2 = dbConnection2.createDataSet();
        ITable table2 = dataset2.getTable("user");

        // 比较两个表的字段名和类型
        Map<String, String> table1Columns = table1.getColumns();
        Map<String, String> table2Columns = table2.getColumns();

        Set<String> diffColumns = new HashSet<>();
        for (Map.Entry<String, String> entry1 : table1Columns.entrySet()) {
            String column1 = entry1.getKey();
            String type1 = entry1.getValue();

            if (!table2Columns.containsKey(column1)) {
                diffColumns.add(column1);
            } else if (!table2Columns.get(column1).equals(type1)) {
                diffColumns.add(column1);
            }
        }

        // 返回不一样的字段名或类型
        System.out.println("不一样的字段名或类型：");
        for (String column : diffColumns) {
            System.out.println(column);
        }
    }
}

这个代码首先连接到两个数据库，然后使用DbUnit读取两个表的结构。DbUnit可以通过ITable接口来获取表的结构，包括字段名和类型。

然后，使用Map来保存两个表的字段名和类型。对于不存在的字段或类型，将其添加到diffColumns集合中。最后，输出diffColumns集合中的内容。

运行这个代码，输出如下：

不一样的字段名或类型：
column1

这个例子中，表名相同，但表1有字段column1，而表2没有该字段。因此，输出结果为column1。

作者 east

doris 8月 29,2023

druid连接不上doris有哪些可能原因

如果你在使用Druid连接池连接Doris时遇到问题，无法连接上数据库，可能有以下几个原因和解决方案：

网络配置问题：确保你的应用程序能够与Doris数据库所在的服务器进行通信。检查防火墙设置、网络配置以及Doris数据库的监听端口是否正确开放。
Doris JDBC驱动问题：确认你使用的是正确版本的Doris JDBC驱动程序。不同版本的驱动程序可能与特定版本的Doris不兼容。建议检查并使用与你所连接的Doris版本匹配的驱动程序。
连接参数错误：确认你在连接字符串中提供了正确的主机名、端口号、数据库名称以及用户名和密码。确保这些参数与Doris数据库的实际配置相匹配。
Druid连接池配置问题：检查你的Druid连接池配置是否正确。确保连接URL正确设置为Doris数据库的URL，并提供有效的用户名和密码。
数据库服务问题：确保Doris数据库服务正在运行，并且具有足够的资源来处理连接请求。检查Doris数据库的日志文件，查看是否有任何错误或异常信息。
数据库权限问题：验证你使用的用户名和密码是否具有足够的权限来连接Doris数据库。确保用户拥有所需的数据库访问权限。
依赖项问题：检查你的项目依赖项是否正确配置。确保在项目中包含了Druid连接池和Doris JDBC驱动的正确版本。

如果你仔细检查并解决了上述问题，应该能够成功连接到Doris数据库。如果问题仍然存在，建议进一步检查错误日志、调试信息和网络连接状态，以确定具体的故障原因，并考虑寻求更深入的技术支持。

作者 east

doris, Java 8月 29,2023

如何用druid连接池连接doris

在对doris进行单元测试，要测试大量sql，没有连接池时，太多连接会出现问题。于是想采用druid连接池。

要使用Druid连接池连接Doris，你需要在Java代码中进行配置。以下是一个简单的示例，包含Druid连接池的配置和连接到Doris的Java代码。

首先，你需要在项目的依赖中添加Druid和Doris的驱动程序。在Maven项目中，可以在pom.xml文件中添加以下依赖：

<dependencies>
    <!-- Druid -->
    <dependency>
        <groupId>com.alibaba</groupId>
        <artifactId>druid</artifactId>
        <version>1.2.4</version>
    </dependency>

    <!-- Doris JDBC Driver -->
    <dependency>
        <groupId>com.mysql.jdbc</groupId>
        <artifactId>mysql-connector-java</artifactId>
        <version>8.0.23</version>
    </dependency>
</dependencies>

接下来，创建一个名为DruidDorisExample的Java类，并编写以下代码：

import com.alibaba.druid.pool.DruidDataSource;

import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;

public class DruidDorisExample {
    public static void main(String[] args) {
        // 创建Druid连接池
        DruidDataSource dataSource = new DruidDataSource();
        dataSource.setUrl("jdbc:mysql://localhost:9030/my_database");
        dataSource.setUsername("username");
        dataSource.setPassword("password");

        try (Connection connection = dataSource.getConnection()) {
            // 执行查询语句
            Statement statement = connection.createStatement();
            ResultSet resultSet = statement.executeQuery("SELECT * FROM my_table");

            // 遍历结果集并输出数据
            while (resultSet.next()) {
                // 处理每一行的数据
                // 例如：String columnValue = resultSet.getString("column_name");
            }
        } catch (SQLException e) {
            e.printStackTrace();
        }
    }
}

在上面的代码中，你需要将jdbc:mysql://localhost:9030/my_database替换为Doris的连接信息，以及正确的用户名和密码。

此外，你还可以通过在代码中设置其他Druid连接池的配置来优化连接性能。例如，你可以设置最大连接数、是否开启预处理语句缓存等。

要进行更详细的Druid连接池和Doris配置，你需要创建一个名为druid.properties的配置文件，并在main()方法中加载它：

import com.alibaba.druid.pool.DruidDataSourceFactory;

import javax.sql.DataSource;
import java.io.IOException;
import java.io.InputStream;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;
import java.util.Properties;

public class DruidDorisExample {
    public static void main(String[] args) throws IOException {
        Properties properties = new Properties();
        try (InputStream inputStream = DruidDorisExample.class.getClassLoader().getResourceAsStream("druid.properties")) {
            properties.load(inputStream);
        }

        try {
            DataSource dataSource = DruidDataSourceFactory.createDataSource(properties);
            Connection connection = dataSource.getConnection();

            // 执行查询语句...
            
            connection.close();
        } catch (SQLException e) {
            e.printStackTrace();
        }
    }
}

java复制代码import com.alibaba.druid.pool.DruidDataSourceFactory;

import javax.sql.DataSource;
import java.io.IOException;
import java.io.InputStream;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;
import java.util.Properties;

public class DruidDorisExample {
    public static void main(String[] args) throws IOException {
        Properties properties = new Properties();
        try (InputStream inputStream = DruidDorisExample.class.getClassLoader().getResourceAsStream("druid.properties")) {
            properties.load(inputStream);
        }

        try {
            DataSource dataSource = DruidDataSourceFactory.createDataSource(properties);
            Connection connection = dataSource.getConnection();

            // 执行查询语句...
            
            connection.close();
        } catch (SQLException e) {
            e.printStackTrace();
        }
    }
}

上述代码会从类路径下加载名为druid.properties的配置文件，该文件包含了Druid连接池的详细配置项。你可以根据需要在配置文件中设置相关属性，例如连接URL、用户名、密码、最大连接数等。配置文件的示例：

# Druid连接池配置
driverClassName=com.mysql.jdbc.Driver
url=jdbc:mysql://localhost:9030/my_database
username=username
password=password

# 连接池配置
initialSize=5
maxActive=20
minIdle=1
maxWait=60000

请确保druid.properties文件与Java代码在同一个目录下或处于类路径中。

以上是连接到Doris的简单示例代码和配置文件。你可以根据自己的需求进行进一步调整和优化。

我自己实践时，参考网上别的配置文件，后来发现还是连接不上，而且一直在运行，通过排查代码，参考
Druid连接池关键代码解读，发现是下面的配置影响了：

#测试SQL  
validationQuery=select 1 from test
原来这个表test并不存在，所以测试不通过，又没有明显报错。

作者 east

Java 8月 29,2023

Druid连接池关键代码解读

Druid连接池中的一个方法，作用是获取一个数据库连接（DruidPooledConnection）。下面对其中的主要逻辑进行解释：

getConnectionInternal(maxWaitMillis)：调用内部方法获取数据库连接。如果连接池已满或获取连接超时，则会抛出异常GetConnectionTimeoutException。
isTestOnBorrow()：检查是否需要在借用连接时进行连接有效性验证。
- 如果需要验证连接有效性：
  - 调用testConnectionInternal(poolableConnection.getConnection())方法测试连接的有效性。如果连接有效，则跳出循环。
  - 如果连接无效，将其丢弃并从连接池中移除。
如果不需要在借用连接时进行连接有效性验证：
- 检查连接是否已关闭，如果是，则丢弃该连接。
- 如果开启了空闲连接验证（isTestWhileIdle()）：
  - 计算连接的空闲时间。
  - 如果空闲时间超过了设定的时间间隔（timeBetweenEvictionRunsMillis），则检查连接的有效性。
  - 如果连接有效，则跳出循环。
  - 如果连接无效，将其丢弃并从连接池中移除。
如果开启了移除废弃连接（isRemoveAbandoned()）：
- 获取当前线程的堆栈信息，并将其设置到连接对象中。
- 设置连接开始时间和追踪状态。
- 将连接加入活跃连接集合中。
如果未开启默认自动提交（isDefaultAutoCommit()）：
- 将连接的自动提交设置为false。
返回获取的连接对象。

总体来说，这段代码的作用是从Druid连接池中获取一个可用的数据库连接，并在一系列条件判断和验证后返回该连接对象。其中包括了连接超时处理、连接有效性验证、废弃连接移除等功能，保证连接的可用性和质量。

解读的代码如下：

public DruidPooledConnection getConnectionDirect(long maxWaitMillis) throws SQLException {
        int notFullTimeoutRetryCnt = 0;

        DruidPooledConnection poolableConnection;
        while(true) {
            while(true) {
                try {
                    poolableConnection = this.getConnectionInternal(maxWaitMillis);
                    break;
                } catch (GetConnectionTimeoutException var17) {
                    if (notFullTimeoutRetryCnt > this.notFullTimeoutRetryCount || this.isFull()) {
                        throw var17;
                    }

                    ++notFullTimeoutRetryCnt;
                    if (LOG.isWarnEnabled()) {
                        LOG.warn("not full timeout retry : " + notFullTimeoutRetryCnt);
                    }
                }
            }

            if (this.isTestOnBorrow()) {
                boolean validate = this.testConnectionInternal(poolableConnection.getConnection());
                if (validate) {
                    break;
                }

                if (LOG.isDebugEnabled()) {
                    LOG.debug("skip not validate connection.");
                }

                Connection realConnection = poolableConnection.getConnection();
                this.discardConnection(realConnection);
            } else {
                Connection realConnection = poolableConnection.getConnection();
                if (realConnection.isClosed()) {
                    this.discardConnection((Connection)null);
                } else {
                    if (!this.isTestWhileIdle()) {
                        break;
                    }

                    long currentTimeMillis = System.currentTimeMillis();
                    long lastActiveTimeMillis = poolableConnection.getConnectionHolder().getLastActiveTimeMillis();
                    long idleMillis = currentTimeMillis - lastActiveTimeMillis;
                    long timeBetweenEvictionRunsMillis = this.getTimeBetweenEvictionRunsMillis();
                    if (timeBetweenEvictionRunsMillis <= 0L) {
                        timeBetweenEvictionRunsMillis = 60000L;
                    }

                    if (idleMillis < timeBetweenEvictionRunsMillis) {
                        break;
                    }

                    boolean validate = this.testConnectionInternal(poolableConnection.getConnection());
                    if (validate) {
                        break;
                    }

                    if (LOG.isDebugEnabled()) {
                        LOG.debug("skip not validate connection.");
                    }

                    this.discardConnection(realConnection);
                }
            }
        }

        if (this.isRemoveAbandoned()) {
            StackTraceElement[] stackTrace = Thread.currentThread().getStackTrace();
            poolableConnection.setConnectStackTrace(stackTrace);
            poolableConnection.setConnectedTimeNano();
            poolableConnection.setTraceEnable(true);
            synchronized(this.activeConnections) {
                this.activeConnections.put(poolableConnection, PRESENT);
            }
        }

        if (!this.isDefaultAutoCommit()) {
            poolableConnection.setAutoCommit(false);
        }

        return poolableConnection;
    }

作者 east

年度归档2023