gitweixin
  • 首页
  • 小程序代码
    • 资讯读书
    • 工具类
    • O2O
    • 地图定位
    • 社交
    • 行业软件
    • 电商类
    • 互联网类
    • 企业类
    • UI控件
  • 大数据开发
    • Hadoop
    • Spark
    • Hbase
    • Elasticsearch
    • Kafka
    • Flink
    • 数据仓库
    • 数据挖掘
    • flume
    • Kafka
    • Hive
    • shardingsphere
    • solr
  • 开发博客
    • Android
    • php
    • python
    • 运维
    • 技术架构
    • 数据库
  • 程序员网赚
  • bug清单
  • 量化投资
  • 在线查询工具
    • 去行号
    • 在线时间戳转换工具
    • 免费图片批量修改尺寸在线工具
    • SVG转JPG在线工具

月度归档9月 2023

精品微信小程序开发门户,代码全部亲测可用

  • 首页   /  2023   /  
  • 9月
  • ( 页面2 )
chatgpt 9月 11,2023

清华开源ChatGPT自动编程ChatDev项目结构和关键代码解析

这个项目的详细解析如下:

  • 项目概述:ChatDev是一个使用自然语言描述的想法来创建定制软件的项目,它通过多智能体协作的方式来实现软件开发的各个阶段,包括设计、编码、测试和文档1。ChatDev的目标是提供一个易于使用、高度可定制和可扩展的框架,基于大型语言模型(LLM),作为研究集体智能的理想场景1。
  • 项目作用:ChatDev可以让用户通过简单的自然语言描述来构建自己想要的软件,无需编程知识或技能。用户只需要提供一个简单的想法,例如“我想要一个五子棋游戏”,就可以让ChatDev的智能体们协同工作,生成一个完整的五子棋软件,包括界面、逻辑、功能和文档1。用户可以在过程中与智能体们进行交互,提供反馈或修改需求,从而得到更满意的结果1。
  • 项目结构:ChatDev的项目结构如下:
    • CompanyConfig:这个文件夹包含了ChatDev的公司配置文件,定义了公司的名称、使命、愿景、价值观、组织结构、角色分配等信息1。用户可以根据自己的喜好修改这些配置文件,从而定制自己的虚拟软件公司1。
    • WareHouse:这个文件夹包含了ChatDev生成的软件仓库,每个仓库对应一个用户提出的想法1。每个仓库中包含了软件的源代码、测试代码、文档等文件,以及一个README.md文件,记录了软件的基本信息和开发过程1。
    • chatdev:这个文件夹包含了ChatDev的核心代码,实现了智能体之间的通信和协作机制,以及各个阶段的任务分配和执行逻辑1。这个文件夹中还包含了一些辅助函数和工具类,用于处理自然语言、生成代码、测试软件等功能1。
    • misc:这个文件夹包含了一些杂项文件,例如五子棋游戏的图形资源1。
    • online_log:这个文件夹包含了ChatDev在线日志模式和回放模式所需的文件1。在线日志模式可以让用户实时查看智能体之间的对话和交互过程,回放模式可以让用户回顾已经完成的软件开发过程1。
    • .gitignore:这个文件用于指定哪些文件或文件夹不需要被Git跟踪1。
    • README.md:这个文件是项目的主要介绍文件,包含了项目的概述、新闻、功能、快速入门、使用方法、常见问题等信息1。
    • requirements.txt:这个文件用于指定项目所需的Python依赖包1。
    • run.py:这个文件是项目的主要运行文件,用于启动ChatDev并接收用户输入1。
    • wiki.md:这个文件是项目的详细文档文件,包含了项目背景、原理、架构、配置、使用示例等信息1。
  • 项目关键代码详细解析:
    • run.py:这个文件是项目运行时最先执行的代码,它首先导入了chatdev模块中定义的Company类,并创建了一个Company对象company。然后它调用company.init()方法来初始化公司配置,并打印出公司名称和使命。接下来它调用company.start()方法来启动公司的运行,这个方法会创建一个新的线程来执行company.run()方法,这个方法是公司运行的主循环。然后它调用company.input()方法来接收用户输入,并将用户输入传递给company.handle_input()方法,这个方法会根据用户输入的内容来执行相应的操作,例如创建新的软件项目、查看已有的软件项目、切换在线日志模式或回放模式等。最后它调用company.stop()方法来停止公司的运行,并释放资源。
    • chatdev/company.py:这个文件定义了Company类,这个类是ChatDev的核心类,代表了一个虚拟的软件公司。Company类有以下几个主要属性和方法:
      • __init__():这个方法是Company类的构造函数,它接受一个参数config,表示公司配置文件的路径。它首先调用load_config()方法来加载配置文件,并将配置信息保存在self.config属性中。然后它创建了一个空列表self.projects,用于存储公司创建的软件项目。接着它创建了一个空字典self.agents,用于存储公司拥有的智能体。最后它创建了一个空队列self.queue,用于存储智能体之间的消息。
      • load_config():这个方法用于加载配置文件,并返回一个字典对象,包含了配置信息。它首先使用json模块打开配置文件,并将其解析为一个Python对象。然后它检查配置信息是否合法,例如是否包含了必要的字段,是否符合预期的格式等。如果配置信息合法,它就返回这个对象,否则它就抛出一个异常。
      • init():这个方法用于初始化公司,根据配置信息创建智能体并分配角色。它首先遍历配置信息中的agents字段,对于每个智能体,它根据其类型和名称创建一个Agent对象,并将其添加到self.agents字典中,以名称为键,对象为值。然后它遍历配置信息中的roles字段,对于每个角色,它根据其名称和成员列表创建一个Role对象,并将其添加到self.agents字典中,以名称为键,对象为值。最后它遍历配置信息中的relations字段,对于每个关系,它根据其类型和成员列表创建一个Relation对象,并将其添加到self.agents字典中,以类型为键,对象为值。
      • start():这个方法用于启动公司的运行,它创建了一个新的线程来执行self.run()方法,并将其保存在self.thread属性中。
      • stop():这个方法用于停止公司的运行,它向self.queue队列中发送一个特殊的消息”STOP”,表示终止信号,并等待self.thread线程结束。
      • run():这个方法是公司运行的主循环,它不断地从self.queue队列中获取消息,并根据消息内容进行处理。如果消息是”STOP”,表示终止信号,它就退出循环并结束线程。如果消息是一个元组(msg, sender, receiver),表示智能体之间的通信消息,它就调用handle_message()方法来处理这个消息。如果消息是其他类型,表示异常情况,它就打印出错误信息并忽略这个消息。
      • handle_message():这个方法用于处理智能体之间的通信消息,它接受三个参数msg, sender, receiver,分别表示消息内容
作者 east
python 9月 8,2023

python自动合成图片为gif,并能根据第一张图片自动统一图片尺寸

网上找来合成图片成gif的代码,没想到运行报错:
Traceback (most recent call last): File “D:\code\python\binance-quantization-master\tools\giftool.py”, line 5, in <module> import imageio.v3 as iio ModuleNotFoundError: No module named ‘imageio.v3’

明明已经运行 pip install imageio 安装模块了。后来分析可能版本旧了,重新升级模块: pip install –upgrade imageio

随便找来几张图片试验:

Traceback (most recent call last): File “D:\code\python\binance-quantization-master\tools\giftool.py”, line 16, in <module> iio.imwrite(‘movie.gif’, images, duration=3, loop=0) File “D:\aiBigData\anaconda3\lib\site-packages\imageio\v3.py”, line 147, in imwrite encoded = img_file.write(image, **kwargs) File “D:\aiBigData\anaconda3\lib\site-packages\imageio\plugins\pillow.py”, line 389, in write ndimage = np.stack(ndimage, axis=0) File “D:\aiBigData\anaconda3\lib\site-packages\numpy\core\shape_base.py”, line 449, in stack raise ValueError(‘all input arrays must have the same shape’) ValueError: all input arrays must have the same shape

导致错误的原因是所有输入的图像数组必须具有相同的形状。这意味着合成 GIF 时,要确保所有的图像具有相同的宽度和高度。 在实际应用场景,也很有可能尺寸大小有轻微不同。

一种简单的方法是使用 PIL 库来调整图像的大小 。

原来的代码:

import imageio.v3 as iio
import os

png_dir = 'images'
images = []

# list file in folder 'images' and sort them by name
image_list = [os.path.join(png_dir, f) for f in os.listdir(png_dir) if f.endswith('.png')]
image_list.sort()

# append images to list
for file_name in image_list:
    images.append(iio.imread(file_name))

# save as gif file
iio.imwrite('movie.gif', images, duration=3, loop=0)

修改后代码:

import imageio.v3 as iio
import os
from PIL import Image

png_dir = 'd:\\tmp'
images = []

# list file in folder 'images' and sort them by name
image_list = [os.path.join(png_dir, f) for f in os.listdir(png_dir) if f.endswith('.png')]
image_list.sort()


# 获取第一张图像的尺寸
first_image = Image.open(os.path.join(png_dir, image_list[0]))
target_size = first_image.size

# 循环处理图像并调整大小
for file_name in image_list:
    image = Image.open(file_name)
    resized_image = image.resize(target_size)
    images.append(resized_image)


# save as gif file
iio.imwrite('movie.gif', images, duration=3, loop=0)
作者 east
Java, python 9月 7,2023

用ChatGPT自动生成流程图

我们看别人代码时,总希望有流程图,这样可以一目了然,不过自己写的代码,又不想花几个小时去画流程图。有没有更好的方法呢?

方法就是用ChatGPT等大模型自动生成流程图,并用python等语言实现自动输出流程图。

1、生成流程图的 Mermaid语法

ChatGPT提示语:

对下面的代码生成流程图,并用Mermaid语法输出 。

2、把Mermaid语法的流程图输出图片

要使用Python或Java生成Mermaid语法输出的流程图图片,您可以使用以下方法:

Python 方法:

  1. 使用 mermaid-cli 工具来将Mermaid代码转换为图片。首先,安装mmdc(mermaid-cli的执行程序)。
  2. 使用Python调用mmdc。
import os

def generate_mermaid_image(mermaid_code, output_path):
    with open("temp.mmd", "w") as file:
        file.write(mermaid_code)
    os.system(f"mmdc -i temp.mmd -o {output_path}")
    os.remove("temp.mmd")

mermaid_code = """
graph TD;
    A-->B;
    A-->C;
    B-->D;
    C-->D;
"""

generate_mermaid_image(mermaid_code, "output.png")

Java 方法:

  1. 与Python方法相同,首先安装 mermaid-cli。
  2. 使用Java的 Runtime 类来调用 mmdc。
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;

public class MermaidGenerator {

    public static void generateMermaidImage(String mermaidCode, String outputPath) throws IOException, InterruptedException {
        File tempFile = File.createTempFile("temp", ".mmd");
        try (FileWriter writer = new FileWriter(tempFile)) {
            writer.write(mermaidCode);
        }

        Process process = Runtime.getRuntime().exec("mmdc -i " + tempFile.getAbsolutePath() + " -o " + outputPath);
        process.waitFor();

        tempFile.delete();
    }

    public static void main(String[] args) throws IOException, InterruptedException {
        String mermaidCode = """
            graph TD;
                A-->B;
                A-->C;
                B-->D;
                C-->D;
            """;
        generateMermaidImage(mermaidCode, "output.png");
    }
}

请注意,这两种方法都需要您在计算机上安装并配置mermaid-cli。此外,这两种方法都是使用临时文件来存储Mermaid代码,并在转换后删除它。这是为了简化调用mmdc的过程,但您可以根据需要进行调整。

作者 east
python 9月 7,2023

python来操作ppt

自动化创建 PowerPoint 演示文稿,仅添加文字而不修改图形,可以使用 Python 和 Python-pptx 库来实现。下面是一个详细的解决方案:

步骤 1:准备 PowerPoint 模板

  • 创建一个 PowerPoint 模板,其中包含您想要的样式、布局和占位符文本框。确保在模板中为每个要添加文字的位置添加文本框(占位符)。

步骤 2:安装 Python-pptx 库

  • 使用 pip 安装 Python-pptx 库,这是一个用于生成 PowerPoint 文件的库。
python复制代码pip install python-pptx

步骤 3:编写 Python 脚本

  • 创建一个 Python 脚本,以自动化生成 PowerPoint 演示文稿。以下是一个示例脚本:
from pptx import Presentation

# 1. 打开 PowerPoint 模板
ppt = Presentation('your_template.pptx')

# 2. 选择要添加文字的幻灯片和文本框(占位符)
slide_index = 0  # 幻灯片索引,从0开始
textbox_index = 0  # 文本框索引,从0开始

slide = ppt.slides[slide_index]
textbox = slide.shapes[textbox_index]

# 3. 添加文字到文本框
text_to_add = "这是要添加的文本。"
textbox.text = text_to_add

# 4. 保存生成的 PowerPoint 文件
ppt.save('generated_presentation.pptx')
  • 在脚本中,您可以指定要添加文字的幻灯片索引和文本框索引。然后,将要添加的文本赋值给文本框的 .text 属性。

步骤 4:运行脚本

  • 运行 Python 脚本,它将打开 PowerPoint 模板、添加指定的文字,然后保存生成的 PowerPoint 文件。

这个解决方案基于现有的 PowerPoint 模板创建演示文稿,仅添加文字而不修改图形或样式。您可以根据需要扩展脚本,以在多个幻灯片和文本框上添加不同的文字内容。请确保您的模板和脚本的格式和布局匹配,以获得所需的结果。

作者 east
mysql, 大数据开发, 提示词 9月 7,2023

java批量生成海量测试数据及用ChatGPT提示语一键生成的方法

在做大数据开发时,为了测试性能等,需要上千万,甚至TB或PB级别的,在测试环境可能没有那么多数据,这时可以考虑进行造测试数据。

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.SQLException;
import java.sql.Timestamp;
import java.util.Random;

public class TestDataGenerator {
    public static void main(String[] args) {
        String url = "jdbc:mysql://localhost:3306/your_database";
        String username = "your_username";
        String password = "your_password";
        int batchSize = 1000; // 每批次插入的数据量
        int totalRecords = 1000000; // 总共要生成的数据量

        try {
            Connection connection = DriverManager.getConnection(url, username, password);
            connection.setAutoCommit(false);

            String insertQuery = "INSERT INTO test (id, callid, type, ...其他列...) VALUES (?, ?, ?, ...其他值...)";
            PreparedStatement preparedStatement = connection.prepareStatement(insertQuery);

            Random random = new Random();

            for (int i = 1; i <= totalRecords; i++) {
                // 设置每个字段的值,根据表结构设置对应的数据生成逻辑
                preparedStatement.setLong(1, i);
                preparedStatement.setString(2, "CallSheet" + i);
                preparedStatement.setString(3, "Type" + (random.nextInt(5) + 1));
                // 设置其他字段的值...

                preparedStatement.addBatch();

                if (i % batchSize == 0) {
                    preparedStatement.executeBatch();
                    connection.commit();
                }
            }

            preparedStatement.executeBatch();
            connection.commit();

            preparedStatement.close();
            connection.close();

            System.out.println("测试数据生成完成!");
        } catch (SQLException e) {
            e.printStackTrace();
        }
    }

请将上述示例中的数据库连接信息和插入逻辑根据您的数据库设置和表结构进行相应的修改。此程序将会在数据库中插入海量测试数据。

更方便的方法是在ChatGPT等大模型,输入下面提示语:

根据下面的表结构,生成100万的测试数据,给出详细的java实现代码或存储过程代码:【表结构】

亲测在New Bing是可以生成可以运行的代码。

作者 east
Flink 9月 5,2023

Flink CDC对接数据报错:you need (at least one of) the REPLICATION SLAVE privilege(s) for this operation Error code

这个错误消息表明在运行 Flink CDC 连接到 MySQL 数据库时,出现了权限问题。错误消息中提到需要 “REPLICATION SLAVE privilege” 权限来执行操作,但是当前用户似乎没有该权限。

错误原因:

  • Flink CDC 需要通过 MySQL 的二进制日志来捕获数据库的变更,以便进行实时流式处理。这需要 MySQL 用户具有 REPLICATION SLAVE 权限,以允许 Flink CDC 作为 MySQL 复制从机来读取二进制日志。

解决方案: 为了解决这个问题,您可以采取以下步骤:

  1. 授予 REPLICATION SLAVE 权限:
    • 通过 MySQL 的 root 或具有足够权限的用户登录。
    • 执行以下 SQL 命令,将 REPLICATION SLAVE 权限授予 Flink CDC 使用的用户名(在 Flink 配置中指定的用户名):sql复制代码GRANT REPLICATION SLAVE ON *.* TO 'your_cdc_user'@'%' IDENTIFIED BY 'your_password';
      • your_cdc_user 替换为 Flink CDC 使用的用户名。
      • your_password 替换为 Flink CDC 使用的密码。
  2. 重新启动 Flink CDC 应用:
    • 确保 Flink CDC 应用程序重新启动,并尝试重新连接到 MySQL 数据库。
  3. 检查 Flink CDC 配置:
    • 确保 Flink CDC 配置文件中的连接字符串、用户名和密码正确配置,以匹配 MySQL 数据库的设置。
  4. 检查防火墙和网络配置:
    • 确保 MySQL 数据库的防火墙和网络配置允许 Flink CDC 应用程序连接到数据库端口。
  5. 查看 MySQL 错误日志:
    • 检查 MySQL 错误日志以获取更多关于访问被拒绝的详细信息。可能会提供有关错误原因的更多线索。
  6. 升级或重新配置 Flink CDC:
    • 如果问题仍然存在,考虑升级 Flink CDC 或重新配置其版本,以确保与 MySQL 数据库兼容性。

通过执行上述步骤,您应该能够解决 Flink CDC 连接到 MySQL 数据库时出现的权限问题。确保授予足够的权限,并检查配置以确保准确性。

关注公众号“大模型全栈程序员”回复“大数据面试”获取800页左右大数据面试宝典 ,回复“大数据”获取多本大数据电子书

作者 east
大数据开发 9月 4,2023

scala比较日期字符串的大小

使用字符串的compareTo方法:如果您的日期字符串是按照“年-月-日”的格式排列的,那么您可以直接使用字符串的compareTo方法来比较它们,无需转换为日期对象。例如,您可以使用以下的Scala代码来比较两个日期字符串1:

val date1 = "2023-09-03"
val date2 = "2023-08-21"
val result = date1.compareTo(date2)
// result: Int = 1
// result > 0 表示 date1 晚于 date2
// result < 0 表示 date1 早于 date2
// result == 0 表示 date1 等于 date2
作者 east
python 9月 3,2023

python读取doc和docx的word文档工具类

需求:
读取目录下所有word文档,对整行空行的进行删除,输出文件名和word文档的内容

docx后缀的:

使用了第三方库 python-docx 来处理 Word 文档。在运行代码之前,您需要使用以下命令安装该库:

pip install python-docx
python
import os
from docx import Document

class FunnyScriptsReader:
    def __init__(self, directory):
        self.directory = directory

    def process_scripts(self):
        for filename in os.listdir(self.directory):
            if filename.lower().endswith('.doc'):
                file_path = os.path.join(self.directory, filename)
                self.process_script_file(file_path)

    def process_script_file(self, file_path):
        document = Document(file_path)
        file_name = os.path.basename(file_path)

        # 删除整行空行
        for paragraph in document.paragraphs:
            if not paragraph.text.strip():
                runs = paragraph.runs
                for run in runs:
                    run.text = ''
        
        # 输出文件名和文档内容
        print("文件名:", file_name)
        print("文档内容:")
        for paragraph in document.paragraphs:
            if paragraph.text.strip():
                print(paragraph.text)

        print()

# 使用示例
directory = r'D:\BaiduNetdiskDownload\'
reader = FunnyScriptsReader(directory)
reader.process_scripts()

python-docx库读取doc后缀的word文档有问题,可以
win32com库 。

pip install pywin32
import os
import win32com.client

# 定义一个函数,用于删除word文档中的空行
def remove_blank_lines(doc):
    paragraphs = doc.Paragraphs
    for paragraph in paragraphs:
        if paragraph.Range.Text.strip() == "":
            paragraph.Range.Delete()

# 定义一个目录路径,用于存放word文档
dir_path = r'D:\BaiduNetdiskDownload'

# 创建一个word应用对象,设置为不可见
word = win32com.client.Dispatch("Word.Application")
word.Visible = False

# 遍历目录下的所有文件,筛选出.doc后缀的文件
for file in os.listdir(dir_path):
    if file.endswith(".doc"):
        # 拼接文件的完整路径
        file_path = os.path.join(dir_path, file)
        try:
            # 打开word文档
            doc = word.Documents.Open(file_path)
            # 调用函数,删除空行
            remove_blank_lines(doc)
            # 输出文件名和文档内容
            print("文件名:", file)
            print("文档内容:", doc.Content.Text)
            # 关闭文档
            doc.Close()
        except Exception as e:
            # 捕获异常,输出错误信息
            print("Error:", e)

# 退出word应用
word.Quit()
作者 east
广告联盟 9月 3,2023

申请adsense的详细攻略

申请Google AdSense是很多网站主和博主的梦想,因为它可以让您通过在您的网站上展示Google的广告来赚取收入。但是,申请AdSense并不是一件容易的事情,您需要满足一些条件和要求,才能通过审核和激活您的账户。本文将为您提供一些申请AdSense的详细攻略,帮助您顺利完成这个过程。

  1. 准备您的网站。在申请AdSense之前,您需要确保您的网站符合Google的[内容政策]和[质量指南],并且有足够的高质量和独特的内容。您的网站应该有一个清晰的主题和目标,有一个专业和易于导航的设计,有一个完整的[隐私政策]和[免责声明]页面,以及一个有效的联系方式。您还需要确保您的网站没有违反任何版权或商标法,没有包含任何色情、暴力、仇恨或非法的内容,没有使用任何欺骗或误导用户的手段,没有参与任何作弊或滥用行为,没有使用任何违反Google广告政策的软件或工具。如果您的网站不符合这些标准,您可能会被拒绝申请或被暂停账户。
  2. 注册Google账户。如果您还没有一个Google账户,您需要先[注册]一个。如果您已经有一个Google账户,您可以直接使用它来申请AdSense。请注意,每个人只能拥有一个AdSense账户,如果您已经有一个AdSense账户,您不能再申请另一个。如果您想在多个网站上使用AdSense,您只需要将这些网站添加到您现有的账户中即可。
  3. 填写申请表格。当您准备好申请AdSense时,您可以访问[AdSense官网],点击“开始”按钮,然后按照提示填写申请表格。您需要提供以下信息:
    • 您要在上面展示广告的网站地址(例如:https://www.example.com)
    • 您要使用AdSense的语言(例如:中文)
    • 您的个人信息(例如:姓名、地址、电话号码、电子邮件地址等)
    • 您的支付信息(例如:银行账户、税务信息等)
    • 您对AdSense条款和条件的同意
    • 您对AdSense邮件偏好设置的选择
  4. 放置广告代码。当您提交了申请表格后,您会收到一封确认邮件,并且会在您的AdSense账户中看到一个广告代码。这个广告代码是一段HTML代码,您需要将它复制并粘贴到您想要展示广告的网页中。这个广告代码会在审核期间显示一些空白或测试广告,并不会产生任何收入。这个步骤是为了让Google检查您的网站是否符合AdSense政策,并且是否可以正常显示广告。请注意,放置广告代码并不意味着您已经被批准了AdSense账户,您仍然需要等待审核结果。
  5. 等待审核结果。当您放置了广告代码后,Google会开始审核您的网站和申请信息。这个过程可能需要几天到几周不等,取决于您的网站类型和地区。在这期间,请不要移除或修改广告代码,并且保持对您网站内容和流量的质量控制。当审核完成后,您会收到一封邮件通知您审核结果。如果您被批准了,您就可以开始在您的网站上展示Google的广告,并且赚取收入了。如果您被拒绝了,您会收到一封邮件告诉您拒绝的原因,并且给您一些改进的建议。您可以根据这些建议修改您的网站,并且在14天后重新申请。

申请成了adsense,要考虑怎样变现,下面有一个全自动做个人站长的教程,爬虫爬取文章,google翻译和自动发表到wordpress。
参考教程

作者 east
python, 程序员网赚 9月 3,2023

python开源爬虫精选

WeChatUrlCrawler是一个专门爬取公众号文章url的爬虫,将爬到的url保存在文件或者数据库中 下载地址

25个爬虫示例程序

还有模拟登陆程序,模拟登陆基于selenium,有些模拟登录基于js逆向。GitHub13K+的点赞,所有程序都是使用 Python3 编写的。

Kr1s77/awesome-python-login-model: 😮python模拟登陆一些大型网站,还有一些简单的爬虫,希望对你们有所帮助❤️,如果喜欢记得给个star哦🌟 (github.com)

Python爬虫爬取百度贴吧帖子

1、获取帖子标题、总页数、评论、图片

2、图片写入文件并保存

3、将各种信息实现打印(也算测试追踪)

4、输入帖子号便能实现以上操作(即亦适用于其它帖子)

you-get

you-get是GitHub上的一个非常火爆的爬虫项目,作者提供了近80个国内外网站的视频图片的抓取,收获了40900个赞!

对于you-get的安装,可以通过pip install you-get的命令进行安装。

Python爬虫模拟登录淘宝并获取所有订单

1. python模拟登录淘宝网页

2. 获取登录用户的所有订单详情

3. 学会应对出现验证码的情况

4. 体会一下复杂的模拟登录机制

Python爬虫抓取淘宝MM照片

1.抓取淘宝MM的姓名,头像,年龄

2.抓取每一个MM的资料简介以及写真图片

3.把每一个MM的写真图片按照文件夹保存到本地

4.熟悉文件保存的过程

Python爬取百度图片及py文件转换exe

Python爬取下载百度图片,并将py文件转换为exe文件。

Python爬虫聊聊淘宝上的飞机杯

爬取淘宝上关键词为“飞机杯”的商品数据,和销量前十的所有评论。

Python爬虫实战:爬取今日头条美女图片

爬取头条街拍,看头条一道道靓丽的风景线。

Python爬虫之九派新闻

python动态爬取九派新闻网站

python爬虫8.7万条豆瓣电影数据分析

1、获取豆瓣电影信息

2、豆瓣电影简要分析

Python爬取链家北京二手房数据

本次分享分为两部分,第一部分介绍如何使用scrapy抓取二手房数据,第二部分我将抓下来的数据进行了一些简单的分析和可视化。

Python实战Scrapy豌豆荚应用市场爬虫

对于给定的大量APP,如何爬取与之对应的(应用市场)分类、描述的信息

爬取了中文网站,可以用google翻译成英文,加adsense广告,发布到wordpress做英文网站。

同理,爬取了英文网站, 可以用google翻译成中文,加adsense广告,发布到wordpress做中文网站。 参考教程

作者 east
程序员网赚 9月 2,2023

本站福利!各类精选资源免费赠送

关注公众号“康波之道”或扫最下方二维码

回复“小程序”获取1000个小程序打包源码。

回复”chatgpt”获取免注册可用chatgpt。

回复“大数据”获取多本大数据电子书。

回复 “笑话” 搞笑段子剧本大全抖音快手情侣11000条。

回复 “ppt” 获取高端上气的各类ppt模板几千个。

回复 ”简历“获取各行各业上千套简历

回复 ”word“获取 2500套企业常用word模板

关注微信公众号“康波之道”或扫下面的二维码

此图像的alt属性为空;文件名为1693658233277.png

本文素材来源于网友提供,如果有侵权请留言删除。

作者 east

上一 1 2

关注公众号“大模型全栈程序员”回复“小程序”获取1000个小程序打包源码。回复”chatgpt”获取免注册可用chatgpt。回复“大数据”获取多本大数据电子书

标签

AIGC AI创作 bert chatgpt github GPT-3 gpt3 GTP-3 hive mysql O2O tensorflow UI控件 不含后台 交流 共享经济 出行 图像 地图定位 外卖 多媒体 娱乐 小程序 布局 带后台完整项目 开源项目 搜索 支付 效率 教育 日历 机器学习 深度学习 物流 用户系统 电商 画图 画布(canvas) 社交 签到 联网 读书 资讯 阅读 预订

官方QQ群

小程序开发群:74052405

大数据开发群: 952493060

近期文章

  • 详解Python当中的pip常用命令
  • AUTOSAR如何在多个供应商交付的配置中避免ARXML不兼容?
  • C++thread pool(线程池)设计应关注哪些扩展性问题?
  • 各类MCAL(Microcontroller Abstraction Layer)如何与AUTOSAR工具链解耦?
  • 如何设计AUTOSAR中的“域控制器”以支持未来扩展?
  • C++ 中避免悬挂引用的企业策略有哪些?
  • 嵌入式电机:如何在低速和高负载状态下保持FOC(Field-Oriented Control)算法的电流控制稳定?
  • C++如何在插件式架构中使用反射实现模块隔离?
  • C++如何追踪内存泄漏(valgrind/ASan等)并定位到业务代码?
  • C++大型系统中如何组织头文件和依赖树?

文章归档

  • 2025年6月
  • 2025年5月
  • 2025年4月
  • 2025年3月
  • 2025年2月
  • 2025年1月
  • 2024年12月
  • 2024年11月
  • 2024年10月
  • 2024年9月
  • 2024年8月
  • 2024年7月
  • 2024年6月
  • 2024年5月
  • 2024年4月
  • 2024年3月
  • 2023年11月
  • 2023年10月
  • 2023年9月
  • 2023年8月
  • 2023年7月
  • 2023年6月
  • 2023年5月
  • 2023年4月
  • 2023年3月
  • 2023年1月
  • 2022年11月
  • 2022年10月
  • 2022年9月
  • 2022年8月
  • 2022年7月
  • 2022年6月
  • 2022年5月
  • 2022年4月
  • 2022年3月
  • 2022年2月
  • 2022年1月
  • 2021年12月
  • 2021年11月
  • 2021年9月
  • 2021年8月
  • 2021年7月
  • 2021年6月
  • 2021年5月
  • 2021年4月
  • 2021年3月
  • 2021年2月
  • 2021年1月
  • 2020年12月
  • 2020年11月
  • 2020年10月
  • 2020年9月
  • 2020年8月
  • 2020年7月
  • 2020年6月
  • 2020年5月
  • 2020年4月
  • 2020年3月
  • 2020年2月
  • 2020年1月
  • 2019年7月
  • 2019年6月
  • 2019年5月
  • 2019年4月
  • 2019年3月
  • 2019年2月
  • 2019年1月
  • 2018年12月
  • 2018年7月
  • 2018年6月

分类目录

  • Android (73)
  • bug清单 (79)
  • C++ (34)
  • Fuchsia (15)
  • php (4)
  • python (43)
  • sklearn (1)
  • 云计算 (20)
  • 人工智能 (61)
    • chatgpt (21)
      • 提示词 (6)
    • Keras (1)
    • Tensorflow (3)
    • 大模型 (1)
    • 智能体 (4)
    • 深度学习 (14)
  • 储能 (44)
  • 前端 (4)
  • 大数据开发 (488)
    • CDH (6)
    • datax (4)
    • doris (30)
    • Elasticsearch (15)
    • Flink (78)
    • flume (7)
    • Hadoop (19)
    • Hbase (23)
    • Hive (40)
    • Impala (2)
    • Java (71)
    • Kafka (10)
    • neo4j (5)
    • shardingsphere (6)
    • solr (5)
    • Spark (99)
    • spring (11)
    • 数据仓库 (9)
    • 数据挖掘 (7)
    • 海豚调度器 (10)
    • 运维 (34)
      • Docker (3)
  • 小游戏代码 (1)
  • 小程序代码 (139)
    • O2O (16)
    • UI控件 (5)
    • 互联网类 (23)
    • 企业类 (6)
    • 地图定位 (9)
    • 多媒体 (6)
    • 工具类 (25)
    • 电商类 (22)
    • 社交 (7)
    • 行业软件 (7)
    • 资讯读书 (11)
  • 嵌入式 (70)
    • autosar (63)
    • RTOS (1)
    • 总线 (1)
  • 开发博客 (16)
    • Harmony (9)
  • 技术架构 (6)
  • 数据库 (32)
    • mongodb (1)
    • mysql (13)
    • pgsql (2)
    • redis (1)
    • tdengine (4)
  • 未分类 (6)
  • 程序员网赚 (20)
    • 广告联盟 (3)
    • 私域流量 (5)
    • 自媒体 (5)
  • 量化投资 (4)
  • 面试 (14)

功能

  • 登录
  • 文章RSS
  • 评论RSS
  • WordPress.org

All Rights Reserved by Gitweixin.本站收集网友上传代码, 如有侵犯版权,请发邮件联系yiyuyos@gmail.com删除.