gitweixin
  • 首页
  • 小程序代码
    • 资讯读书
    • 工具类
    • O2O
    • 地图定位
    • 社交
    • 行业软件
    • 电商类
    • 互联网类
    • 企业类
    • UI控件
  • 大数据开发
    • Hadoop
    • Spark
    • Hbase
    • Elasticsearch
    • Kafka
    • Flink
    • 数据仓库
    • 数据挖掘
    • flume
    • Kafka
    • Hive
    • shardingsphere
    • solr
  • 开发博客
    • Android
    • php
    • python
    • 运维
    • 技术架构
    • 数据库
  • 程序员网赚
  • bug清单
  • 量化投资
  • 在线查询工具
    • 去行号
    • 在线时间戳转换工具
    • 免费图片批量修改尺寸在线工具
    • SVG转JPG在线工具

生产环境选型考虑:Spark和Tez有什么不同

精品微信小程序开发门户,代码全部亲测可用

  • 首页   /  
  • 作者: east
  • ( 页面52 )
Spark 4月 3,2022

生产环境选型考虑:Spark和Tez有什么不同

让我们开始这场精彩的讨论。首先,退一步;我们已经指出 Apache Spark 和 Hadoop MapReduce 是两种不同的大数据利器。前者是高性能的内存数据处理框架,后者是成熟的PB级批处理平台。我们也知道 Apache Hive 和 HBase 是两个功能相似的非常不同的工具。 Hive 是运行 MapReduce 作业的类似 SQL 的引擎,而 HBase 是 Hadoop 上的 NoSQL 键/值数据库。

在纸面上,它们有很多共同点。两者都具有内存功能,都可以在 Hadoop YARN 之上运行,并且都支持来自任何数据源的所有数据类型。那么两者有什么区别呢?

Tez 非常适合 YARN 架构。 Spark 可能会遇到资源管理问题。

Spark 更适合主流开发人员,而 Tez 是专用工具的框架。

Spark 不能与 YARN 应用程序同时运行(目前)。 Tez 是专门为在 YARN 之上执行而构建的。

Tez 的容器可以在完成后关闭以节省资源。即使不处理数据,Spark 的容器也会占用资源。

这些只是高层次上的一些差异。在这里,我们将探索这些项目中的每一个。

什么是 Apache Spark?

Apache Spark 是一个用于处理大数据的开源分析引擎和集群计算框架。它是非营利性 Apache 软件基金会的创意,该基金会是一个致力于各种开源软件项目的去中心化组织。

它于 2014 年首次发布,基于 Hadoop MapReduce 分布式计算框架构建。它保留了 MapReduce 的许多优点——例如可扩展性和容错性——同时还提高了速度和易用性。

除了核心数据处理引擎,它还包括 SQL、机器学习和流处理库。该框架与 Java、Scala、Python 和 R 编程语言兼容,赢得了开发人员的广泛关注。它还支持第三方技术,如 Amazon S3、Hadoop 的 HDFS、MapR XD 和 NoSQL 数据库,如 Cassandra 和 MongoDB。

它的吸引力在于它能够将不同的流程、技术和技术整合到一个单一的大数据管道中,从而提高生产力和效率。由于其灵活性,它已成为大数据处理领域非常流行和有效的“瑞士军刀”。

什么是 Apache Tez?

Apache Tez 是一个基于 MapReduce 技术的大数据处理开源框架。两者都提供了一个执行引擎,可以使用有向无环图 (DAG) 来处理大量数据。

它通过将计算视为 DAG 来概括 MapReduce 范式。 MapReduce 任务组合成一个作业,该作业被视为 DAG 中的一个节点,执行并发和序列化。

同时,DAG 的边缘表示作业之间的数据移动。 Tez 与数据类型无关,因此它只关心数据的移动(而不是它采用的格式)。

通过改进 MapReduce 的一些限制,Tez 试图提高数据处理作业的性能。这种增加的效率使程序员能够做出他们认为最适合他们的项目的设计和开发选择。

Apache Spark 将自己标榜为“用于大规模数据处理的统一分析引擎”。同时,Apache Tez 称自己为“一个应用程序框架,它允许使用复杂的有向无环图来处理数据的任务”。

因为 Spark 也使用有向无环图,这两个工具听起来是不是很相似?可能是。但也有一些重要的区别需要考虑。以下是两者之间的根本区别:

差异#1:Hive和Pig

差异 #2:Hadoop YARN

差异#3:性能测试

我们将在下面的部分中详细介绍这些差异中的每一个。

他们支持Pig和Hive吗?

Hive 和 Pig 是两个用于大数据的开源 Apache 软件应用程序。 Hive 是一个数据仓库,而 Pig 是一个用于创建在 Hadoop 上运行的数据处理作业的平台。虽然两者都声称支持 Pig 和 Hive,但现实并不那么清楚。我们尝试使用 Spork 项目在 Spark 上运行 Pig,但遇到了一些问题;至少,在 Spark 上使用 Pig 充其量仍是不确定的。

使用YARN

YARN 是 Hadoop 的资源管理器和作业调度器。理论上,Spark 既可以作为独立应用程序执行,也可以在 YARN 之上执行。然而,Tez 是专门为在 YARN 之上执行而构建的。不过,Spark 不能与其他 YARN 应用程序同时运行(至少现在还不能)。

Tez 项目的开发人员之一 Gopal V 写了一篇关于他为什么喜欢 Tez 的详细文章。他的结论是:

“在我使用过的框架之间,这是 Tez 真正的区别特性——Tez 不需要容器保持运行来做任何事情,只需应用程序管理器在不同查询之间的空闲期间运行。您可以保留容器,但这是一种优化,而不是会话空闲期间的要求。”

他所说的“框架”也指 Spark——它的容器需要保持运行并占用资源,即使它们不处理任何数据。但是,Tez 容器可以在完成后立即关闭并释放资源。

大多数情况下,您无论如何都会使用基于 Hadoop 的应用程序,例如 Hive、HBase 甚至经典的 MapReduce。因此,您可以在任何 Hadoop 集群上安装 Spark,但您可能会遇到资源管理问题。另一方面,Tez 可以非常适合您的 YARN 架构,包括资源管理。

Apache Spark 的亮点:图形处理

GraphX 是扩展 Spark RDD 的图计算引擎。术语“图”是指图论中的图,而不是用于商业计算的图。图论中使用的图捕获数据之间的交互和依赖关系。

GraphX 最初是加州大学伯克利分校的一个研究项目。该项目后来被捐赠给了 Apache 软件基金会和 Spark 项目。

GraphX 不同于其他图计算引擎,因为它将图分析和 ETL 统一在一个平台上。 GraphX 还可以分析非图形形式的数据。其内存计算能力使 GraphX 比其他图形处理引擎更快。

图处理的常用场景

社交网络分析 – 用于识别影响者以进行目标营销

欺诈检测 – 银行、信用卡公司和在线商店使用图形分析来识别异常趋势。

供应链优化 – 公司可以使用图表分析来确定其供应链的最佳路线

贷款决策 – 抵押贷款公司和银行使用图表分析来评估申请人的数据以做出贷款决策。

Google 如何使用图形处理

Google 使用一种称为 PageRank 算法的图形分析算法。 PageRank 算法根据重要性对图中的顶点进行排名,其中重要性是指向该顶点的边数。该算法是由 Google 的创始人开发的,因此流行的搜索引擎是 PageRank 的一个典型例子。谷歌根据页面的重要性对页面进行排名,重要性是指向页面的超链接数量。

那么哪个更快?

也许最大的问题是——哪个更快?根据各种基准,这两个选项都显着提高了 MapReduce 性能;但是,获胜者可能取决于谁在进行测量。就独立第三方评估而言,陪审团仍未出局。

Spark 声称运行速度比 MapReduce 快 100 倍。在加州大学伯克利分校的 Amplab 进行的基准测试表明,它的运行速度比它的同类产品快得多(测试将 Spark 称为 Shark,它是 Spark SQL 的前身)。

然而,由于伯克利发明了 Spark,这些测试可能并非完全没有偏见。此外,这些基准测试是几年前使用运行在 MapReduce 上的 Hive 0.12 进行的。从版本 0.13 开始,Hive 使用 Tez 作为其执行引擎,从而显着提高了性能。

与此同时,Hortonworks 对两者之间的问题表现进行了基准测试。他们发现在 Tez 上运行的 Hive 0.13 的运行速度比 Hive 0.12 快 100 倍(尽管相当多的测试查询神秘地消失了)。快了 100 倍……嗯,听起来很熟悉?

因此,它们的性能都比 Hadoop MapReduce 高 100 倍。但哪个最快?

没有人可以说——或者更确切地说,他们不会承认。如果你问为 IBM 工作的人,他们会告诉你答案都不是,而且 IBM Big SQL 比两者都快。我们需要第三方来运行独立的性能测试并一劳永逸地确定分数。

小结:

这个问题最终可能归结为政治和受欢迎程度。这是大数据巨头的冲突,Cloudera 支持 Spark,Hortonworks 支持 Tez。 Spark 更为广泛,因为它可以在各种发行版中使用,而 Tez 仅在 Hortonworks 的发行版中可用。

最终,用户群可能决定框架的命运。目前,至少根据谷歌趋势,Spark 正在赢得这场比赛。

也许在炒作消退之后,在人们获得了更多与两者合作的经验之后,我们最终将能够判断谁将成为 MapReduce 王冠的继承人。

作者 east
大数据开发 4月 3,2022

大数据5种不同数据处理方式

随着商业环境的不断发展,公司越来越依赖于他们的数据。 但是,在您可以利用任何数据为公司谋取利益之前,您必须首先处理您收集的结构化和非结构化数据。

虽然最简单和最著名的数据处理形式是数据可视化,但有几种不同的数据处理方法通常用于与数据交互。

继续阅读以了解有关五种数据处理类型的更多信息,以及它们在可用性、原子性、并发性和其他因素方面的不同之处。

为什么数据处理方法很重要?

您采用的数据处理方法将决定查询的响应时间以及输出的可靠性。因此,需要谨慎选择方法。例如,在可用性至关重要的情况下,例如证券交易所门户,交易处理应该是首选方法。

重要的是要注意数据处理和数据处理系统之间的区别。数据处理是将数据转换为有用信息的规则。数据处理系统是针对特定类型的数据处理进行优化的应用程序。例如,分时系统旨在优化运行分时处理。它也可以用于运行批处理。但是,它不会很好地适应这项工作。

从这个意义上说,当我们谈论为您的需求选择正确的数据处理类型时,我们指的是选择正确的系统。以下是最常见的数据处理类型及其应用。

1. 事务处理

事务处理部署在关键任务情况下。这些情况一旦中断,将对业务运营产生不利影响。例如,如前所述,处理证券交易所交易。在事务处理中,可用性是最重要的因素。可用性可能受以下因素的影响:

硬件:事务处理系统应该有冗余硬件。硬件冗余允许部分故障,因为冗余组件可以自动接管并保持系统运行。

软件:事务处理系统的软件应设计为从故障中快速恢复。通常,事务处理系统使用事务抽象来实现这一点。简而言之,如果发生故障,未提交的事务将被中止。这允许系统快速重启。

2.分布式处理

很多时候,数据集太大而无法放在一台机器上。分布式数据处理分解这些大型数据集并将它们存储在多台机器或服务器上。它依赖于 Hadoop 分布式文件系统 (HDFS)。分布式数据处理系统具有高容错性。如果网络中的一台服务器出现故障,则可以将数据处理任务重新分配给其他可用的服务器。

分布式处理也可以极大地节省成本。企业不再需要建造昂贵的大型计算机并投资于维护和维护。

流处理和批处理是分布式处理的常见示例,下面将讨论这两者。

3.实时处理

实时处理类似于事务处理,因为它用于需要实时输出的情况。但是,两者在处理数据丢失的方式上有所不同。实时处理尽可能快地计算传入数据。如果它在输入数据中遇到错误,它会忽略错误并移动到下一个输入数据块。GPS 跟踪应用程序是实时数据处理的最常见示例。

将此与事务处理进行对比。如果出现错误,例如系统故障,事务处理将中止正在进行的处理并重新初始化。在近似答案就足够的情况下,实时处理优于事务处理。

在数据分析领域,流处理是实时数据处理的常见应用。流处理首先由 Apache Storm 推广,它在数据传入时对其进行分析。想想来自物联网传感器的数据,或实时跟踪消费者活动。 Google BigQuery 和 Snowflake 是采用实时处理的云数据平台的示例。

4.批处理

顾名思义,批处理就是将一段时间内存储的数据块一起或分批分析。当需要分析大量数据以获得详细见解时,需要进行批处理。例如,一个公司在一段时间内的销售数据通常会经过批处理。由于涉及大量数据,系统将需要时间来处理它。通过批量处理数据,可以节省计算资源。

当准确性比速度更重要时,批处理优于实时处理。此外,批处理的效率也以吞吐量来衡量。吞吐量是单位时间内处理的数据量。

5. 多并发处理

多并发处理是一种数据处理方法,其中两个或两个以上的处理器在同一数据集上工作。这听起来可能与分布式处理完全一样,但还是有区别的。在多处理中,不同的处理器驻留在同一系统中。因此,它们存在于相同的地理位置。如果出现组件故障,则会降低系统的速度。

另一方面,分布式处理使用彼此独立并且可以存在于不同地理位置的服务器。由于当今几乎所有系统都具有并行处理数据的能力,因此几乎每个数据处理系统都使用多处理。

但是,在本文的上下文中,可以将多处理视为具有本地数据处理系统。通常,处理非常敏感信息的公司可能会选择本地数据处理而不是分布式处理。例如,从事石油和天然气开采行业的制药公司或企业。

这种数据处理最明显的缺点是成本。构建和维护内部服务器非常昂贵。

作者 east
深度学习 4月 2,2022

Tensorflow:使用 GPU 进行 BERT 微调

训练数据的短缺是自然语言处理面临的最大挑战之一。 因为 NLP 是一个多元化的领域,在多语言数据中具有多种任务。 最特定于任务的数据集仅包含几千个训练数据,这不足以实现更好的准确性。

为了提高现代基于深度学习的 NLP 模型的性能,需要数百万或数十亿的训练数据。 研究人员已经开发出各种方法来使用网络上的大量未注释文本来训练通用语言表示模型。 这称为预训练。

这些预训练模型可用于为广泛的 NLP 任务(例如问答和测试分类)创建最先进的模型。 它被称为微调。 当我们没有足够数量的训练样本时,微调是有效的。

BERT

BERT 代表来自 Transformers 的双向编码器表示。 BERT 是由 Google AI 的研究人员推出的 NLP 框架。 它是一种新的预训练语言表示模型,可在各种自然语言处理 (NLP) 任务上获得最先进的结果。 只需添加单个输出层即可对预训练的 BERT 模型进行微调。 你可以在这里找到 BERT 的学术论文:https://arxiv.org/abs/1810.04805。

在本教程中,您将通过一个示例学习对 BERT 模型进行微调。 可以参考之前的 BERT 教程,里面已经解释了 BERT 模型的架构。

我们将使用 Kaggle 的 Quora Insincere Questions Classification 任务数据进行演示。

In [1]:
# Let's load the required packages
import pandas as pd
import numpy as np
import datetime
import zipfile
import sys
import os

下载预训练的 BERT 模型以及模型权重和配置文件

In [2]: !wget storage.googleapis.com/bert_models/2018_10_18/uncased_L-12_H-768_A-12.zip

提取下载的模型 zip 文件。

In [3]:
repo = 'model_repo'
if not os.path.exists(repo):
    print("Dir created!")
    os.mkdir(repo)
with zipfile.ZipFile("uncased_L-12_H-768_A-12.zip","r") as zip_ref:
    zip_ref.extractall(repo)
In [4]:
BERT_MODEL = 'uncased_L-12_H-768_A-12'
BERT_PRETRAINED_DIR = f'{repo}/uncased_L-12_H-768_A-12'

OUTPUT_DIR = f'{repo}/outputs'
if not os.path.exists(OUTPUT_DIR):
    os.makedirs(OUTPUT_DIR)

print(f'***** Model output directory: {OUTPUT_DIR} *****')
print(f'***** BERT pretrained directory: {BERT_PRETRAINED_DIR} *****') 

Out[4]:
***** Model output directory: model_repo/outputs *****
***** BERT pretrained directory: model_repo/uncased_L-12_H-768_A-12 *****

准备和导入 BERT 模块

以下 BERT 模块是从 GitHub 克隆源代码并导入模块。

In [5]:
# Download the BERT modules
!wget raw.githubusercontent.com/google-research/bert/master/modeling.py 
!wget raw.githubusercontent.com/google-research/bert/master/optimization.py 
!wget raw.githubusercontent.com/google-research/bert/master/run_classifier.py 
!wget raw.githubusercontent.com/google-research/bert/master/tokenization.py
!wget raw.githubusercontent.com/google-research/bert/master/run_classifier_with_tfhub.py
In [6]: # Import BERT modules 
import modeling 
import optimization 
import run_classifier 
import tokenization 
import tensorflow as tf 
import run_classifier_with_tfhub

准备训练数据

在这里,我们将在一小部分训练数据上训练 BERT 模型。

In [7]:
from sklearn.model_selection import train_test_split

train_df =  pd.read_csv('input/train.csv')
train_df = train_df.sample(2000)                 # Train on 2000 data

train, val = train_test_split(train_df, test_size = 0.1, random_state=42)

train_lines, train_labels = train.question_text.values, train.target.values
val_lines, val_labels = val.question_text.values, val.target.values

label_list = ['0', '1']
In [8]:
def create_examples(lines, set_type, labels=None):
    guid = f'{set_type}'
    examples = []
    if guid == 'train':
        for line, label in zip(lines, labels):
            text_a = line
            label = str(label)
            examples.append(
              run_classifier.InputExample(guid=guid, text_a=text_a, text_b=None, label=label))
    else:
        for line in lines:
            text_a = line
            label = '0'
            examples.append(
              run_classifier.InputExample(guid=guid, text_a=text_a, text_b=None, label=label))
    return examples

指定 BERT 预训练模型。

这里使用的是 uncased_L-12_H-768_A-12 型号。 该模型由12层、768个隐藏、12个头、110M个参数组成。 它是一个 Uncased 模型,这意味着文本在标记化之前已被小写。

In [9]:
BERT_MODEL = 'uncased_L-12_H-768_A-12' 
BERT_MODEL_HUB = 'https://tfhub.dev/google/bert_' + BERT_MODEL + '/1'

初始化模型超参数。

In [10]:
TRAIN_BATCH_SIZE = 32
EVAL_BATCH_SIZE = 8
LEARNING_RATE = 2e-5
NUM_TRAIN_EPOCHS = 3.0
WARMUP_PROPORTION = 0.1
MAX_SEQ_LENGTH = 128

# Model Configuration
SAVE_CHECKPOINTS_STEPS = 1000 
ITERATIONS_PER_LOOP = 1000
NUM_TPU_CORES = 8

VOCAB_FILE = os.path.join(BERT_PRETRAINED_DIR, 'vocab.txt')
CONFIG_FILE = os.path.join(BERT_PRETRAINED_DIR, 'bert_config.json')
INIT_CHECKPOINT = os.path.join(BERT_PRETRAINED_DIR, 'bert_model.ckpt')
DO_LOWER_CASE = BERT_MODEL.startswith('uncased')

tpu_cluster_resolver = None   # Model trained on GPU, we won't need a cluster resolver

def get_run_config(output_dir):
    return tf.contrib.tpu.RunConfig(
    cluster=tpu_cluster_resolver,
    model_dir=output_dir,
    save_checkpoints_steps=SAVE_CHECKPOINTS_STEPS,
    tpu_config=tf.contrib.tpu.TPUConfig(
        iterations_per_loop=ITERATIONS_PER_LOOP,
        num_shards=NUM_TPU_CORES,
        per_host_input_for_training=tf.contrib.tpu.InputPipelineConfig.PER_HOST_V2))

加载分词器模块

注意:当您使用 Cased 模型时,传递 do_lower_case = False。

In [11]:
tokenizer = tokenization.FullTokenizer(vocab_file=VOCAB_FILE, do_lower_case=DO_LOWER_CASE)
train_examples = create_examples(train_lines, 'train', labels=train_labels)

# compute number of train and warmup steps from batch size
num_train_steps = int( len(train_examples) / TRAIN_BATCH_SIZE * NUM_TRAIN_EPOCHS)
num_warmup_steps = int(num_train_steps * WARMUP_PROPORTION)

微调来自 TF Hub 的预训练 BERT 模型

本节说明了来自 TensorFlow 集线器模块的微调预训练 BERT 模型。

In [12]:

model_fn = run_classifier_with_tfhub.model_fn_builder(
  num_labels=len(label_list),
  learning_rate=LEARNING_RATE,
  num_train_steps=num_train_steps,
  num_warmup_steps=num_warmup_steps,
  use_tpu=False,
  bert_hub_module_handle=BERT_MODEL_HUB
)

estimator_from_tfhub = tf.contrib.tpu.TPUEstimator(
  use_tpu=False,    #If False training will fall on CPU or GPU
  model_fn=model_fn,
  config=get_run_config(OUTPUT_DIR),
  train_batch_size=TRAIN_BATCH_SIZE,
  eval_batch_size=EVAL_BATCH_SIZE,
)
In [13]:
# Train the model
def model_train(estimator):
    print('Please wait...')
    train_features = run_classifier.convert_examples_to_features(
      train_examples, label_list, MAX_SEQ_LENGTH, tokenizer)
    print('***** Started training at {} *****'.format(datetime.datetime.now()))
    print('  Num examples = {}'.format(len(train_examples)))
    print('  Batch size = {}'.format(TRAIN_BATCH_SIZE))
    tf.logging.info("  Num steps = %d", num_train_steps)
    train_input_fn = run_classifier.input_fn_builder(
      features=train_features,
      seq_length=MAX_SEQ_LENGTH,
      is_training=True,
      drop_remainder=True)
    estimator.train(input_fn=train_input_fn, max_steps=num_train_steps)
    print('***** Finished training at {} *****'.format(datetime.datetime.now()))
In [14]: model_train(estimator_from_tfhub)
In [15]:
# Evaluate the model
def model_eval(estimator):
    
    eval_examples = create_examples(val_lines, 'test')
    
    eval_features = run_classifier.convert_examples_to_features(
        eval_examples, label_list, MAX_SEQ_LENGTH, tokenizer)
        
    print('***** Started evaluation at {} *****'.format(datetime.datetime.now()))
    print('  Num examples = {}'.format(len(eval_examples)))
    print('  Batch size = {}'.format(EVAL_BATCH_SIZE))
    
    eval_steps = int(len(eval_examples) / EVAL_BATCH_SIZE)
    
    eval_input_fn = run_classifier.input_fn_builder(
      features=eval_features,
      seq_length=MAX_SEQ_LENGTH,
      is_training=False,
      drop_remainder=True)
    
    result = estimator.evaluate(input_fn=eval_input_fn, steps=eval_steps)
    
    print('***** Finished evaluation at {} *****'.format(datetime.datetime.now()))
    
    print("***** Eval results *****")
    for key in sorted(result.keys()):
        print('  {} = {}'.format(key, str(result[key])))
In [16]: model_eval(estimator_from_tfhub)

从检查点微调预训练的 BERT 模型

您还可以从保存的检查点加载预训练的 BERT 模型。

In [17]:
CONFIG_FILE = os.path.join(BERT_PRETRAINED_DIR, 'bert_config.json')
INIT_CHECKPOINT = os.path.join(BERT_PRETRAINED_DIR, 'bert_model.ckpt')

OUTPUT_DIR = f'{repo}/outputs_checkpoints'
if not os.path.exists(OUTPUT_DIR):
    os.makedirs(OUTPUT_DIR)

model_fn = run_classifier.model_fn_builder(
    bert_config=modeling.BertConfig.from_json_file(CONFIG_FILE),
    num_labels=len(label_list),
    init_checkpoint=INIT_CHECKPOINT,
    learning_rate=LEARNING_RATE,
    num_train_steps=num_train_steps,
    num_warmup_steps=num_warmup_steps,
    use_tpu=False, #If False training will fall on CPU or GPU, 
    use_one_hot_embeddings=True)

estimator_from_checkpoints = tf.contrib.tpu.TPUEstimator(
    use_tpu=False,
    model_fn=model_fn,
    config=get_run_config(OUTPUT_DIR),
    train_batch_size=TRAIN_BATCH_SIZE,
    eval_batch_size=EVAL_BATCH_SIZE)
In [18]: 
# Train the Model
model_train(estimator_from_checkpoints)
# Evaluate the Model
In [19]: model_eval(estimator_from_checkpoints)
作者 east
深度学习 4月 2,2022

BERT:如何处理长文档

BERT 的问题

BERT,即 Transformers 的双向编码器表示,目前是公众可以使用的最著名的预训练语言模型之一。事实证明,它在包括问答和分类在内的各种任务中非常有用。

但是,BERT 最多只能接受长度为 512 个标记的输入序列。这是一个很大的限制,因为许多常见的文档类型都比 512 个单词长得多。在这一点上,我们将解释和比较一些方法来克服这个限制,并使您更容易使用 BERT 处理更长的输入文档。

为什么 BERT 不能处理长文档?

BERT 继承了转换器的架构,转换器本身使用自注意力、前馈层、残差连接和层规范化作为其基础组件。如果您不熟悉变压器架构,您可以阅读Deep Learning 101: What is a Transformer and Why Should I Care? 在继续读本文之前。

bertarchitecture.png

BERT 和长输入文档的问题源于 BERT 架构的几个领域。

Transformer 本身是自回归的,BERT 的创建者指出,当使用超过 512 个令牌的文档时,性能会显着下降。所以,这个限制是为了防止低质量的输出。
自注意力模型的空间复杂度为 O(n²)。像这样的二次复杂性使得这些模式非常耗费资源进行微调。输入的时间越长,微调模型所需的资源就越多。二次复杂度使大多数用户的成本高得令人望而却步。
鉴于上述两点,BERT 使用基于较短输入序列的位置编码进行了预训练。这意味着该模型不能很好地推广到更长的序列,并且为收益递减而进行微调的费用意味着解决这个问题的方法有限。
但是我的文件很长,那我现在该怎么办?

幸运的是,您可以做一些事情来有效地使用 BERT 处理更长的输入文档。这里有一些经过验证的技术可以尝试。

修整输入序列

这可能是处理 BERT 和长输入文档时最常用的技术。鉴于 BERT 对多达 512 个令牌的文档表现良好,只需将较长的文档拆分为 512 个令牌块即可让您将长文档分段传递。

对于较长的连续文档(例如长新闻文章或研究论文),将完整长度的文档切成 512 个字块不会造成任何问题,因为文档本身组织良好并且专注于单个主题。但是,如果您的文本块不太连续(例如聊天机器人脚本或一系列推文),则中间可能有与核心主题无关的块。

平均段输出的投票

另一种常见的技术是将长文档分成相等长度的重叠段,并使用投票机制进行分类。这将缓解诸如对话记录之类的非连续文档所带来的问题。使用来自较大文档的各个块的投票将合并来自整个事物的信息。

这在实践中的工作方式是将文档分成段,并通过 BERT 运行每个段,以获得分类 logits。然后通过组合投票(每段一个),我们可以得到一个平均值,我们将其作为最终分类。

这里的缺点是你不能在任务上微调 BERT,因为损失是不可微的。即使存在重叠,您也会错过每个段之间的一些共享信息。这可能会产生特定于分析管道架构的下游影响。

结论

对长输入文档使用 BERT 取决于您的具体任务。有一些更新的模型——比如 RoBERTa——是为了解决 BERT 的弱点而创建的。我们将在以后的帖子中更多地讨论这些内容。对于需要来自整个文档的信息的复杂任务,或者您使用的是非连续文档,使用像 RoBERTa 这样的 BERT 变体可能是最佳解决方案。

作者 east
深度学习 3月 31,2022

BERT 模型的深度揭秘

2018 年,Google 提出了一种特殊的语言表示模型,称为“BERT”,代表“来自 Transformers 的双向编码器表示”。 以前的语言表示模型(例如 OpenAI GPT)使用单向方法(从左到右)来编码序列。 然而,这种方法是有限的,因为上下文只能从一个方向学习。

例如,考虑到这句话——“ The man was looking at the cloudy sky. The man witnessed a cloudy state of mind for the whole day 。” 在这里,无论考虑上下文或句子中单词的实际含义,之前的模型都会产生相同的单词“cloudy”嵌入。 而对于 BERT 模型,“多云”一词将根据不同的上下文具有不同的嵌入。

该模型在现实生活中的主要应用之一是提高对谷歌搜索引擎的查询理解。 早些时候,搜索引擎是基于关键字的,无法考虑可以提出相同问题的各种格式。 因此,在搜索引擎中使用 BERT 有助于显着改善查询结果。

BERT Example

需要注意的重要一点是,BERT 不是一种新的架构设计,而是一种新的训练策略。 由于 BERT 使用了论文中提出的 Transformer 的编码器部分——Attention Is All You Need,我们将花一些时间首先了解相同的内容,然后再讨论 BERT 不同阶段的详细工作。

变换器 – 编码器

1.1 简单多头注意力机制:

Transformer 中使用的最重要的概念是“注意”机制。 让我们看看下面的图片:

当我们第一次看到图像时,我们的大部分注意力都被绿色人物——自由女神像所吸引。

同样,当提供上下文(查询)时,我们不应该对每个输入给予同等的重视,而应该更多地关注一些重要的输入。

在这里,如果查询是关于建筑物的,那么我们的注意力就会放在背景上。

因此,我们将输入一个称为 Z 的新项,而不是普通的原始输入 x 到一个层,这将是所有单个输入 xi 的加权和。

在数学上它表示为,

其中 ai 是决定注意力的个体权重。

为了更好地理解注意力的概念,让我们引入以下变量——Q、K、V。Q 代表 Query,这是我们试图查看的上下文,Value 表示给定的输入(像素或文本特征), Key 是 Value 的编码表示。

例如,在上图中,如果:

Query = 绿色

Key=建筑

那么价值将是,

因此,为了形成对输入的注意力,我们需要将查询和键相关联并删除不相关的值。

再次考虑这个例子,

| The man was looking at the cloudy sky 。 (字数 = 8)

由于有 8 个单词,我们将有 8 个查询、8 个键和 8 个值。

Q = 8X512、K^T = 512X8、V = 8X512 和最后 d_k = 512 的维度。512 是作为输入馈送到编码器的固定维度数。

在等式中,Q 和 K 矩阵之间的点积将导致它们之间的相似度同时生成,而不是单独计算每个单词的相似度。 此外,我们在分母中有一个维度数的平方根,以便缩放完整值。 这将有助于确保顺利进行训练。

刚才我们理解的是简单的注意力,现在让我们继续理解
multi-head 注意力是什么意思?

多头注意力是转换器使用的一项功能,它为每个查询生成 h 个注意力,而不是一个注意力。使用 h attention 的主要原因是为特定查询获得 h 个不同的视角。考虑这么多角度将大大提高模型的整体准确性。对于输出,将所有 h 个注意力连接起来,然后输入到点积方程中。

1.2 跳过连接和层规范化:

编码器的另一个主要组成部分是跳过连接和归一化层。

跳过连接基本上是通过跳过中间的一些层将一层连接到另一层的残差块。引入跳跃连接的想法是解决深度神经网络中的退化问题(梯度消失)。跳过连接有助于网络的最佳训练。

层归一化类似于批量归一化,除了在层归一化中,归一化发生在同一层中的特征上。

下图展示了编码器的结构,展示了multi-head 注意力、跳过连接和层归一化的使用。

1.3 前馈网络:

如上图所示,层归一化的输出被馈送到一个全连接层、ReLU 层和另一个全连接层。这些操作分别应用于每个位置,因为每个输出都依赖于与其相关的相应注意力。

通过以上部分,您对编码器中存在的不同模块及其使用有了基本的了解。

在下一节中,让我们继续了解 BERT 的强大功能。

BERT 模型:

使用 BERT 的动机是解决这两个主要挑战:

对所有单词的深刻上下文理解。与转换器不同,它尝试实现双向词嵌入策略。
一个可以服务于多种目的的单一模型,因为从头开始为每个单独的任务进行训练,在计算上既昂贵又耗时。

理解输入:

输入包括分成标记的句子——T1、T2、… Tn。一开始,总是有一个 [CLS] 令牌。如果输入中有多个序列,则它们被 [SEP] 标记分割。输出令牌的数量与输入令牌的数量相同。请看下图以更好地理解。

输入嵌入包括三种——令牌嵌入、段嵌入和位置嵌入。

1、令牌嵌入——为了计算嵌入,输入令牌使用固有词汇表(大小 – 30,000 个令牌)转换为单词片段。 例如,“bullying”这个词将被拆分为“bully”和“ing”。
2、Segment Embeddings——这些嵌入确保了每个标记的序列标记,以确定标记属于哪个序列。 为了做到这一点,嵌入值添加了一个常量偏移量,其值决定了它所属的序列。
3、 位置嵌入——这有助于跟踪令牌的位置。

最终的嵌入将是 Token 嵌入、Segment 嵌入和位置嵌入的总和。

预训练和微调任务:

BERT 模型包括两个阶段——预训练和微调。

在预训练阶段,该模型使用两个 NLP 任务进行训练——(i) 掩蔽语言模型 (MLM) 和 (ii) 下一句预测 (NSP)。使用 Masked LM,解码器生成输入的向量表示,其中包含一些掩码单词。

例如,如果输入句子是——“ my cat is furry ”,那么掩码向量看起来像——“ my cat is  [MASK]”。

在这种策略中,80% 的时间单词会被屏蔽。 10% 的情况下,它会被一个随机词替换——“ my cat is human ”。在剩下的 10% 的时间里,这个词保持不变——“ my cat is furry ”。这种学习方法将使模型变得健壮,因为它将提高预测准确性。需要注意的一点是,模型不会被评估预测整个序列,而只会评估缺失的单词。

第二个 NLP 任务是 Next Sentence Prediction (NSP)。输入将包含两个句子——A 和 B。这个想法是预测第二个句子是否是第一个句子的后续。这样,模型将能够学习两个句子之间的关系。模型有 50% 的时间是连续的句子,其余 50% 的序列是随机设置的。查看下图以获取 NSP 任务的示例。

总而言之,这两个训练任务能够丰富学习序列的上下文信息和语义。

BERT 模型可以针对许多不同的任务进行微调——自然语言推理 (NLI)、问答、情感分析、文本分类等。在微调的同时,我们保持完整的架构相同,除了最后一层将在自定义数据上训练模型。添加一个浅层分类器或解码器可以完成这项工作。

预训练模型:

BERT 论文提出了以下预训练模型:-

BERT-Base, Uncased:12 层,768 隐藏,12 注意力头,110M 参数
BERT-Large, Uncased:24 层,1024 隐藏,16 注意力头,340M 参数

BERT-Base,Cased:12 层,768 隐藏,12 注意力头,110M 参数
BERT-Large,Cased:24 层,1024 隐藏,16 注意力头,340M 参数

代码实现:

现在,让我们使用 BERT 实现一个多标签文本分类模型。

多标签文本分类概述

那么,什么是多标签文本分类?它基本上是将文本分类为它所属的一个或多个类别。例如,考虑电影《神奇女侠》的影评——“在一个痴迷于有缺陷的英雄、不受欢迎的英雄和反英雄的娱乐环境中,戴安娜毫无歉意地是一个真正的英雄”。从这段文字可以预测,这部电影属于“奇幻”、“冒险”和“科幻”的类型。

因此,为了解决多标签分类任务,第一步是创建由清洁文本和单热编码目标向量组成的数据。例如,在上述情况下,目标向量可能看起来像 – [0,0,1,0,1,0,1,0,0…] 其中 1 代表类别 – 幻想、冒险和科幻,而 0代表剩余的缺席类别。第二步是创建词嵌入,最后在这些嵌入上训练模型。

使用 BERT 进行多标签文本分类:

第 1 步:安装:

使用以下命令在 google colab 上安装 simpletransformers 库:

!pip install simpletransformers

Simpletransformers 是一个建立在著名的变形金刚库 – Hugging Face 之上的库。这使得只使用几行代码就可以进行预处理、训练和评估。

第 2 步:加载和预处理数据:

我们将致力于有毒评论分类的 kaggle 挑战,其中文本需要分为六个类别——有毒、严重有毒、淫秽、威胁、侮辱和身份仇恨。数据集可以从这里下载。将下载的文件存储在您当前的工作目录中。我们将使用 train.csv 文件来创建训练和评估数据。

# Import statements

import pandas as pd
from sklearn.model_selection import train_test_split
from simpletransformers.classification import MultiLabelClassificationModel

# ’dir’ would be your current working directory
df = pd.read_csv('dir/train.csv') 
# taking nearly 15,000 samples out of nearly 1,50,000 samples
df= df.sample(frac=0.1) 

# Combining all the tags into a single list
df['labels'] = df[df.columns[2:]].values.tolist() 

# Removing '\n' from the text
df['text'] = df['comment_text'].apply(lambda x: x.replace('\n', ' ')) 

# Creating new dataframe consisting of just text and their labels
new_df = df[['text', 'labels']].copy() 

# Splitting the data into training and testing sets, 80% of data is kept for training and 20% for evaluation
train, eval = train_test_split(new_df, test_size=0.2)

第 3 步:加载预训练的 BERT 模型:

在这里,我们将使用 roberta 模型的预训练“roberta-base”版本。 RoBERTa 代表 Robustly Optimized BERT Pretraining Approach。 由于原始 BERT 模型的以下变化,RoBERTa 提高了性能——更长的训练、使用更多数据以及更长的训练序列、动态掩码模式以及从预训练任务中删除下一句预测目标。

'''
Description of params:
model_type: type of the model from the following {'bert', 'xlnet', 'xlm', 'roberta', 'distilbert'}

model_name: choose from a list of current pretrained models {roberta-base, roberta-large} roberta-base consists of 12-layer, 768-hidden, 12-heads, 125M parameters.
num_labels: number of labels(categories) in target values

args: hyperparameters for training. max_seq_length truncates the input text to 512. 512 because that is the standard size accepted as input by the model.
'''
model = MultiLabelClassificationModel('roberta', 'roberta-base', num_labels=6, args={'train_batch_size':2, 'gradient_accumulation_steps':16, 'learning_rate': 3e-5, 'num_train_epochs': 2, 'max_seq_length': 512})

步骤4:训练模型

# train_model is an inbuilt function which directly trains the data with the specified parameter args. Output_dir is the location for the model weights to be stored in your directory.

model.train_model(train, multi_label=True, output_dir='/dir/Output')

步骤5:评估模型

'''
Description of params: 

result: Label Ranking Average Precision (LRAP) is reported in the form of a dictionary 
model_outputs: Returns model predictions in the form of probabilities for each sample in the evaluation set
wrong_predictions: Returns a list for each incorrect prediction

'''

# eval_model is an inbuilt method which performs evaluation on the eval dataframe
result, model_outputs, wrong_predictions = model.eval_model(eval) 

# Converting probabilistic scores to binary - 0/1 values using 0.5 as threshold
for i in range(len(model_outputs)):
  for j in range(6):
    if model_outputs[i][j]<0.5:
      model_outputs[i][j] = 0
    else:
      model_outputs[i][j] = 1

第 6 步:预测:

test.csv 文件也将从此处下载到数据集中。 它只包含文本,不包含标签。

# Reading the test data for prediction
test_data = pd.read_csv('dir/test.csv')

# Replacing '\n' values in the text
predict_data = test_data.comment_text.apply(lambda x: x.replace('\n', ' '))

# Convert the dataframe to a list as the predict function accepts a list
predict_data = predict_data.tolist()

# Makes predictions for the test data
predictions, outputs = model.predict(predict_data) 

结论:

在本文中,我们深入探讨了 BERT 模型。 我们还对变压器使用的编码器模块有了基本的了解。 BERT 模型由于其双向编码的特性而被证明比其他以前的模型具有优势。 该模型经过预训练,可以针对自然语言推理 (NLI)、情感分析、多类/多标签文本分类等多项任务进行微调。 该模型通过大幅减少针对不同目的的不同模型从头开始训练的需求,无疑提高了多个领域的准确性。

作者 east
深度学习 3月 31,2022

为什么google应用bert模型到搜索及如何SEO

随着新BERT算法的实现,谷歌已经在谷歌搜索中出现的结果进行了另一种重要的排序调整。了解BERT算法更新对搜索结果造成的哪些更改,还有哪些方面没有造成改变, 对于SEO维护搜索中现有的结果至关重要,以及在搜索中建立新的排名。

谷歌不断调整其超级秘密搜索算法。一般来说,这些调整很小,不足导致大量搜索结果突然变化。 但BERT更新并非如此。BERT代表了Google对搜索结果内容策略有了地震般转变,肯定会影响每个公司的内容展示结果和SEO的方法。

随着BERT算法的引入,许多公司将看到搜索结果的突然变化,无论好坏。并考虑到许多公司今天接近内容营销的方式,“更糟糕的”案例可能更有可能。

什么是bert算法?

那么,BERT是什么,为什么现在改变?使用Google的Pandu Nayak,Google Clower和副总裁最近的博客文章的参考,最好回答这个问题,搜索谷歌搜索。来自他的博客文章:“随着我们研究团队的最新进展,在语言理解的科学中 – 通过机器学习使得可以实现重大改进,我们如何理解查询,代表过去五年中最大的飞跃和搜索历史上的最大跳跃之一。“

机器学习,解释模式和语音过程的数学方式和语言语言,正在推进搜索科学。该进步的一个结果是BERT,它代表来自变压器的双向编码器表示。根据Nayak的说法,“[BERT]使任何人能够培养自己的最先进的问题回答系统。”

在这篇文章的剩余部分中,我将更多地挖掘这个主题以及伯特将如何影响您的SEO和内容开发方法。以及这种变化如何改变您的短期和长期可见性和在搜索中的存在。

什么是机器学习?

根据Google的说法,Transformers (the “T” in BERT)是根据句子中的所有其他单词,而不是一个逐个地处理词语的模型。“这意味着BERT机器学习模型现在将通过检查之前和之后的单词来解析查询中的句子或短语的完整上下文。根据Google,这种上下文分析,而不是与主题的特定关键字关联,是了解搜索查询背后的意图的卓越过程。结果是Google的SEO更进一步的方法。

特别是关于以较长的对话为中心的查询,在当今由基于语音的设备驱动的搜索设备中变得越来越常见,如亚马逊的Alexa或Apple的Siri等,机器学习算法将能够更好地了解理解介词用于限定查询的句子的上下文含义和目的。

换句话说,Google搜索现在将能够更清楚地了解查询中一串单词的上下文。这意味着用户可以越来越多地搜索感觉自然,谷歌将能够更准确地理解和响应搜索查询。

在他的博客帖子中,谷歌的Nayak使用这个例子:“2019 Brazil traveler to USA needs a Visa。” Nayak指出,“to”这个词及其与其余查询的关系对于了解查询的含义至关重要。这是关于一个前往美国的巴西旅行而不是其他意思。它对官方旅行证件相关,而非对信用卡的需求有关。

Nayak指出,过去的谷歌算法的过去版本将无法使用“to”这个词来接受查询上下文的重要性。因此,使用旧算法,Google可能实际上可以返回关于前往巴西的美国公民的结果列表,而不是想要的展示方式。通过BERT,Google现在能够掌握这种级别的细节 – 使用“to”单词作为限定符 – 并返回查询的更相关的结果。

凭借其对上下文细微差别的新方法,BERT算法改变了SEO的策略,以及SEO的日常惯例,减少了关键字和关键字基于短语的SEO的权重值。关键词和短语在对竞争SEO排名的战略方向和理解方面仍然重要,因为它涉及高级内容策略和内容营销。但是,在改善排名方面,SEO的关键字分析方法现在具有较少的价值和影响。

了解这一变化的影响对于寻求前进的成功至关重要。这是因为BERT了解句子级别的搜索查询的上下文,包括Word Order和同义词。在BERT之前,谷歌依靠精确的关键字和关键字短语关联,以确定搜索排名和相关性。

BERT如何改变SEO策略?

要重申一个关键点,BERT将实心SEO策略的主要焦点从关注关键字和关键字短语的关注转移到主题的关键词。更广泛地关注关于搜索查询的主题相关性。

以下是您应该开始做的一些事情 – 或者应该停止执行 – 解决BERT算法的变化。

1、停止使用低质量的外包内容开发资源。现在,使用外包内容,写出的内容具有很少的知识或专业知识现在将损害您的SEO排名。这是因为搜索引擎不是基于关键字来排名,BERT现在考虑专业知识,权威和信任作为其核心资格排名因素。

2、制定主题重点的资源清单。正式确定您的主题重点,或将来将在未来。这就是:为什么:中小企业更有可能在会话语言中使用相关的行业行业行业和相关的同义词和短语。 BERT能够拿起这种级别的上下文协会,因为它与主题专业知识和权威有关。结果随着时间的推移将是更高且更有利的排名。

3、内容的质量与数量相比。在以前很长时间,内容营销人员已经不断通过更新内容来改善排名。内容新鲜度仍然重要,但现在,内容深度和质量问题超过发布一致性和更新。

BERT会改变我的搜索排名吗?

希望您现在有更好的掌握,现在BERT算法对SEO的当前状态和未来以及整体搜索排名的影响。下一个问题显然是“BERT改变了我在搜索中看到的结果?”

没有真正的“是”或“不”的方式来回答这个问题。真实的反应是“取决于”。

如果您只使用基于关键字的SEO,随着BERT算法的引入就更变旧的游戏规则。原本排名不错的公司突然大幅度下降。 (您正在监控您的搜索结果相对竞争对手的排名,不是吗?)

我该怎么SEO?

正如我之前提到的那样,这个问题的答案是“这取决于”。无论您的内容开发计划在哪个阶段,它可能会出现完善的速度。幸运的是,谷歌为我们提供了一些关于如何继续的指导。

让我们圈回电子邮件的E-A-T(专业知识,权威,值得信赖性)Litmus测试,以便在这篇文章中提到的内容。 E-A-T参考谷歌认为对网上合格内容的分类非常重要的三个战略内容柱。

“e”代表专业知识。如果您尚未使用中小企业作为您的内容开发的基石,则需要首先开始这样做。例如,在基于技术的公司中,中小企业可以是开发人员,程序员或产品经理。 “但我公司中的这些类型的人不是作家!”你可能会说。或者,“我们的开发人员没有时间编写2000字的博客帖子关于系统工程机器专有代码的重要性。”

请记住,搜索中的新标准并不是您内容的单词的方式,但它对有多权威和相关性。您的中小企业将适合BERT算法,以便完美地符合Google对内容的基线测试。

所以不是要求这些人自己写作,采访他们并记录谈话。如果他们是大多数中小企业,他们可以轻松地在与您的15分钟对话中生成2,000字的会话风格的博客文章。通过这种方法(关于主题的录制对话),您可以获得相关行业的行业术语,细微差别和上下文情绪,这将符合这个新的搜索时代内容。拍摄专家的访谈并转化为博客文章或新闻稿等。

只需这一步,您不仅处理了专业知识因素,而且通过采访贵公司或行业的权威者,您也在变得更有行业权威,以及符合E-A-T 内容策略。

通过在BERT算法的新时代应用E-A-T方法,您将在途中提高搜索排名,并在您网站的流量增加,而不是您思考的时间。

作者 east
Hive 3月 31,2022

Presto vs Hive:综合比较

Presto 和 Hive 之间的 5 个最大区别是:

1、Hive 允许用户插入自定义代码,而 Preso 不允许。
2、Presto 旨在符合 ANSI SQL,而 Hive 使用 HiveQL。
3、Presto 可以处理有限数量的数据,因此在生成大型报告时最好使用 Hive。
4、 Hive 通常可以容忍失败,但 Presto 不能。
5、 Hive 使用 map-reduce 架构并将数据写入磁盘,而 Presto 使用 HDFS 架构而不使用 map-reduce。

Presto 最初是一个 Facebook 项目,让工程师可以针对公司庞大的 (300PB) 数据仓库运行交互式分析查询。 Facebook 发布了 Presto 作为 Apache Software 下的开源工具。 在创建 Presto 之前,Facebook 以类似的方式使用 Hive。 在放弃它转而支持 Presto 之后,Hive 也成为了一个开源的 Apache 工具数据仓库工具。 如今,使用大数据的公司通常对 Presto 和 Hive 有强烈的偏好。 仔细比较表明,这些选项有一些相似之处和不同之处,但都没有管理和转换大数据所需的综合功能。

Presto 与 Hive:ANSI SQL 和 HiveQL
许多数据工程师在第一次尝试 Presto 时注意到的第一件事就是他们可以使用现有的 SQL 知识。 Presto 依靠标准 SQL 来执行查询、检索数据和修改数据库中的数据。只要您了解 SQL,就可以立即开始使用 Presto。许多人认为这是一种优势。

Apache Hive 使用类似于 SQL 的语言,但它有足够的差异,初学者需要重新学习一些查询。 HiveQL 代表 Hive 查询语言,它有一些奇怪的东西可能会让新用户感到困惑。但是,任何熟悉 SQL 的人都应该发现他们可以相对快速地掌握 HiveQL。

Apache 为 HiveQL 维护了一个全面的语言手册,因此您可以在忘记命令时随时查找它们。尽管如此,查找信息会分散注意力并降低效率。

Presto vs Hive:自定义代码
由于 Presto 在标准 SQL 上运行,因此您已经拥有所需的所有命令。一些工程师认为这是一个优势,因为他们可以快速执行数据检索和修改。

然而,无法插入自定义代码可能会给高级大数据用户带来问题。在这种情况下,Hive 提供了优于 Presto 的优势。假设您非常了解该语言,您可以在查询中插入自定义代码。您可能不需要经常这样做,但在需要时它会派上用场。

在花时间在 HiveQL 中编写自定义代码之前,请访问 Hive 插件页面并搜索类似的代码。有人可能已经编写了您的项目所需的代码。如果您找不到您需要的特定代码,您可能会找到一个只需要稍作改动即可执行您的独特命令的插件。

Presto 与 Hive:数据限制
很少有人会否认 Presto 在生成频繁报告时运行良好。不幸的是,Presto 任务可以存储的数据量是最大的。一旦你碰到那堵墙,Presto 的逻辑就会崩溃。如果您生成每小时或每天的报告,您几乎可以肯定依靠 Presto 来完成这项工作。请记住,Facebook 使用 Presto,而且该公司会生成大量数据。不过,你可以达到一个极限。

Hive 似乎没有数据限制,至少不会影响实际场景。这使得 Hive 成为生成每周或每月报告的公司更好的数据查询选项。涉及的数据越多,项目所需的时间就越长。不过,Hive 不会失败。它会一直工作,直到你的命令结束。

Presto vs Hive:HDFS 和将数据写入磁盘
架构在 Presto 和 Hive 之间的差异中起着重要作用。

Hive 和 MapReduce
Hive 使用 MapReduce,这意味着它过滤和排序任务,同时在分布式服务器上管理它们。然而,在 reduce 和 map 阶段之间,Hive 必须将数据写入磁盘。写入磁盘会强制 Hive 在继续执行下一个任务之前等待一小段时间。

MapReduce 在 Hive 中运行良好,因为它可以处理多个服务器上的任务。分配任务会提高速度。尽管如此,数据必须写入磁盘,这会惹恼一些用户。

幸运的是,MapReduce 为 Hive 带来了非凡的灵活性。它可以处理大量的数据格式。 MapReduce 还可以帮助 Hive 即使在遇到数据故障时也能继续工作。它将承认失败并在可能的情况下继续前进。

Presto 和 HDFS
Presto 具有不同的架构,这使得 Give 在某些情况下有用,而在其他情况下则很麻烦。 Presto 支持 Hadoop 分布式文件系统 (HDFS),这是一种非关系源,无需在任务之间将数据写入磁盘。相反,HDFS 架构在整个分布式系统中存储数据。由于它的数据不会被锁定在一个地方,Presto 可以在不停止将数据写入磁盘的情况下运行任务。

显然,HDFS 提供了几个优点。不过,毫不奇怪,您可能会遇到架构方面的挑战。 HDFS 不能像 MapReduce 一样容忍故障。当出现问题时,Presto 往往会迷失方向并关闭。这种情况并不经常发生,但您可能会因失败而损失数小时的工作时间。你可能会发现你可以追溯你的步骤,解决问题,然后从你离开的地方继续。即使使用该解决方案,用户也会浪费宝贵的时间来追踪故障的根源并诊断问题。

Presto vs Hive:结论
许多使用大数据的专业人士更喜欢 Hive 而不是 Presto,因为他们欣赏 Hive 的稳定性和灵活性。当您专业地处理大数据时,您会发现有时您想编写自定义代码以提高项目效率。

仅仅因为有些人更喜欢 Hive,并不一定意味着你应该打折 Presto。按预期使用时效果很好。 Presto 快速处理任务。只是不要要求它一次做太多事情。如果这样做,您将面临失败的风险。

作者 east
私域流量 3月 30,2022

品牌应如何利用TikTok

TikTok风靡全球。凭借其引人入胜的视频、有趣的挑战和娱乐功能,它现在是地球上热门的社交平台。随着越来越多的各个年龄段的人下载该应用程序,品牌和营销人员开始意识到 TikTok 是接触消费者和发展业务的重要工具。

什么是 TikTok?

TikTok 以前称为 Musical.ly,是一款简短的视频共享应用程序,允许用户创建、编辑和共享 15 或 60 秒的视频。 TikTokers 可以制作各种有趣的视频,展示他们对口型、跳舞和执行某些主题标签挑战。除了添加过滤器和特殊效果的选项外,该应用程序还为用户提供了多种声音和歌曲片段供您使用。视频创作者还可以将多个剪辑连接在一起,总录制时间长达 60 秒。然而,在 TikTok 的“为你”部分中,占主导地位的仍然是较短的剪辑,其中 75% 的用户时间都花在了那里。吉米·法伦、贾斯汀·比伯、卡迪·B 和其他许多名人都参与其中,制作了一些真正歇斯底里的片段。

TikTok 的月度新用户同比增长 275%。该应用程序已被下载超过 10 亿次,在全球拥有 8 亿月活跃用户。还应该吸引品牌的是用户平均每天在应用程序上花费 52 分钟。

谁在使用 TikTok?

如果您品牌的目标受众包括 13 到 30 岁之间的任何人,那么 TikTok 就是您需要实施的社交平台。在全球范围内,该应用的大多数月度用户年龄在 16 至 24 岁之间。 Z 世代被称为潮流引领者,他们代表了 60% 的 TikTok 用户。明年,美国将有 7400 万人成为 Z 世代的一部分。尽管 Z 世代代表了很大一部分用户,但年龄人口统计数据继续上升。现在,似乎每个人都在 TikTok!

将 TikTok 纳入您的营销策略

在一个过度饱和的品牌空间中,创造独特、引人入胜并引发参与的内容非常重要。通常,Z 世代对直销广告的反应并不热烈,因此营销传播必须真实且引人入胜。有了 TikTok,没有杂乱的广告意味着品牌有机会提供引人注目的活动。 TikTok 是一个有效的平台,可以在这个年轻、有前途的市场和涌入该平台的千禧一代中吸引新客户并建立社区意识。

品牌可以利用 TikTok 的方式

重要的是要提醒品牌,他们不应该为 Instagram 创建内容,然后将其发布到 TikTok。这不是充分利用社交应用程序的方式。他们应该利用这个平台的力量,创造出能引起 TikTok 观众共鸣的内容。

标签挑战

为 TikTokers 建立知名度和营销的有效方法之一是利用 Hashtag Challenges。品牌要么跳入 TikTok 拥有的挑战,要么创建自己的品牌竞赛,通过标签邀请其他人参与。品牌还可以利用 TikTok 的 Hashtag Challenge Plus 功能,让客户无需离开应用即可购买品牌的产品。平均而言,赞助 Hashtag Challenge 的品牌成本为 100,000 美元以上。

影响者营销

TikTok 创造了一个新的社交影响者群体,他们与品牌合作展示他们的创造力、激情和个性。在相对较短的时间内,这些影响者中的许多人已经建立了数百万的大量追随者。营销人员与这些有影响力的人合作,创造真实的内容,以有趣和有趣的方式突出品牌。目前 TikTok 上的一些顶级影响者包括 Loren Gray、Charli D’Amelio 和 Addison Rae。

广告

与某些社交网站的早期版本不同,TikTok 很容易向广告商张开双臂。该平台提供了一个专门的网站,其中包含案例研究以及大量信息和灵感,供品牌发起广告活动。信息流广告可以在 TikTok 上显示在现有用户视频的底部,也可以作为信息流中的剪辑显示。

品牌收购

品牌收购也可以在 TikTok 上加以利用。利用静止图像、GIF 和视频,赞助内容可以链接到品牌的登录页面或 TikTok Hashtag Challenge。请记住,接管是品类独有的,这意味着每天只有一个品牌可以接管一个品类。接管广告的价格从 20,000 美元到 200,000 美元不等。

品牌过滤器

您可以使用品牌滤镜和镜头有机地吸引观众。只需设计一个封装您的业务的 TikTok 过滤器。您的过滤器应该有趣、轻松、引人入胜且相关。只需在为您的视频选择滤镜时选择一个镜头,即可使用 10 天。

社交商务

TikTok 于 2019 年 11 月开始测试社交商务。此实施允许用户将电子商务网站的链接添加到他们的个人资料中,并提供将观众引导至购物网站的能力。在全球许多市场,TikTok 的社交商务无疑开始对亚马逊等传统电子商务玩家构成挑战。

成功使用 TikTok 的品牌

以下是一些充分利用 TikTok 的创造力发挥优势的品牌的好例子。

Chipotle

毫无疑问,Chipotle 一直在寻找战略性的 TikTok 机会。这家餐厅巨头非常适合创意社交平台。 2019 年,Chipotle 发起了#GuacDance 挑战,鼓励粉丝们展示他们受 Jean 博士的“鳄梨酱之歌”启发的类似鳄梨的舞蹈动作。该活动在六天内产生了 250,000 个视频提交和 4.3 亿个视频启动。它促进了 Chipotle的销售,提供了 800,000 单成交量。此外,他们的#ChipotleLidFlip 活动产生了惊人的 1.04 亿次视频观看。

E.L.F.化妆品

部分原因是它们的低价位,e.l.f.是 Z 世代受欢迎的化妆品品牌之一。2019 年,e.l.f.举办了一个名为#eyeslipsface 的赞助主题标签挑战赛。在这里,人们提交了自己跳舞、噘嘴、眨眼和对口型的剪辑,以配合适时的节拍和声音提示。这一挑战在短短一周内就产生了 16 亿(是的,10 亿)次观看。现在这些是严重的 TikTok 数字!

GUESS

GUESS 通过其成功的#InMyDenim 活动发起了第一个 TikTok 时尚收购活动,该活动要求人们以创造性的有趣方式炫耀他们的牛仔裤。 GUESS 利用影响者发起挑战,包括@ourfire、@madison_willow 等。从 2019 年开始,使用 #InMyDenim 标签的视频的观看次数和数量都达到了 3700 万次。

NBA

为庆祝 2019 年全明星周末,NBA 发起了一项名为#AllStarTalent 的挑战,鼓励球迷展示他们广泛的运动技能。该活动旨在让年轻球迷对观看所有令人难以置信的全明星赛事感到兴奋。并且曾经这样做过!该挑战在周末获得了超过 4200 万的观看次数,推动了该品牌的两倍有机增长。在短短六周内,该标签的视频浏览量就超过了 1.06 亿次。

TikTok引领新时代

在过去的几个月里,TikTok 的人气直线上升!然而,目前只有 4% 的美国社交营销人员正在利用 TikTok 的力量。 Z 世代将已经成为影响力大的一代!这个市场正在寻找真实、有趣和有趣的内容。利用真正了解您的受众心态的社交平台是一项宝贵的资产。 TikTok 让您的品牌以全新且令人兴奋的方式与您的受众建立联系。现在是将 TikTok 纳入您的营销策略的良好时机。

作者 east
大数据开发 3月 30,2022

怎样成为一名国外数据分析工程师

利用数据可以实现很多事情,从个性化营销活动到为自动驾驶汽车提供动力。 数据科学家负责分析数据并将其用于各种目的。 但是,他们需要高质量的数据来完成复杂的任务,例如预测业务趋势。 这就是数据工程师的用武之地。数据工程是收集和验证信息(数据)以便数据科学家可以使用它的科学。

数据工程师平均每年可以赚取 117,000 美元。 有时,他们甚至可以赚取高达 160,000 美元的年收入。 根据 Dice 的说法,企业比以往任何时候都更渴望聘请数据工程师。 2019 年,数据工程是最热门的科技工作,空缺职位数量同比增长 50%。

凭借出色的薪酬水平和高需求,数据工程可以成为一个有利可图的职业选择。

数据工程:职责是什么?

数据工程师设置和维护支持业务信息系统和应用程序的数据基础设施。他们可能会使用小型的东西,例如夫妻企业的关系数据库,或者大型的东西,例如财富 500 强公司的 PB 级数据湖。

作为其职责的一部分,数据工程师设计、构建和安装数据系统。这些系统为机器学习和人工智能分析提供了动力。他们还为大量数据任务开发信息流程。其中包括数据采集、数据转换和数据建模等。

无论是单人秀还是更大的团队,数据工程领域包括以下岗位:

数据架构师:数据架构师为整个组织或其特定部分设计数据管理系统。他们的工作使数据系统能够摄取、集成和管理业务洞察和报告所需的所有数据源。数据架构师的工作可能需要深入了解 SQL、NoSQL 和 XML 以及其他系统和工具。

数据库管理员:数据库管理员帮助设计和维护数据库系统。它们确保数据库系统为组织中的所有用户无缝运行。数据库管理员优化数据库以提高速度。他们还确保更新不会干扰工作流程,并且敏感信息是安全的。

数据工程师:数据工程师了解数据科学中使用的几种编程语言。其中包括 Java、Python 和 R 之类的。他们了解 SQL 和 NoSQL 数据库系统的来龙去脉。他们还了解如何使用分布式系统,例如 Hadoop。拥有如此广泛的知识使他们能够与数据架构师、数据库管理员和数据科学家合作。事实上,有时,他们可以自己扮演所有这些角色。从本质上讲,数据工程师负责为组织构建强大的集成数据基础架构。

数据科学家与数据工程师:有什么区别?

数据科学家使用统计建模和其他工具来分析数据。数据工程师专注于构建所需的基础架构,以生成和准备用于分析的数据

数据科学家与关键决策者密切合作,制定数据战略。数据工程师与数据科学家密切合作,为他们提供高质量的数据

数据科学家负责产生洞察力。数据工程师负责构建和维护向数据科学家提供数据的管道

数据科学家

数据科学家在现代企业中承担着许多职责。例如,帮助 Facebook 向您展示有针对性的广告、教机器人车辆自动驾驶以及帮助 Netflix 推荐完美的电影。他们的工作为公司带来了巨大的竞争优势。例如,由于通过数据分析更好地保留了客户,Netflix 每年可节省 10 亿美元。

数据科学家专注于统计建模和机器学习技术。他们开发图形显示、仪表板和其他方法来与组织中的决策者共享重要的商业智能。然而,每个数据科学家都需要访问高质量的数据,因此需要数据工程师。

数据工程师

数据工程师创建数据管道,将数据从一个系统连接到另一个系统。他们还负责将数据从一种格式转换为另一种格式,以便数据科学家可以从不同系统中提取数据进行分析。尽管数据工程师不像数据科学家那样引人注目,但在数据分析方面,他们同样重要(如果不是更重要的话)。

作为一个简单的类比,如果数据科学家是列车长,那么数据工程师就是将列车从 A 点送到 B 点的铁路网络的建设者。

现在,假设列车长想在没有铁路线的地方运送有效载荷。售票员需要铁路网络建设者将火车连接到新目的地。铁路建设者的建筑师将研究地形。他们将决定是否最好绕过、翻越或隧道穿过途中的任何山脉。他们可能会在河流上建造桥梁。他们将使用所有可用的工具来建造一条将火车连接到新目的地的铁路线。

简而言之,数据科学家通过编写查询与数据进行交互。他们负责为洞察力创建仪表板并制定机器学习策略。他们还直接与决策者合作,了解他们的信息需求并制定满足这些需求的策略。数据工程师构建和维护连接组织数据生态系统的数据基础设施。这些基础设施使数据科学家的工作成为可能。

数据工程师应该具备哪些技能?

1) 数据科学中使用的编程语言

数据工程师至少需要以下编程语言的专业知识:

SQL:设置、查询和管理数据库系统。 SQL 本身并不是一种“数据工程”语言,但数据工程师需要经常使用 SQL 数据库。

Python:创建数据管道、编写 ETL 脚本、建立统计模型和执行分析。与 R 一样,它是数据科学和数据工程的重要语言。这对于 ETL、数据分析和机器学习应用程序尤其重要。

R:分析数据,建立统计模型、仪表板和可视化展示。与 Python 一样,它是数据科学和数据工程的重要语言。它对于数据分析和机器学习应用程序特别有用。

这些脚本语言的知识使数据工程师能够排除故障并改进数据库系统。它还允许他们优化他们正在使用的业务洞察工具和机器学习系统。数据工程师也可以从熟悉 Java、NoSQL、Julia、Scala、MATLAB 和 TensorFlow 中受益。

2)关系和非关系数据库系统

数据工程师需要知道如何使用各种数据平台。 MySQL、PostgreSQL(混合 SQL 和 NoSQL 数据库)和 Microsoft SQL Server 等基于 SQL 的关系数据库系统 (RDBMS) 尤为重要。例如,他们应该对使用 SQL 构建和设置数据库系统感到自在。数据工程师还应该培养使用 NoSQL 数据库(如 MongoDB、Cassandra、Couchbase 等)的技能。

3) ETL 解决方案

数据工程师应该习惯于使用 ETL(提取、转换、加载)系统。 ETL 工具有助于提取、转换和加载数据到数据仓库。他们还应该了解如何使用 ETL 解决方案来协助将数据从一个存储系统或应用程序转换和迁移到另一个存储系统或应用程序。

4) 数据仓库

从各种业务系统中提取信息后,数据工程师可能需要准备信息以将其与数据仓库系统集成。如果他们想查询数据以获得深入的见解,数据集成至关重要。这可能涉及使用 Integrate.io 等 ETL 工具转换数据。

基于云的数据仓库构成了最先进的商业智能数据系统的支柱。数据工程师应该了解如何建立基于云的数据仓库。他们应该擅长将各种数据类型连接到它,并优化这些连接以提高速度和效率。

5) 数据湖

数据仓库只能处理结构化信息,例如关系数据库中的信息。关系数据库系统将数据存储在明确标识的列和行中。同时,数据湖可以处理任何类型的数据。这包括非结构化信息,例如流数据。 BI 解决方案可以连接到数据湖以获取有价值的见解。出于这个原因,许多公司正在将数据湖整合到他们的信息基础设施中。

要将机器学习算法应用于非结构化数据,了解如何集成数据并将其连接到商业智能平台非常重要。

6) 连接器

数据工程师开发连接各种信息系统的基本数据路径。因此,数据工程师应该对数据管道有很好的了解。他们应该知道如何帮助信息网络的不同部分相互通信。例如,他们应该能够使用 REST、SOAP、FTP、HTTP 和 ODBC,并了解尽可能高效地将一个信息系统或应用程序连接到另一个信息系统或应用程序的策略。

7) 数据摄取

数据摄取是指从不同来源提取数据。在提取过程中,数据工程师需要密切关注适用于情况的格式和协议——同时快速无缝地提取数据。

8) 配置商业智能系统

存储数据后,数据科学家建立信息源之间的重要联系。这些来源可以是数据仓库、数据集市、数据湖和应用程序。建立数据源之间的联系可能涉及将公司的数据暴露给用于商业智能的高级机器学习算法。数据工程师必须了解此过程如何为数据科学家的工作提供支持。

9) 构建仪表板以显示洞察和分析

许多商业智能和机器学习平台允许用户开发漂亮的交互式仪表板。这些仪表板展示了查询、人工智能预测等的结果。创建仪表板通常是数据科学家的责任。但是,数据工程师可以在此过程中协助数据科学家。许多 BI 平台和 RDBMS 解决方案允许用户通过拖放界面创建仪表板。不过,SQL、R 和 Python 的知识可以派上用场。它允许数据工程师协助数据科学家设置满足其需求的仪表板。

10) 机器学习

机器学习主要是数据科学家的领域。然而,由于数据工程师是构建支持机器学习系统的数据基础设施的人,因此他们对统计和数据建模感到满意是很重要的。此外,并非所有组织都会有数据科学家。因此,了解如何设置 BI 仪表板、部署机器学习算法以及独立提取深刻见解是很好的。

11) UNIX、Solaris 和 Linux 系统

未来的机器学习系统很可能是基于 UNIX 的。这是由于对硬件 root 访问的要求以及对 Windows 和 Mac OS 不提供的附加功能的需求。因此,如果数据工程师还没有这样做的话,他们现在会想要熟悉这些操作系统。

我如何学习成为一名数据工程师?

成为一名数据工程师没有明确的道路。尽管大多数数据工程师通过在工作中发展他们的技能来学习,但您可以通过自学、大学教育和基于项目的学习获得许多所需的技能。

无论您是在大学学习还是自己学习成为一名数据工程师,都有很多方法可以实现您的目标。

让我们来看看人们培养数据工程技能的四种方式:

1) 大学学位

成为数据工程师不需要大学教育。不过,获得正确的学位会有所帮助。对于数据工程师来说,工程、计算机科学、物理学或应用数学的学士学位就足够了。但是,您可能想攻读计算机工程或计算机科学的硕士学位。它将帮助您与其他求职者竞争——即使您之前没有数据工程师的工作经验。

2) 免费且廉价的在线课程

一些最好的数据工程师是通过免费且廉价的在线学习计划自学的。信不信由你,您可以通过在 YouTube 上观看视频来了解您需要了解的大部分内容。本文重点介绍了几个优秀的 YouTube 视频,这些视频有助于为成为数据工程师奠定基础。

以下是一些学习数据工程基础知识的免费在线课程:

数据工程初学者指南(第 1 部分)、(第 2 部分)、(第 3 部分):Medium 上的这些文章将帮助您了解数据工程和数据科学的基础知识。它们还将帮助您了解数据建模、数据分区以及提取、转换和加载 (ETL) 数据的策略。如果您想比我们在本文中的时间更深入,那么本指南是最好的起点。

Udacity 的数据工程纳米学位:Udacity 是一家围绕数学和技术提供高质量、免费的在线教育的公司。他们有一整条专门用于教授数据工程的课程。

随着您对学习的深入了解,您将需要掌握各种编码语言、操作系统和信息系统。以下是学习以下技能的免费资源列表:

如何使用 Linux,CS40​​1

如何使用 Python、SQL 和 NoSQL 进行编码

如何使用 Hadoop、MapReduce、Apache Spark 和机器学习

3) 基于项目的学习

找到完成在线数据工程课程的动机可能很困难。许多想成为数据科学家的人还没来得及干就辞职了。如果您遇到这种情况,请考虑基于项目的学习方法。

选择一个你觉得有趣的项目。学习完成项目所需的技能。基于项目的学习可以成为学习数据工程的更有趣和实用的方式。

要为基于项目的学习方法添加更多动力,请考虑写下您的工作和研究。打开一个 Medium 帐户并花一些时间创建一些关于数据工程主题的“操作指南”文章。您还可以将您的个人项目发布到 Github,并为 Github 上的开放项目做出贡献。这些行动 这样做将提高您对潜在雇主的数据工程街头信誉。

4) 专业认证

有许多数据科学和数据工程的专业认证课程。以下是数据工程中最受欢迎的证书课程列表:

供应商特定认证:Oracle、Microsoft、IBM、Cloudera 和许多其他数据科学技术公司为其产品提供有价值的认证培训。

认证数据管理专业人员 (CDMP):国际数据管理协会 (DAMA) 开发了 CDMP 计划作为一般数据库专业人员的证书。

Cloudera Certified Professional (CCP) 数据工程师:Cloudera CCP 称号是针对专业数据工程师的认证。它涵盖了数据转换、暂存和存储信息、数据摄取等主题。

谷歌云认证专业数据工程师:申请人成功通过两个小时的考试后,即可获得谷歌云数据工程师认证。

但是,这些课程可能没有您想象的那么有价值。数据工程是你边做边学的东西。雇用数据工程师的公司知道这一点。

如果您的雇主赞助您获得其中一项认证,那就太好了。但是,如果您是自学,请记住,边做边学比证书更有价值。

作者 east
php 3月 29,2022

使用PHP和Ajax进行交互

在PHP开发时,经常需要和前端进行交互。为了更好的用户体验,在不少场景需要和Ajax进行交互。

Ajax是一种在无须重新加载整个网页的情况下能够更新部分网页的技术。Ajax通过在后台与服务器进行少量数据交换可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下对网页的某部分进行更新。现代浏览器都内置了可以创建Ajax的对象。

XMLHttpRequest(Internet Explorer(IE 5和IE 6)使用ActiveX对象),这样使得我们可以很方便地创建一个Ajax对象,通过浏览器发起请求来与服务端交互。你可以使用new XMLHttpRequest()创建一个对象,如果是老版本的InternetExplorer(IE 5和IE 6),使用ActiveX对象(new ActiveXObject)即可。

可以使用new XMLHttpRequest()创建一个对象,如果是老版本的Internet Explorer(IE 5和IE 6),使用ActiveX对象(new ActiveXObject)即可。

创建完毕,可使用XMLHttpRequest对象的open()和send()方法向服务器发送请求。示例如下:

open()函数的标准语法是open(method, url, async),其规定了请求的类型method(GET或POST方法)、URL和是否异步处理(true异步,false同步)。send()包含一个参数,仅用于使用POST方法向服务端发送数据。使用POST可向服务器发送较大量的数据,并且POST方式比GET更稳定可靠,但GET方式比POST简单快捷。开发者可根据使用场景选择请求类型。Ajax指的是异步JavaScript和XML(Asynchronous JavaScriptand XML)。

XMLHttpRequest对象如果要用于Ajax,那么其open()方法的async参数就必须设置为true。对于Web开发人员来说,发送异步请求是一个巨大的进步。很多在服务器执行的任务都相当费时。Ajax出现之前,这可能会引起应用程序挂起或停止。通过Ajax、JavaScript无须等待服务器的响应,而是等待服务器响应时执行其他脚本,当响应就绪后对响应再进行处理。当使用async=true后,可以规定在响应结束后执行onreadystatechange事件中的函数。responseText存储从服务端取到的数据,如下面的例子所示:

<! DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<script>
function loadXMLDoc()
{
	var xmlhttp;
	if(window.XMLHttpRequest)
	{
		//IE 7+、Firefox、Chrome、Opera,Safari浏览器执行代码
		xmlhttp = new XMLHttpRequest();
	}
	else
	{
		//IE 6、IE 5浏览器执行代码
		xmlhttp = new ActiveXObject("Microsoft.XMLHTTP");
	}
	xmlhttp.onreadystatechange=function()
	{
		if(xmlhttp.readyState == 4 && xml.status == 200)
		{
			document.getElementById("myDiv").innerHTML = xmlhttp.responseText;
		}
	}
	xmlhttp.open("GET","hello.txt",true);
	xmlhttp.send();
}
</script>
</head>
<body>
<div id="myDiv"><h2>使用AJAX修改该文本内容</h2></div>
<button type="button" onclick="loadXMLDoc()">修改内容</button>
</body>
</html>

当单击按钮修改内容时便会通过Ajax发起请求取到hello.txt里的内容在页面显示。当请求被发送到服务器时,我们需要执行一些基于响应的任务。每当readyState改变时就会触发onreadystatechange事件,用户可自定义这个事件的回调函数。readyState存有XMLHttpRequest从0到4发生变化的状态。0表示请求未初始化,1表示服务器连接已经建立,2表示请求已经接收,3代表请求正在处理中,4表示请求已完成。status表示响应完成(readState为4)时此次响应的结果状态,200表示请求成功,404表示请求失败。


Ajax与服务端交互 :

在实际项目中使用Ajax与服务端交互,首先要约定传输数据使用的格式和规范,其中JSON数据格式是使用最为广泛的传输类型。一般的传输数据规范至少包含3个字段,即消息状态码(一般设置字段为status或code)、提示信息(msg)、消息体(data),当然字段的含义可由开发者根据需要自行设定。

<! DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<script>
function loadXMLDoc()
{
	var xmlhttp;
	if(window.XMLHttpRequest)
	{
		//IE 7+、Firefox、Chrome、Opera,Safari浏览器执行代码
		xmlhttp = new XMLHttpRequest();
	}
	else
	{
		//IE 6、IE 5浏览器执行代码
		xmlhttp = new ActiveXObject("Microsoft.XMLHTTP");
	}
	xmlhttp.onreadystatechange=function()
	{
		if(xmlhttp.readyState == 4 )
		{
		  var data = eval('('+xmlhttp.responseText + ')');		
		}
		if(xmlhttp.status==200)
		{
			if(data.status == 0)
			{
				document.getElementById("name").value = data['data'].name;
				document.getElementById("age").value = data['data'].age;
				document.getElementById("company").value = data['data'].agecompany;
			}else{
			 alert(data.msg);
			}
		 }else if(xmlhttp.status==404){
		    alert('服务器上未找到该文件');
		 }
		}
	}
	xmlhttp.open("GET","hello.php",true);
	xmlhttp.send();
}
</script>
</head>
<body>
姓名:<input id='name'><br/>
年龄: <input id='age'><br/>
公司: <input id='company'><br/>
<button type="button" onclick="loadXMLDoc()">查询</button>
</body>
</html>

执行上面的程序将会向info.php发起请求。info.php里的代码如下:

<?php
$success = array('statuss'=>0,'msg'=>'success','data'=>array('name=>'chenxiaolong',
'age'=>'22','company'=>'360 company'));

echo json_encode($success);

?>
作者 east
深度学习 3月 29,2022

什么是Google BERT如何对它进行优化

听说过 Google 的新更新 BERT?如果您对搜索引擎优化 (SEO) 很感兴趣,您可能会拥有。在 SEO 世界中对 Google BERT 的炒作是有道理的,因为 BERT 使搜索更多地关注单词背后的语义或含义,而不是单词本身。

换句话说,搜索意图比以往任何时候都更加重要。谷歌最近更新的 BERT 影响了 SEO 世界,影响了十分之一的搜索查询,谷歌预计随着时间的推移,这将随着更多的语言和地区而增加。由于 BERT 将对搜索产生巨大影响,因此拥有高质量的内容比以往任何时候都更加重要。

为了使您的内容能够为 BERT(和搜索意图)发挥最佳效果,在本文中,我们将介绍 BERT 如何与搜索一起工作,以及如何使用 BERT 为您的网站带来更多流量。想与 SEO 专家交谈?与 WebFX 连接!

什么是 BERT?
BERT 代表来自 Transformers 的双向编码器表示。现在,这是一个包含一些非常技术性的机器学习术语的术语!

这是什么意思:

双向:BERT 同时对两个方向的句子进行编码
编码器表示:BERT 将句子翻译成它可以理解的词义表示
Transformers:允许 BERT 使用相对位置对句子中的每个单词进行编码,因为上下文在很大程度上取决于单词顺序(这是一种比准确记住句子如何输入框架更有效的方法)
如果你要改写它,你可以说 BERT 使用转换器来编码目标单词两侧的单词表示。从根本上说,BERT 是一个全新的、从未实现过的、最先进的自然语言处理 (NLP) 算法框架。这种类型的结构为谷歌的人工智能增加了一层机器学习,旨在更好地理解人类语言。

换句话说,通过这次新的更新,谷歌的人工智能算法可以以比以往更高水平的人类语境理解和常识来阅读句子和查询。虽然它对语言的理解程度不如人类,但它仍然是 NLP 在机器语言理解方面向前迈出的一大步。

BERT 不是什么
Google BERT 不会像之前的算法更新(如 Penguin 或 Panda)那样改变网页的判断方式。它不会将页面评为正面或负面。相反,它改进了对话式搜索查询中的搜索结果,因此结果更好地匹配其背后的意图。

BERT 历史
BERT 的存在时间比几个月前推出的 BIG 更新要长。自 2018 年 10 月发表研究论文 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 以来,自然学习处理 (NLP) 和机器学习 (ML) 社区一直在讨论它。不久之后,Google 发布了一个突破性的开源 NLP 框架,该框架基于 NLP 社区可以用来研究 NLP 并将其整合到他们的项目中的论文。

从那以后,出现了几个基于或合并了 BERT 的新 NLP 框架,包括谷歌和丰田的组合 ALBERT、Facebook 的 RoBERTa、微软的 MT-DNN 和 IBM 的 BERT-mtl。 BERT 在 NLP 社区引起的波澜占互联网上的大部分提及,但 BERT 在 SEO 世界中的提及正在获得牵引力。这是因为 BERT 专注于长尾查询中的语言以及像人类一样阅读网站,以便为搜索查询提供更好的结果。

BERT 是如何工作的?
Google BERT 是一个非常复杂的框架,理解它需要多年研究 NLP 理论和过程。搜索引擎优化世界不需要那么深入,但了解它在做什么以及为什么对于理解它将如何影响搜索结果从现在开始很有用。

因此,以下是 Google BERT 的工作原理:

谷歌 BERT 解释
以下是 BERT 如何从整体上查看句子或搜索查询的上下文:

BERT 接受查询
逐字逐句分解
查看单词之间所有可能的关系
构建一个双向地图,概述两个方向上的单词之间的关系
当单词彼此配对时,分析单词背后的上下文含义。
好的,为了更好地理解这一点,我们将使用以下示例:

每行代表“pandas”的含义如何改变句子中其他单词的含义,反之亦然。 关系是双向的,所以箭头是双向的。 当然,这是 BERT 如何看待上下文的一个非常非常简单的例子。

这个例子只检查我们的目标词“pandas ”和句子中其他有意义的片段之间的关系。 然而,BERT 分析句子中所有单词的上下文关系。 这张图可能更准确一点:

BERT 的类比
BERT 使用 Encoders 和 Decoders 来分析单词之间的关系。想象一下 BERT 如何作为翻译过程发挥作用,提供了一个很好的例子来说明它是如何工作的。您从输入开始,无论您想翻译成另一种语言的任何句子。

假设您想将上面的熊猫句子从英语翻译成韩语。不过,BERT 不懂英语或韩语,所以它使用编码器来翻译“熊猫除了竹子还吃什么?”变成它确实理解的语言。这种语言是它在分析语言的过程中为自己构建的语言(这是编码器表示的来源)。

BERT 根据单词的相对位置和对句子含义的重要性来标记单词。然后它将它们映射到一个抽象向量上,从而创建一种想象的语言。因此,BERT 将我们的英语句子转换为其想象的语言,然后使用解码器将想象的语言转换为韩语。

该过程非常适合翻译,但它也提高了任何基于 BERT 的 NLP 模型正确解析语言歧义的能力,例如:

代词参考
同义词和同音词
或具有多个定义的单词,例如“运行”
BERT 经过预训练
BERT 是经过预训练的,这意味着它有很多学习内容。但是使 BERT 与以前的 NLP 框架不同的一件事是 BERT 是在纯文本上进行预训练的。其他 NLP 框架需要一个由语言学家精心标记句法的单词数据库来理解单词。

语言学家必须将数据库中的每个单词标记为词性。这是一个严格而苛刻的过程,可能会在语言学家之间引发冗长的激烈辩论。词性可能很棘手,尤其是当词性由于句子中的其他单词而发生变化时。

BERT 自己做这件事,而且它是在无人监督的情况下做的,这使它成为世界上第一个这样做的 NLP 框架。它是使用维基百科训练的。那是超过 25 亿字!

BERT 可能并不总是准确的,但它分析的数据库越多,它的准确度就会越高。

BERT 是双向的
BERT 对句子进行双向编码。 简而言之,BERT 在一个句子中取一个目标词,并在任一方向查看围绕它的所有词。 BERT 的深度双向编码器在 NLP 框架中是独一无二的。

早期的 NLP 框架(例如 OpenAI GPT)仅在一个方向上对句子进行编码,在 OpenAI GPT 的情况下是从左到右。 后来的模型(如 ELMo)可以在目标词的左侧和右侧进行训练,但这些模型独立地连接编码。 这会导致目标词的每一侧之间的上下文断开。

另一方面,BERT 识别目标单词两侧所有单词的上下文,并且同时完成所有操作。 这意味着它可以完全看到和理解单词的含义如何影响整个句子的上下文。

单词如何相互关联(意味着它们一起出现的频率)是语言学家所说的搭配。

搭配词是经常一起出现的词——例如,“圣诞节”和“礼物”经常出现在每个词的几个词中。能够识别搭配有助于确定单词的含义。在我们之前的示例图像中,“trunk”可以有多种含义:

  • the main woody stem of a tree
  • the torso of a person or animal
  • a large box for holding travel items
  • the prehensile nose of an elephant
  • the storage compartment of a vehicle.

树的主要木质茎
人或动物的躯干
一个装旅行用品的大盒子
大象的鼻子
车辆的储藏室。
确定这句话中所用单词含义的唯一方法是查看周围的搭配。 “低音炮”通常与“汽车”一起出现,“后备箱”也是如此,因此根据上下文,“车辆储物箱”的定义可能是正确的答案。这正是 BERT 在查看句子时所做的。

它通过使用从预训练中学到的单词搭配来识别句子中每个单词的上下文。如果 BERT 单向阅读句子,则可能会错过识别低音炮和后备箱之间“汽车”的共享搭配。双向和整体查看句子的能力解决了这个问题。

BERT 使用变压器
BERT 的双向编码功能与转换器,这是有道理的。如果您还记得,BERT 中的“T”代表变压器。谷歌认为 BERT 是他们在变压器研究方面取得突破的结果。

谷歌将转换器定义为“处理与句子中所有其他单词相关的单词的模型,而不是按顺序一个接一个地处理。” Transformers 使用 Encoders 和 Decoders 来处理句子中单词之间的关系。 BERT 提取句子的每个单词,并赋予它单词含义的表示。每个单词的含义相互关联的强度由线条的饱和度来表示。

在下图的情况下,在左侧,“它”与“the”和“animal”的联系最紧密,在这种情况下识别“it”指的是什么。在右边,“it”与“street”的联系最为紧密。像这样的代词引用曾经是语言模型难以解决的主要问题之一,但 BERT 可以做到这一点

self attention diagram

来源 如果您是 NLP 爱好者,想知道什么是转换器及其工作原理背后的细节,您可以观看这段基于开创性文章的视频:Attention Is All You Need。

它们是一个很棒的视频和一篇优秀的论文(但老实说,它直接在我脑海中浮现)。对于我们其他麻瓜,BERT 背后的转换器的技术效果转化为更新,谷歌搜索可以更好地理解搜索结果背后的上下文,也就是用户意图。

BERT 使用掩码语言模型 (MLM)
BERT 的训练包括使用 Masked Language Modeling 预测句子中的单词。它的作用是掩盖句子中 15% 的单词,如下所示:

What do [MASK] eat other than bamboo?


然后,BERT 必须预测被掩码的词是什么。这做了两件事:它在单词上下文中训练 BERT,它提供了一种衡量 BERT 学习量的方法。被屏蔽的词阻止 BERT 学习复制和粘贴输入。

其他参数,例如向右移动解码器、下一个句子预测或回答上下文,有时是无法回答的问题也可以这样做。 BERT 提供的输出将表明 BERT 正在学习和实施其关于单词​​上下文的知识。

BERT 有什么影响?
这对搜索意味着什么?像 BERT 那样使用转换器双向映射查询尤为重要。

这意味着算法正在考虑诸如介词之类的单词背后的细微但有意义的细微差别,这些细微差别可能会极大地改变查询背后的意图。以这两个不同的搜索页面结果为例。我们将继续我们早期的熊猫和竹子主题。

关键字是:What do pandas eat other than bamboo

google search what do pandas eat other than bamboo

Panda bamboo

google search panda bamboo

请注意结果页面非常相似?几乎一半的有机结果是相同的,人们也问 (PAA) 部分有一些非常相似的问题。但是,搜索意图非常不同。

“熊猫竹”的范围很广,所以很难确定其意图,但它可能在想熊猫的竹子饮食。搜索页面非常好。另一方面,“熊猫除了竹子还吃什么”的搜索意图非常具体,搜索页面上的结果完全错过了。

唯一接近达到意图的结果可能有两个 PAA 问题:

大熊猫吃什么肉?
只吃竹子的大熊猫如何生存?
可以说是 Quora 的两个问题,其中一个很有趣:

可以训练熊猫吃竹子以外的食物吗?
熊猫吃人吗?
苗条的采摘,确实。在此搜索查询中,“其他”一词在搜索意图的含义中起着重要作用。在 BERT 更新之前,Google 的算法在返回信息时会定期忽略诸如“other than”之类的功能/填充词。

这导致搜索页面无法匹配像这样的搜索意图。由于 BERT 仅影响 10% 的搜索查询,因此在撰写本文时左侧页面并未受到 BERT 的影响也就不足为奇了。 Google 在其 BERT 解释页面上提供的这个示例显示了 BERT 如何影响搜索结果:

can you get medicine for someone pharmacy before and after

精选片段
BERT 将产生的最重要影响之一将是精选片段。精选片段是有机的,并且依赖于机器学习算法,而 BERT 完全符合要求。精选片段结果最常从第一个搜索结果页面中提取,但现在可能会有一些例外。

因为它们是有机的,很多因素都可以使它们发生变化,包括像 BERT 这样的新算法更新。使用 BERT,影响精选片段的算法可以更好地分析搜索查询背后的意图,并更好地将搜索结果与它们匹配。 BERT 也很可能能够获取冗长的结果文本,找到核心概念,并将内容总结为特色片段。

国际搜索
由于语言具有相似的基本语法规则,BERT 可以提高翻译的准确性。 BERT 每次学习翻译一种新语言时,都会获得新的语言技能。这些技能可以转移并帮助 BERT 翻译它从未见过的更高精度的语言。

如何针对 BERT 优化我的网站?
现在我们遇到一个大问题:如何针对 Google BERT 进行优化?简短的回答?

你不能。 BERT 是一个人工智能框架。它利用它获得的每一条新信息进行学习。

它处理信息和做出决策的速度意味着即使是 BERT 的开发人员也无法预测 BERT 将做出的选择。很可能,BERT 甚至不知道它为什么会做出这样的决定。如果它不知道,那么 SEO 就无法直接针对它进行优化。

但是,您可以在搜索页面中进行排名的方法是继续生成符合搜索意图的人性化内容。 BERT 的目的是帮助 Google 了解用户意图,因此针对用户意图进行优化将针对 BERT 进行优化。

所以,做你一直在做的事情。
研究你的目标关键词。
关注用户并生成他们想要看到的内容。
最终,当你写内容时,问问自己:

我的读者能否在我的内容中找到他们正在寻找的内容?

作者 east
大数据开发 3月 28,2022

国外MySQL数据仓库和数据库的8个常用 ETL 工具

在大数据时代,找到合适的 MySQL ETL 工具对于管理和分析数据至关重要。理想情况下,您需要一个能够让您轻松控制数据流、符合安全标准、与流行应用程序轻松集成并帮助团队中的每个成员构建数据管道而无需学习如何编码的解决方案。

有这么多用于 MySQL 数据仓库和数据库的 ETL 工具,您需要一个指南来帮助您选择适合您公司的选项是可以理解的。您探索的 ETL 解决方案越多,您选择的软件就越有可能使您的员工和经理能够从可靠的数据中做出明智、明智的选择。

为了帮助您选择适合您的 ETL 解决方案,这里汇总了一些可用的顶级 ETL 工具。

MySQL 数据仓库的 8个 ETL 工具:

DataExpress

Pentaho Kettle

csv2db

Apatar

Domo

AWS Glue

Benetel

Apache Spark

DataExpress

提供了许多使 MySQL 用户受益的功能。 它符合 HIPAA 和金融行业的安全要求。 DataExpress 还允许您创建数据传输计划。 设置时间表后,它将自动将数据从您的数据库传输到您的分析应用程序。

制作 DataExpress 的公司 DATA443 Risk Mitigation 有几个版本供您考虑。 不幸的是,这些选项迫使您承诺使用非常具体的软件形式。 你没有太多的灵活性。

此外,DATA443 风险缓解侧重于安全性。 这意味着 DataExpress 超出了大多数监管准则。 这也意味着 ETL 不是开发人员的主要关注点。

Pentaho Kettle

Pentaho Data Integration(或 Kettle)具有出色的用户界面,可以让没有经验的用户构建数据管道。您无需了解 SQL 或其他语言即可开始使用。这些特性使其成为商业智能和 MySQL ETL 的不错选择。

另一方面,它的一些最重要的缺陷包括:

限制您的设计的有限模板。

数据库连接超时之前令人沮丧的短暂时间。

无法真正识别问题的难以辨认的错误代码。

此选项的价格点意味着 Pentaho Kettle 可能并不适合所有人。

csv2db

如果您的需求有限,需要将 CSV 文件添加到 MySQL 数据库,那么 csv2db 可以为您工作。该工具只做一件事,但它做得非常好。

用户需要一些编码经验才能开始。 CSV2db 不是销售团队可以使用的解决方案类型。它专为希望以快速、简单的方式管理数据的技术专家而设计。

Apatar

Apatar 在 MySQL ETL 和商业智能数据分析方面相当简单。其为商业用户设计的开源软件提供对数据质量工具、集成工具等的访问。您不需要编码或数据管理经验即可使用该工具。但是,如果您确实知道如何编写脚本,则可以从 Apatar 获得更多的灵活性和自定义。

同样重要的是要注意 Apatar 没有得到很多更新。不要期望它与最新的应用程序集成。

Domo

您可能以前听说过 Domo。选择 Domo 有一些明显的优势。它比大多数 MySQL ETL 工具做得更多。例如,您可以使用它来分析和可视化数据。其他流行的用例包括将 Domo 数据引入 Amazon Redshift 并将 Domo 数据加载到 Google BigQuery。

通过包含数据分析和可视化功能,Domo 将自己定位为用户友好的选项。不幸的是,这正是该软件的不足之处。实际上,Domo 有一个陡峭的学习曲线和一个对新用户没有多大意义的用户界面。虽然它似乎是商业智能的绝佳选择,但它缺乏营销和销售专家做出数据驱动决策所需的直观功能。

AWS Glue

Amazon Web Services 是一项基于云的服务,提供 AWS Glue,这是一种利用 Python 作为其基础语言的实时 ETL 工具。当您想要完全无服务器时,AWS 是理想的选择。然而,这将是有代价的。您将按小时收费,以一秒为增量。

Benetl

Benetl 是一个免费的 MySQL ETL 工具。然而,它仍然是有代价的。您需要在编码和数据库管理方面拥有丰富的经验才能从 Benetl 获得任何东西。除了可以让您编写命令的屏幕之外,它几乎没有用户界面。要将 Benetl 连接到 MySQL,您需要下载核心软件未包含的驱动程序。对于没有计算机科学学位的人来说,即使创建 Benetl 帐户似乎也是不可能的。

Benetl 也只管理 csv、txt 和 xls 文件,这可能会给您和您的团队带来问题。

除非您是数据专家,否则您可能需要重新考虑 Benetl。尽管没有前期成本,但学习曲线非常陡峭,您最终可能会花费大量时间(以及金钱)试图弄清楚它。最好为适合您员工的软件付费。

Apache Spark

Apache Spark 是一个“闪电般快速”的统一分析引擎,能够快速高效地处理大型数据集。以速度着称的 Apache Spark 可以将工作负载的运行速度提高 100 倍。虽然功能强大,但 Apache Spark 不提供自动优化过程。如果自动化对您很重要,这是您需要考虑的事情,因为您需要手动优化代码。

这个开源 ETL 工具也不适合多用户环境,并且不提供自己的文件管理系统。

作者 east

上一 1 … 51 52 53 … 93 下一个

关注公众号“大模型全栈程序员”回复“小程序”获取1000个小程序打包源码。回复”chatgpt”获取免注册可用chatgpt。回复“大数据”获取多本大数据电子书

标签

AIGC AI创作 bert chatgpt github GPT-3 gpt3 GTP-3 hive mysql O2O tensorflow UI控件 不含后台 交流 共享经济 出行 图像 地图定位 外卖 多媒体 娱乐 小程序 布局 带后台完整项目 开源项目 搜索 支付 效率 教育 日历 机器学习 深度学习 物流 用户系统 电商 画图 画布(canvas) 社交 签到 联网 读书 资讯 阅读 预订

官方QQ群

小程序开发群:74052405

大数据开发群: 952493060

近期文章

  • 如何在Chrome中设置启动时自动打开多个默认网页
  • spark内存溢出怎样区分是软件还是代码原因
  • MQTT完全解析和实践
  • 解决运行Selenium报错:self.driver = webdriver.Chrome(service=service) TypeError: __init__() got an unexpected keyword argument ‘service’
  • python 3.6使用mysql-connector-python报错:SyntaxError: future feature annotations is not defined
  • 详解Python当中的pip常用命令
  • AUTOSAR如何在多个供应商交付的配置中避免ARXML不兼容?
  • C++thread pool(线程池)设计应关注哪些扩展性问题?
  • 各类MCAL(Microcontroller Abstraction Layer)如何与AUTOSAR工具链解耦?
  • 如何设计AUTOSAR中的“域控制器”以支持未来扩展?

文章归档

  • 2025年8月
  • 2025年7月
  • 2025年6月
  • 2025年5月
  • 2025年4月
  • 2025年3月
  • 2025年2月
  • 2025年1月
  • 2024年12月
  • 2024年11月
  • 2024年10月
  • 2024年9月
  • 2024年8月
  • 2024年7月
  • 2024年6月
  • 2024年5月
  • 2024年4月
  • 2024年3月
  • 2023年11月
  • 2023年10月
  • 2023年9月
  • 2023年8月
  • 2023年7月
  • 2023年6月
  • 2023年5月
  • 2023年4月
  • 2023年3月
  • 2023年1月
  • 2022年11月
  • 2022年10月
  • 2022年9月
  • 2022年8月
  • 2022年7月
  • 2022年6月
  • 2022年5月
  • 2022年4月
  • 2022年3月
  • 2022年2月
  • 2022年1月
  • 2021年12月
  • 2021年11月
  • 2021年9月
  • 2021年8月
  • 2021年7月
  • 2021年6月
  • 2021年5月
  • 2021年4月
  • 2021年3月
  • 2021年2月
  • 2021年1月
  • 2020年12月
  • 2020年11月
  • 2020年10月
  • 2020年9月
  • 2020年8月
  • 2020年7月
  • 2020年6月
  • 2020年5月
  • 2020年4月
  • 2020年3月
  • 2020年2月
  • 2020年1月
  • 2019年7月
  • 2019年6月
  • 2019年5月
  • 2019年4月
  • 2019年3月
  • 2019年2月
  • 2019年1月
  • 2018年12月
  • 2018年7月
  • 2018年6月

分类目录

  • Android (73)
  • bug清单 (79)
  • C++ (34)
  • Fuchsia (15)
  • php (4)
  • python (45)
  • sklearn (1)
  • 云计算 (20)
  • 人工智能 (61)
    • chatgpt (21)
      • 提示词 (6)
    • Keras (1)
    • Tensorflow (3)
    • 大模型 (1)
    • 智能体 (4)
    • 深度学习 (14)
  • 储能 (44)
  • 前端 (5)
  • 大数据开发 (493)
    • CDH (6)
    • datax (4)
    • doris (31)
    • Elasticsearch (15)
    • Flink (79)
    • flume (7)
    • Hadoop (19)
    • Hbase (23)
    • Hive (41)
    • Impala (2)
    • Java (71)
    • Kafka (10)
    • neo4j (5)
    • shardingsphere (6)
    • solr (5)
    • Spark (100)
    • spring (11)
    • 数据仓库 (9)
    • 数据挖掘 (7)
    • 海豚调度器 (10)
    • 运维 (35)
      • Docker (3)
  • 小游戏代码 (1)
  • 小程序代码 (139)
    • O2O (16)
    • UI控件 (5)
    • 互联网类 (23)
    • 企业类 (6)
    • 地图定位 (9)
    • 多媒体 (6)
    • 工具类 (25)
    • 电商类 (22)
    • 社交 (7)
    • 行业软件 (7)
    • 资讯读书 (11)
  • 嵌入式 (71)
    • autosar (63)
    • RTOS (1)
    • 总线 (1)
  • 开发博客 (16)
    • Harmony (9)
  • 技术架构 (6)
  • 数据库 (32)
    • mongodb (1)
    • mysql (13)
    • pgsql (2)
    • redis (1)
    • tdengine (4)
  • 未分类 (7)
  • 程序员网赚 (20)
    • 广告联盟 (3)
    • 私域流量 (5)
    • 自媒体 (5)
  • 量化投资 (4)
  • 面试 (14)

功能

  • 登录
  • 文章RSS
  • 评论RSS
  • WordPress.org

All Rights Reserved by Gitweixin.本站收集网友上传代码, 如有侵犯版权,请发邮件联系yiyuyos@gmail.com删除.