bert怎么读 bert

谁知道英文名bert有什么中文含义 。译为“伯特(男子名 , 等于Burt) 。
bert , 英语单词 , 主要用作名词 , 作名词时译为“伯特(男子名 , 等于Burt)” 。
例句:
Bert is a voluble, gregarious man.
伯特是个健谈且善于交际的人 。
Bert was a footloose, unemployed actor.
伯特是不受雇于任何人的自由演员 。
短语搭配
Bert Gosnell 艾伯特·高斯奈
Bert Whitehead 伯特·怀特海德
Bert Ely 银行顾问艾利 ; 问人士波特
Bert Ehgartner 厄加那
以上内容参考 百度百科——bert

bert怎么读 bert

文章插图
BERT预训练模型n-gram语言模型:根据前面n个词预测当前词 , 它的缺点是 , 一般只能取1-2 , n越大计算成本越高 , 这就使得它关注的信息是非常局限的 。
预训练语言模型:wordvec\glove\fasttext 。wordvec是根据周围词预测当前词或当前词预测周围词 , 相比于n-gram , 它关注了下文 , 但它仍然是关注局部信息 。glove通过构建词频共现矩阵来训练词向量 , 将全局信息融入到词向量中 。fasttext仍然是局部的 , 只是他分词是基于subword , 对于oov词相对友好 。三者共同的缺点是 , 无法解决一词多义问题 。
高级语言模型:elmo\GPT , elmo采用1层静态向量+2层单向LSTM提取特征 , 并且能够解决一词多义 , elmo是一个双向语言模型 , 但实际上是两个单向语言模型(方向相反)的拼接 , 这种融合特征的能力比 BERT 一体化融合特征方式弱 。GPT采用Transformer的decoder单元提取特征 , 同样也可以解决一词多义问题 , 但GPT是单向的 。所以 , 对上下文信息的融合 , 二者能力还不够 。
bert是双向语言模型 , 句子没有shift_mask操作 , 所以是完整的上下文环境 , 证实了双向语言模型对文本特征表示的重要性 。bert同时证实了预训练模型能够简化很多繁重任务的网络结构 , 在11个nlp任务上都有显著提升 。
bert采用Transformer的encoder单元提取特征 , encoder中包含几个重要的机制:self-attention、muti-head attention、position encoding 。
bert分为bert_base和bert_large大小两个模型 , bert_base采用了12个encoder单元 , 768维隐藏层 , 12个attention 。bert_base采用了24个encoder单元 , 1024维隐藏层 , 16个attention 。
input:单句或句对组合 , 有[cls]作为句子开头的标记 , [sep]作为句子分隔和结束的标记 。
token embedding:对于英文采用WordPiece embeddings , 也就是一个单词会被拆成词根词缀的 , 比如图中的playing被拆成了play和ing两个token;对于中文 , 就是单子拆分 。
segment embedding:相邻句子采用不同的标志分隔 , 形如111111111100000011111100000 。
position embedding:在transformer中 , 单词之间是没有先后顺序的 , 而语言本身是有序的 , 所以采用采用正余弦函数来计算每个单词的先后顺序 , 这种方式有点勉强 , 算是折中方式 。
前面讲到elmo也是双向语言模型 , 它是采用bi-LSTM来提取特征 , 如下:
比如一句话:‘北京是中国的首都’ , 在LSTM中从左往右 , 预测‘中国’的时候只能看到‘北京’ , 从右往左 , 预测‘中国’的时候只能看到‘首都’ , 然后将两个lstm的输出做拼接来达到上下文信息融合的目的 。其实是没有完全做到双向 , 只是以结构的改变来接近双向语言模型 。真正的双向是预测‘中国’的时候 , 需要同时看到‘北京’和‘首都’ 。由此 , mask LM产生了 。
mask LM的原理是将‘中国’遮盖住 , 同时用‘北京’和‘首都’来预测‘中国’ 。‘北京’和‘首都’联系起来语言模型很容易联想到就是‘中国’啦 。这个思想和wordvec的CBOW模型如出一辙 , 就是用周围词预测当前词 , 只是这个思想放在厉害的transformer中 , 便能大显其能 。
BERT的mask方式:在选择mask的15%的词当中 , 80%情况下使用mask掉这个词 , 10%情况下采用一个任意词替换 , 剩余10%情况下保持原词汇不变 。这样mask的优点是什么?

秒懂生活扩展阅读