Discuz! Board

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 228|回复: 0

西班牙 AI 中 PLN 和 Transformers 的演变

[复制链接]

1

主题

1

帖子

5

积分

新手上路

积分
5
发表于 2024-1-18 16:59:38 | 显示全部楼层 |阅读模式

随着互联网上产生的文本信息量越来越大,拥有处理和分析这些数据的工具至关重要,以免错过那里正在发生的事情并利用它来改进我们的服务。最近的西班牙人工智能网络研讨会之一由IIC 首席数据科学家Álvaro Barbero主持,旨在了解自然语言处理(NLP) 的最新动态。从嵌入到语言模型,一直到Transformers,我们对这些技术的演变进行了回顾,这些技术越来越多地考虑到正在分析的单词和文本的上下文。

新的 NLP 模型:获取上下文的演变NLP 的本 塞内加尔电话号码表 质是将自然语言翻译成机器学习模型可以使用的数字语言。通过这种方式,可以自动完成不同的任务:对文本进行分类、标记单词/实体(标记)或根据问题提取信息。

为此,文本分析的第一步通常是标记化过程:用单词和标点符号分隔。由此,出现了第一种表示文本的方法:词袋具有与每个单词相关联的索引字典,以及词嵌入通过该方法将每个单词转换为数值向量,并且可以通过平均值获得该数值向量。其中,代表整个文本。

然而,这些方法没有考虑词序,而词序对于意义来说很重要。因此,使用了循环神经网络(一种单词混合模型),它考虑了单词在句子和文本中的位置。最后,Transformer 模型闯入了 PLN 的世界。从嵌入开始,应用了几个层,称为自注意力,它“混合”单词的表示向量,直到它们实现尽可能多的“上下文化”表示向量。也就是说,这些新向量将包含有关文本其余部分的信息:不仅有关单词,还有关它在文档中的使用方式以及其他内容。

人力资源数据此外,该模型还可以学习可以混合哪些单词或者混合哪些单词很有趣,以获得上下文。正如阿尔瓦罗·巴贝罗所解释的那样,单词之间的“匹配”或相似度是可以计算的。与语法一样,形容词与名词配合,名词与动词配合。



例如,单词库在流程开始时始终会用相同的向量表示,无论它是指座位还是公司。一旦应用了自注意力层,向量就会根据其上下文的不同而有不同的含义。最后,这些模型可以使用许多深度学习组件来转换文本。使用这些技术的最著名的模型是 BERT,它有 12 层 Transformer,尽管近年来有了很大的增长,达到了数十层的模型,达到了 NLP 任务中从未见过的结果。络研讨会的最后,提出了一个实际示例,展示了这些 NLP 技术如何解决检测社交网络上有毒评论的问题,即使可用数据很少。在 IIC,我们在自然语言处理领域工作了十多年,将最新技术融入到我们的产品和服务中。


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Discuz! X

GMT+8, 2024-9-22 23:29 , Processed in 0.031250 second(s), 18 queries .

Powered by Discuz! X3.5

Copyright © 2001-2022 Tencent Cloud.

快速回复 返回顶部 返回列表