西班牙 AI 中 PLN 和 Transformers 的演变

mitaromana2024@ · 发表于 2024-1-18 16:59:38

随着互联网上产生的文本信息量越来越大，拥有处理和分析这些数据的工具至关重要，以免错过那里正在发生的事情并利用它来改进我们的服务。最近的西班牙人工智能网络研讨会之一由IIC 首席数据科学家Álvaro Barbero主持，旨在了解自然语言处理(NLP) 的最新动态。从嵌入到语言模型，一直到Transformers，我们对这些技术的演变进行了回顾，这些技术越来越多地考虑到正在分析的单词和文本的上下文。

新的 NLP 模型：获取上下文的演变NLP 的本 塞内加尔电话号码表 质是将自然语言翻译成机器学习模型可以使用的数字语言。通过这种方式，可以自动完成不同的任务：对文本进行分类、标记单词/实体（标记）或根据问题提取信息。

为此，文本分析的第一步通常是标记化过程：用单词和标点符号分隔。由此，出现了第一种表示文本的方法：词袋具有与每个单词相关联的索引字典，以及词嵌入通过该方法将每个单词转换为数值向量，并且可以通过平均值获得该数值向量。其中，代表整个文本。

然而，这些方法没有考虑词序，而词序对于意义来说很重要。因此，使用了循环神经网络（一种单词混合模型），它考虑了单词在句子和文本中的位置。最后，Transformer 模型闯入了 PLN 的世界。从嵌入开始，应用了几个层，称为自注意力，它“混合”单词的表示向量，直到它们实现尽可能多的“上下文化”表示向量。也就是说，这些新向量将包含有关文本其余部分的信息：不仅有关单词，还有关它在文档中的使用方式以及其他内容。

人力资源数据此外，该模型还可以学习可以混合哪些单词或者混合哪些单词很有趣，以获得上下文。正如阿尔瓦罗·巴贝罗所解释的那样，单词之间的“匹配”或相似度是可以计算的。与语法一样，形容词与名词配合，名词与动词配合。

例如，单词库在流程开始时始终会用相同的向量表示，无论它是指座位还是公司。一旦应用了自注意力层，向量就会根据其上下文的不同而有不同的含义。最后，这些模型可以使用许多深度学习组件来转换文本。使用这些技术的最著名的模型是 BERT，它有 12 层 Transformer，尽管近年来有了很大的增长，达到了数十层的模型，达到了 NLP 任务中从未见过的结果。络研讨会的最后，提出了一个实际示例，展示了这些 NLP 技术如何解决检测社交网络上有毒评论的问题，即使可用数据很少。在 IIC，我们在自然语言处理领域工作了十多年，将最新技术融入到我们的产品和服务中。

		自动登录	找回密码
密码			立即注册