NLU的困难在于文本缺失现象具标志性的任务
它是人工智能的核心课题之一,被广泛认为是最困难,最具标志性的任务最近几年来,虽然机器学习得到了广泛的应用,但它并不能很好地解决自然语言理解的问题,这可能涉及到很多原因ONTOLOGIK创始人Walid Saba人工智能和首席NLU科学家,给出了自己的观点
20世纪90年代初,一场统计革命取代了人工智能,并在2000年达到顶峰,而神经网络则通过深度学习成功回归这种经验转化吞没了人工智能的所有子领域,其中该技术最具争议的应用领域是自然语言处理
数据驱动的经验方法被广泛应用于NLP的原因主要包括:符号和逻辑方法在称霸30年后未能产生可扩展的NLP系统,导致NLP中出现了所谓的经验方法,可以统称为数据驱动,基于语料库,统计和机器学习。
这种向经验主义转变的动机很简单:在我们理解语言是如何工作的,以及语言如何与我们在日常口语中谈论的世界知识相关之前,经验和数据驱动的方法有助于构建文本处理应用程序正如EMNLP的先驱之一肯尼斯丘奇解释的那样,在NLP领域,倡导数据驱动和统计方法的研究人员对解决简单的语言任务感兴趣他们的动机从来没有暗示语言是这样工作的,但是做简单的事情总比什么都不做好丘奇认为,这种转变的动机被严重误解了正如麦克肖恩在2017年指出的,后人误解了这种体验趋势
肯尼斯丘奇,EMNLP会议的创始人和先驱之一。
这种被误导的趋势导致了一种不幸的情况:坚持使用大语言模型来构建NLP系统,这需要巨大的计算能力,试图通过记忆大量数据来接近自然语言对象是徒劳的这种伪科学方法不仅浪费时间和资源,还误导新一代年轻科学家认为语言就是数据更糟糕的是,这种做法阻碍了自然语言理解的发展
相反,是时候重新思考NLU方法了,因为对NLU来说,大数据方法不仅在心理上,认知上甚至计算上都是不可思议的,而且盲目的数据驱动方法在理论和技术上都存在缺陷。
自然语言处理VS自然语言理解
虽然自然语言处理和自然语言理解经常互换使用,但它们之间存在实质性的差异,强调这种差异非常重要事实上,通过区分自然语言处理和自然语言理解的技术差异,我们可以认识到,虽然数据驱动和机器学习方法适用于自然语言处理任务,但这种方法与NLU无关
摘要,主题提取,命名实体标识,语义检索,自动贴标,聚类。
上述任务符合PAC范式具体来说,自然语言处理系统的输出评价是主观的:没有客观的标准来判断一个摘要是否比另一个好,或者一个系统提取的主题和短语是否比另一个系统提取的好可是,自然语言理解不允许这样的自由要完全理解一个话语或一个问题,就必须理解说话者试图表达的唯一思想
冷战期间,我们有没有一个退休的英国广播公司记者驻扎在东欧。
在数据库中,上述查询只有一个正确答案将上述表达式翻译成正确的SQL或SPARQL查询非常具有挑战性
需要正确解读已退休的BBC记者,即所有在BBC工作过,现已退休的记者的集合,通过保留在一些东欧国家工作过的退休BBC记者,进一步过滤上述内容除了地域限制,还有时间限制,那些退休BBC记者的工作时间必须是冷战时期,上面的意思是把介词短语冷战期间附加到驻扎而不是东欧国家,正确定义量词的范围:我们要找的不是在东欧国家工作的记者,而是在任何东欧国家工作的任何记者
以上对语义的理解不会是可能的和大致正确的,但肯定是绝对正确的换句话说,我们必须从上述问题的各种可能的解释中获得唯一的意义,并且根据常识,我们可以推断出提问者问题背后的想法综上所述,对普通口语的真正理解完全不同于简单的文字处理在文本处理中,我们可以接受近似正确的结果,mdash结果在可接受的概率下也是正确的
通过这个简短的描述,我们应该能够清楚地理解为什么NLP和NLU不一样,为什么NLU对机器来说很难但是NLU的困难是什么呢
NLU的困难在于文本缺失现象
所谓的缺文现象,MTP)可以理解为NLP任务挑战的核心语言交流的过程如下图所示:说话者将思想编码为某种语言表达,然后听者将语言表达解码为说话者意图传达的思想
图1:说者和听者之间的语言交流过程。
解码过程是NLU的Umdashmdash也就是说,理解语言话语背后的思想正是解码过程所需要做的此外,在这个解码过程中没有近似值或任何自由度
达到这一个思想,这正是 NLU 困难的原因。
在这种复杂的交流中,有两种可能的优化方案:(1)说者可以压缩(和最小化)在编码中发送的信息量,并希望听者在解码(解压缩)过程中做一些额外的工作,(2)说者尽最大努力传递所有必要的信息来传达思想,而听者几乎什么也不用做。
伴随着过程的自然演变,上述两种方案似乎已经得到一个很好的平衡,即说者和听者的总体工作都得到了同样的优化这种优化导致说者可以编码尽可能少的信息,而忽略其他信息遗漏的信息对于说者和听者来说,是可以通过安全假设获得的信息,这正是我们经常说的普通背景知识
绿色框中信息要短很多,这正是我们说话的方式,语言虽短,但传达的是与较长信息相同的思想。通常我们不会明确地说出所有想要表达的东西:
也就是说,为了有效地沟通,我们在交流中通常不会说认为对方说都知道的信息这也正是为什么我们都倾向于忽略相同的信息mdash,mdash,因为我们都了解每个人都知道的,而这正是我们所谓的共同背景知识人类在大约 20 万年的进化过程中,发展出的这一天才优化过程非常有效但这就是 NLU 的问题所在:机器不知道我们遗漏了什么信息,因为机器不知道我们都知道什么最终结果导致 NLU 是非常困难的,因为如果一个软件程序不能以某种方式揭示人类在语言交流中遗漏和隐含的所有东西,它就不能完全理解我们语言话语背后的思想这实际上才是 NLU 的挑战,而不是解析,词干分析,词性标记,命名实体识别等
图 2:NLU 中很多挑战都是因为缺失文本现象造成的:图中缺失的文本(隐式的假设)用红色表示。
上述示例表明,NLU 的挑战在于发现缺失信息,并隐含地认为这些信息是共享背景知识。下图 3 进一步解释了缺失文本现象:
我们在下文给出三个原因来解释为什么机器学习和数据驱动方法不能解决 NLU 问题。
ML 方法与 NLU 无关:ML 是压缩,语言理解需要解压缩
用机器来实现自然语言理解是非常困难的,因为我们日常口语所表达的都是高度压缩信息,「理解」的挑战在于解压缩出丢失文本这对人类来说是很简单的事情,但对机器来说却大不相同,因为机器不知道人类掌握的知识但 MTP 现象恰恰说明了为什么数据驱动与机器学习方法会在 NLP 任务中有效,但是在 NLU 中不起作用
研究者在数学上已经建立了可学习性和可压缩性(COMP)之间的等价关系也就是说,只有当数据高度可压缩(即它有很多冗余)时,在数据集中才会发生可学习性,反之亦然虽然证明可压缩性和可学习性之间的关系相当复杂,但直观上很容易理解:可学习性是关于理解大数据的,它在多维空间中找到一个函数可以覆盖所有的数据集信息因此,当所有数据点都可以压缩成一个流形时,就会发生可学习性但是 MTP 告诉我们 NLU 是关于解压缩的
机器学习是将大量数据泛化为单个函数另一方面,由于 MTP,自然语言理解需要智能的解压缩技术,以发现所有缺失和隐式假设文本因此,机器学习和语言理解是不相容的mdash,mdash,事实上,它们是矛盾的
ML 方法甚至与 NLU 无关:统计意义不大
ML 本质上是一种基于数据发现某些模式(相关性)的范式研究者希望在自然语言中出现的各种现象在统计上存在显著差异
1. 奖杯装不进手提箱,因为它太
1a. С
1b. 大
同义词与反义词(例如小和大,开和关等)以相同的概率出现在上下文中,因此,在统计上来说 (1a) 和(1b) 是等价的,可是 (1a) 和(1b)所代表的内容也是相当不同的:在此句中,「它」在 (1a)中隐含的意思是指手提箱小,但在 (1b) 中是指奖杯大,尽管它们的语义相差很大,但是 (1a) 和(1b)在统计上是等价的因此,统计分析不能建模(甚至不能近似)语义
ML 方法甚至与 NLU 无关:intenSion
逻辑学家长期以来一直在研究一种称为「intension」的语义概念。为了解释什么是「intension」,首先要从所谓的语义三角(meaning triangle)开始讲起,如下图所示:
在语义三角中,每个「事物(或每个认知对象)」都具有三部分:一个指代概念符号,以及这个概念(有时)具有的一些实例以「独角兽」这个概念为例,在现实生活中并没有实际的示例概念本身是其所有潜在实例的理想化模板,可以想象,几个世纪以来,哲学家,逻辑学家和认知科学家一直在争论概念的本质及其定义,不管那场辩论如何,我们可以在一件事情上达成一致:一个概念(通常由某个符号 / 标签引用)由一组特性集合和属性定义,也许还有附加公理和既定事实等可是,一个概念与实际(不完美)实例不同,在完美的数学世界中也是如此
上图中所有表达式的值都是 16,在某种意义(它们的值)上来说是相等的,但这只是属性之一事实上,上面的表达式还有其他几个属性,比如语法结构(为什么 a 和 d 是不同的),运算符的数量等其中值只是一个属性,可以称为扩展(extension),而所有属性的集合是 intension在应用科学(工程,经济学等)中,我们可以认为这些对象是相等的,如果它们在值上是相等的,但在认知中,这种相等是不存在的
假设 (1) 是真的mdash,mdash,也就是说,假设 (1) 确实发生了,并且我们见证了它尽管如此,这并不意味着我们可以假设 (2) 为真,尽管我们所做的只是将 (1) 中的 16 替换为一个(假设),而该假设等于它的值我们用一个假定等于它的对象替换了陈述中的一个对象,并且我们从真实的事物推断出不真实的事物!虽然在物理科学中可以很容易地用一个属性的对象来替换它,但这在认知中是行不通的
总结来说,本文讨论了机器学习和数据驱动方法与 NLU 无关的三个原因(尽管这些方法可能用于一些本质上是压缩任务的文本处理任务)在传达思想时,我们传递的是高度压缩的语言信息,需要大脑来解释和揭示所有缺失但隐含的背景信息在很多方面,构建大语言模型时,机器学习和数据驱动方法都在徒劳地试图寻找数据中根本不存在的东西我们必须意识到,日常的口语信息,并不是理想的语言数据
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。