人工智能的“觉醒”从语言开始 AI语言学原理与动态词典3.0
史雷鸣 2018-05-24 人民邮电报
分享:

智能是语言学问题

语言是世界的本质

世界之所以能被描述,是因为其具有可被测量观察的属性和变量,形成了现象。当人类观察和定义这种现象及其变量,创建了媒体符号予以指征,便形成了媒体语言。与之相对应,被指征的存在的事物,就是自身的语言。这种存在以能量和物质的方式构成了世界,它们是实在的物的语言,我们可以称之为物语。人类构建的文字、音乐、绘画、雕塑等语言,依赖于媒体表达,我们可以称之为媒语。计算机代码也是一种媒语。其构成基础的0和1,可以用电,也可以用磁,还可以用光作为载体和媒体。

所有的语言都是符号系统,语言学的基础是符号学。符号学将符号分为符形和符意两个部分。符形是它的形式或者载体,符意是其携带或者指征的意义。自然存在的事物也是自身的符号,其存在的物质能量形式本身就是符形,其属性或者所具备的物理、化学特性就是符意。人类对自然的研究,是不断地对自然存在进行拆分、解读和破译,不断地创造新的媒语指征揭示所对应的物语。例如原子、电子、夸克等。自然科学是对世界的解读和使用媒语构建的语言学模型和地图。

知识即语言

人类的知识体系主要由文字语言、图表、公式、数字构建而成。图表公式和数字是一些特殊的符号语言。还有一些知识,存在于文化和习惯中,以及口语与记忆中,或者存在于经验中,它们也是一种符号体系,只不过没有被提取或者整理成严密和公共化的语言体系。即使是模糊的经验、工艺流程、行为,甚至我们的思考都是一种程序。程序本身就是一个语言序列。动物的行为、植物的生长代谢,都是一种或者多种程序的混合。因此,人类所有的知识都是语言或者类语言。

正因为人类创造了媒语,可以将很多经验、认识用媒体语言记录和传播,因此成为知识汇集、记录、转载、传播的知识池,这种可以高效记录和传播的外部媒体载体语言,成为人类大脑和意识的外部存储器、网络、输入与输出设备,甚至外部的计算器,大大促进了人类的文化和文明的发展。

智能是语言的产物

人类和原始人存在着巨大的智力差别。原始人和现代人的孩子在出生时其实差别甚小,或者说现代人出生的时候其实就是一个原始人甚至是一只“小野兽”。一万年前人类的大脑容量比现代人更大,两者后天的差异是造成智力差别的核心原因,经历和受教育的差异构成了智力的差异。现代人所受的教育,核心是体验和词语化。受教育的过程就是一个构建词库、扩充词库和不断强化优化词语之间的关联性和解释关系的过程和体验。智能,取决于你认识多少事物,掌握多少词语,以及词语之间的关系构建和它们之间的解释关系的差异。

人类的思考是以文字和图表为主要方式进行的。图表是另外一种特殊的语言和符号系统。语言是一个演进、累积逐步构建的系统,有其最初的简单的源自世界的自然现象及其变化和变量的原型。最初的语言不过是对最基础的自然现象特征以及变量和变化的指征。在此基础上,人类不断细分现象及其变量,发现最初的朴素的逻辑,并以此为基础不断扩展。人类整体的智力也伴随着这个语言和词语库的发展而发展。物理学、化学等其实是特殊的细致的专门词典。

计算机技术的发展,更是证明了智能是语言的产物。运行于计算机的电流不是智能,而是电流所承载的软件在硬件中进行运算,产生了智能,以至于中国人把Computer翻译为电脑。这种还不高级的智能产生于软件,也就是程序之中。软件和程序不过是人类预定规范形成的一种特殊的二进制代码语言而已。即使是软件所运行的硬件,也是一种被指令代码化的逻辑硬件,那些硬件内置的逻辑也是一种语言。

我们用这样一些比较和分析的办法,可以理解到智能存在于语言中,甚至我们也可以理解到人类其实是一台生物化学的语言机器,其他生物也是如此。

脑科学和类脑计算试图通过彻底破解脑部的物理、化学构造来理解智能的这种方法固然可以,但艰难而且并无必要。对于人类的语言如何产生、如何扩展、如何发展,对于语言学的进化演进历史,以及语言规律本身的分析和理解,是另一个高效的路径。甚至,对语言和人的认知的特征解读,有可能完全不需要了解脑的细节构造,而构建出类似的处理语言和图表的人工智能,如果能够无障碍地使用语言和图表,并进一步拥有一些自定义语言、自学习能力,那么那个人工智能就足以成为超越人的智能。

从语言的角度看,智能是语言问题,人工智能更是如此。因而,理解继承人类的语言语法词库和词语关系,兼容人类的语言系统,是类脑计算人工机器意识的核心途径,甚至是最佳路径。

智能是知识体网络

行动是程序,程序是语言

语言是世界的属性,也是本质之一。目前的物理学认为世界是由最基础的物质能量时空单位构成的,物理学的任务就是努力解读这种结构与属性。我们可以将那种最基础的物质能量存在看作是“物根”,与之相对应的,物根也是世界最基础的语言单位,我们可以称之为“语根”。物根和语根是同一的存在,世界基于此一层层建构,类似于计算机的硬件系统和软件系统,物质和语言构成了双重的世界。在可理解的世界范围之内,一切物质都具有语言属性和意义,而一切语言都依赖物质载体。媒体语言可以更换载体,物语则是其物与语言的同构同在。世界所发生的一切,都是由物自身的变化和物之间的互相作用引起的事件集合。事件由更基础的存在和行为过程构成。

一切行动和事件都同时以语言的形式存在,是语言序列。人类的思维依赖现象,将符号、对象、行动、空间和时间作为基础叙述。就如同一只猎豹捕猎,它的行动的每一次调整,都是多个程序的综合影响,它的捕猎是由很多个程序和语言序列构成的集合。

如前文所说,程序是语言,这个世界上没有凭空产生的程序和行动,它们都具有物语或者媒语的基础和前因。因此,所有的存在都可以被语言描述。因为在最基础的层面,媒语不过是对物语的指征、翻译和建模。媒体语言的基础就是对物语世界的模型构建。而媒语的源头一层层退回其基础部分,就会追溯到物质和物语的基础。

整个世界就是一个语言网络,人类的文化和知识也是由语言构成的知识体网络。这个网络有着因果和算法,最基础的构成部分是物和词语,人类的语言和词语从整体上为它构建了一个模型。

高级智能与语言

人类的高级智能发生在语言被创建和使用中,尤其是“文字”这种语言形式。人类具有了大脑之外的第二意识工具。语言文字既作为外部存储器,也作为网络信息包以及计算程序,并且在公共化中成为一个庞大的开放的网络。所有的人联网于其上,共同构成了一台强大的语言机器和复杂的多进程软件程序。人类社会网络整体上可以看作一台计算机,而语言是其中的软件,媒体语言是其核心软件和程序。

因此,人类的智能发生了质的变化,新的知识都依赖于之前的知识的累积和发展,每一个人都有机会继承获得之前的知识。教育就是系统、高效地继承这个知识体系和其智能的基础版本。

这种语言现象和被忽视的庞大的公共语言机器,是决定人类远远超越猩猩以及其他高等动物的核心因素。人类通过语言网络自组装出一台超级网络计算机,我们每一个人构成了内部的一个单元。在一些当今依然存在的原始部落,他们和现代人类社会之间的差异,更能够说明这一问题。他们是隔绝于这个庞大的性能和数据优越的大型网络之外的小型网络,其信息承载和计算的能力远远落后于现代社会。而通过和现代社会联网、交换信息,则可以迅速将其小部落的语言知识和智能以及文明大幅提升。

由此可见,对语言本身的研究就是对智能的研究。智能只是语言内部的一种结构、算法和数据库。人工智能终究是一种软件,软件终究是一种语言结构、语言运算和语言结果。

词语库的拓扑结构

词语库与知识体的拓扑结构

人类的语言中词语是测量知识多少的重要量度,词语承载着文字语言。现代人类拥有多达几百万的词语或者词条,这大概是人类知识的一个量化的依据。一个人掌握的词语数量和专业词语数量,基本可以作为知识量的一种度量。

词典可以看作人类最早的系统化的公共词语库,文明发展伴随着这种词语的公共化和系统化。词典中的词语并非毫无联系。事实上,词语之间存在着派生、继承、重组、解释等诸多关系。当我们整理这些词语的时候,会发现词语有着产生的时间序列的差异,尤其是词语的派生重构存在完全的先发后发关系。梳理这些词语之间的关系,可以得到词语在时间和空间上的拓扑关系。这种拓扑关系揭示了词语从古代原始语言到现代语言,从少数的直观现象描述发展到今天庞大的概念和复杂抽象对象之间的历史演进与解释。

词语不仅仅是一个普通的库,其词语关系构成的拓扑关系,是一个时间序列上的复杂网络结构。这种拓扑关系网络的开端词语,连接着人类最初能够观察到的自然现象及其属性。这个网络最核心最强大的部分就是逻辑、哲学和科学,并且这个语言库还在沿着时间轴生长扩展。而新的词语来自新的现象发现、新的概念生成,并且依赖于之前的词语予以解释。

词语库的这种特性及其拓扑关系,揭示了词语和语言作为一个整体的具有信息存储、标记、指征和计算以及创建功能的语言机器及其软件的价值和意义。或许应该这样描述:词语库,是人类的智能的累积、迭代、演进、发展的模型和结果。而智能和计算就以微妙的网络拓扑结构,以及词语之间解释所需要的逻辑和状态描述以及运算等方式系统性并置同构存在。我们需要注意的就是这种词语解释关系中包含了逻辑运算和所指征的物语变化中自身的计算的描述。

以词语库为基础,文字语言、图表和其他媒体语言,以及包含在人类社会中的本能、文化、经验、行为,作为一种语言和知识的整体,成为人类的知识体。知识体由于混合了多种媒体语言和行动语言以及隐含的经验等程序语言,其拓扑关系更为复杂。知识体最紧凑的核心就是类似于“词典”和“百科”的词语库,因此它是一个更大、更广义的“词语库”网络。

当我们将几百万个词条作为散乱的对象恢复其时间序列的派生和解释关系,以及将其拓扑结构、词语库和知识体作为一个整体的网络系统和算法的逻辑构件来看待时,我们可以获得语言与其自然源头的关系以及其自身作为一个数据库和运算器的属性,这是一个具备存储运算的动态扩展的网络,是一台可以扩展的计算机及其存储器与程序。

它的输入是一些新的现象发现和一些已有知识之间的矛盾与悖论,经过与已有词语和概念与关系的推理计算,输出为新的概念词语和理论。

“语言”本身是一个动态的运算和无限扩展的网络及其数据与软件。语言中最理性的逻辑和语法,构成了它自身基础的运算算法。人类成为这个网络的人工干预参与的一部分。但是,这个语言的算法和结构可以在类似计算机等机器中存在并运行,且在理论上完全可以摆脱人的干预自动运行计算。这其实就是人工智能的目标和途径,也是我们理解语言的意义所在。

树状混合网状结构

如果将词语库的拓扑网络进一步拆分,可以将其看作一个不断分枝的多叉树树状网络,有少量起点的初始节点,也有很多的新生节点,这个树状网络的节点结合从而产生新的节点,最终构成一个树状结构和叠加于其上的一个类似神经网络结构的混合网络。

这些节点之间的联系,其中包含有多种逻辑的描述和运算。这个网络复杂的链接关系,是由几十种基础的理性逻辑和状态语法形成算法完成的。对应这些连线,运算和解释就是这些链接关系的路径和意义。

这个网络的结构非常复杂。以人类已有的几百万个词条的词语库的容量,加上复杂的链接和解释关系,形成了多种路径。这些路径的权重,因环境和各种条件的影响而有所差异。 不过,在很经济的情况下我们可以使用计算机网络或者手机网络基于软件对这个网络进行模拟和实现。

词语拓扑网络结构有着因果关系,是知识的结构和地图,包含着所有的知识词语之间的关系。任何一句语言都可以在这个网络中找到对应的词语与词语关系,或者说,任何一段文字都可以使用这个网络构成或者分析。这个网络是世界和知识的模型与地图。

象形文字的揭示

人类文字语言的源头是象形文字。象形文字如此有趣,也富有深意。象形文字可以看作之后发展的抽象语言的基础。抽象的语言拼写和叙述更加简洁广泛,但是学习更难。象形文字则是现实世界的现象和事件与抽象的文字概念之间的桥梁。所有的文字语言都可以退回到象形文字的源头。即使在抽象文字高度发达的时代,象形文字也并没有消亡,而是作为插图、图表等渗透在人类的语言之中,甚至是哲学和科学研究的重要工具和表达方式及思维工具。

从另一个角度看,象形文字作为绘画、雕塑等视觉艺术的语意,从来就是一种重要的叙述与内容。商业社会中的商标和很多宗教与机构的徽标,都是一种象形文字。甚至声音等感官符号也可以理解为象形文字。

在观念的世界里,在抽象的文字语言世界里,那些观念、概念和词语,与世界中的对象的关系往往依赖于象形文字的指征和联系。很多图解百科,就是大量使用绘画、摄影以及动画这种进一步发展了的动态象形文字,进行迅速高效的叙述和清晰的表达。

因此,计算机和人工智能的视觉,是一个极为重要的研究课题。在图像识别和自动驾驶等领域,将图像再次理解为象形文字,将大大加速人工智能与现实世界的联系和对现实世界的理解,以及建立视觉与语言拓扑网络之间的映像和关联与计算分析,成为词语拓扑网络的延伸和扩展。

目前,人类使用文字语言和图表以及动画,可以指征表达几乎所有已知的知识和世界。

通过计算机视觉和人工智能的视觉,进行象形文字的语义研究和使用象形文字的工具和方法拉通与文字语言之间的解释和联系,显得必要和必然。

机器意识的基石:动态词典3.0

在人类的语言和知识建构中,词典是其最成熟、最具有清晰结构和形式的一种公共化的集合。词典是伟大的创造,是语言的最核心紧凑的内核和模型。

网络出现之后,开放的网络百科成为词典的扩展,网络百科本质上是一个更开放、动态扩展、互相连接的词语库和词典。

词典的结构是按照词语的字母顺序进行排序的,每一个节点都是一个词语或者词条,解释信息隐含着其与其他词条之间的连接和解释关系。这种线性的排序,破坏了词语本身在演进中的时间序列,或者发生的前因和后果。词典中的解释隐含了连接、算法以及关系,并且这种算法不能自动运行。

以维基百科为代表的网络百科词典,类似于搜索的输入查询方式,其词条并不按照词典的字母序列排序组织。维基百科的词条解释中包含了和其他词语的连接关系、解释关系和运算关系。其中的连接词条有一部分可以跳转,但是依赖于阅读者的人工干预。如果人工干预的连接延伸阅读和搜索被算法替代,那么维基百科内部的词条可以完成自动连接解释关系的路径搜索。这种路径搜索,在一定程度上就是对一个事物的定义理解与运算,就是思考和意识。

意识并不独立存在,而是存在于软件和程序之间的对象指征物之间的关系中。

事实上,这两种词典都没有很好地将树网拓扑结构网络的词语库完整、本质地体现出来。词典将每一个词语从网络中摘取,将与它存在连接和解释关系的其他词语之间的连接折叠,作为独立的词条解释项。这就类似于将时间轴上的树网每一个节点切断,为每一个节点标注与其他节点的连接关系,然后将这些节点按照大小顺序排列。

维基百科则类似于将这个树网的连接关系都置换成柔软的线,然后,这个树网像渔网一样堆放在平面上,每一个词条与其他的词条的连接和解释关系完备,但却损失了时间序列和复杂拓扑关系的几何图像的直观表现。

因此,用合适的数据结构和界面,生成能够完整呈现词语库的拓扑网络,是一个需要研究的课题。类似于3D形态,在空间中以三维的方式构建一个几何化的拓扑网络模型,每一个节点是一个词条,词条之间的连接存在着解释关系。或者说,对一个词条的解释是对连接的其他词条的路径搜索和访问。连接的线既是连接关系,也是多种逻辑和语法中的一种或者几种。这种时间序列上的3D拓扑网络词语库,通过将二维界面一维线性数据方式的词典,以及二维界面一维数据加链接拓展的网络百科词典,扩展为3D界面三维甚至更多维的数据方式和结构,从而还原词语库精巧的时间序列上的拓扑网络结构和关系。

词语到词语之间的连接解释关系构成路径。路径也许会有多条,对路径的搜索和权重的分析构成了解释,或者说理解。这些词条中一部分通过象形文字指征连接着自然世界和现象,一部分连接着高度抽象的概念,由于词语之间部分意义重叠,这种对一个词条的解释将存在多个路径和不同深度、广度的解释。这种解释都通过词条之间的连接和运算形成词语库整体拓扑网络的一个局部。如果进行适当的信息输入、自动搜索以及运算,并且对解释路径的权重予以学习和改变,引入深度学习机制,那么经过适当的训练,这个词语库将可以自动对外部输入的信息作出解释和判断,同时在这个过程中,思考和意识可以被理解为路径搜索和运算。

当然,这还需要对主体程序进行建构,形成类似“我”这样的高权重程序和进程来实现其主体意识。通过扩展程序,模拟形成“问题”“疑问”甚至暂时性搁置等意识活动相关的子程序和进程。

在这个词库的基础上,自定义新词语将成为重要的方向和功能。这意味着,词语库自己具备继承和进化的可能和路径。

这样一个具备词语语言史性质,在时间序列上组织的树状混合拓扑网络词语库,构成了与之前的所有的词典和网络百科完全不同的自动“辞典系统”。这是一个具有语言演进历史进化能力和自动思考能力的词典系统,揭示和构建了思考和意识的模型和能力。

与词典和网络百科一样,这个更高版本的智能化的词典,也需要大量的图表、动画作为补充和对词条的解释以及连接指征现象和自然。我们可以将其理解为人类语言发展史上的词典3.0。树网拓扑词语库的抽象拓扑结构,不仅是语言的模型,也是人类的神经网络的模型。

神经元之间的触突之间的连接,也有类似的拓扑结构和数据结构。人类大约有不到一千亿个脑神经元,其中每一个最多与另外一千个建立连接。儿童和成年人脑部最大的差别是,成年人经过长期的学习和思考,神经元之间建立了复杂的连接网络。这种词语的拓扑结构和大脑的拓扑结构之间的相似性,不是偶尔,而是同一个复杂的逻辑化的拓扑网络数据结构和算法的硬件版本和软件版本,它们在一定程度上是同构的,并且这个逻辑结构可以使用逻辑电路实现。

这预示着,自然语言通过拓扑网络完成了数学化、算法化和程序化,也预示着类脑计算通过继承、兼容自然语言的路径和方法有望实现机器意识