in

人机共生

人与计算机的共生关系

关键点

  • 人与计算机的共生关系是人类与电子计算机之间合作互动的预期发展。
  • 计算机将完成艰苦的工作。
  • “机械延伸”已经被替代。

j. c. r. licklider

ire transactions on human factors in electronics,

volume hfe-1, pages 4-11, march 1960

摘要

人与计算机的共生关系是人类与电子计算机之间合作互动的预期发展。它将涉及人类和电子合作伙伴之间非常紧密的耦合。

主要目标是1)让计算机促进形成性思维,就像它们现在促进解决问题一样,以及2)使人与计算机能够在没有对预定程序的死板依赖的情况下合作决策和控制复杂情况。在预期的共生合作中,人类将设定目标,构造假设,确定标准,并进行评估。

计算机将完成那些需要做的可例行性工作,以为技术和科学思维中的洞察力和决策做准备。初步分析表明,共生合作将比单纯依靠人类能够更有效地执行智力操作。实现有效的合作关联的先决条件包括计算机时间共享、存储组件、存储组织、编程语言以及输入和输出设备的发展。

1 引言

1.1 共生关系

无花果树只能由昆虫短毛无柄果蜂传粉。昆虫的幼虫生活在无花果树的子房中,并在那里获取食物。树和昆虫因此紧密依赖:树不能在没有昆虫的情况下繁殖;昆虫不能在没有树的情况下进食;他们一起不仅构成了一个有生命力的合作伙伴关系,而且是一个富有成效和蓬勃发展的伙伴关系。这种合作“密切结合的两个不同生物体之间的亲密关系,甚至是紧密结合”被称为共生关系[27]。

“人与计算机的共生关系是人机系统的一个子类。有很多人机系统。目前,还没有人与计算机的共生关系。本文的目的是通过分析人与计算机之间的一些交互问题,提出适用的人机工程原理,并指出一些需要研究答案的问题,希望能够呈现这个概念并促进人与计算机的共生关系的发展。

希望的是,在不久的将来,人类大脑和计算机将被紧密地联系在一起,而由此产生的合作伙伴关系将思考,而没有任何人类大脑曾经思考过,并以一种信息处理机器无法企及的方式处理数据。

1.2 在“机械延伸人”和“人工智能”之间

作为一个概念,人机共生与诺思[21]所称的“机械延伸人”有一个重要的区别。在过去的人机系统中,人类操作员提供了倡议、方向、整合和标准。系统的机械部分只是人类手臂和眼睛的延伸。这些系统当然不是由“不同的有机体共同生活…”。只有一种有机体-人类,其余只是为了帮助他。

当然,在某种意义上,任何人造系统都是为了帮助人类,帮助系统外的一个或多个人。然而,如果我们集中关注系统内的人类操作员,我们会发现在技术的某些领域,在过去几年里发生了巨大的变化。 “机械延伸”已经被取代,被自动化,剩下的人更多是为了帮助而不是被帮助。

在一些情况下,特别是在大型计算机为中心的信息和控制系统中,人类操作员主要负责无法自动化的功能。这些系统(北方可能称之为“人类延伸机器”)不是共生系统。它们是“半自动”系统,最初旨在实现全自动,但未达到目标。

人机共生可能不是复杂技术系统的终极范例。似乎完全可能,在适当的时候,电子或化学“机器”将在我们现在认为属于人类大脑职权范围内的大多数功能上胜过人类大脑。甚至现在,gelernter的ibm-704程序在证明平面几何定理方面的速度与布鲁克林高中学生相当,并且犯类似的错误[12]。

实际上,有几个定理证明、问题求解、下棋和模式识别程序(太多了,不完全引用[1, 2, 5, 8, 11, 13, 17, 18, 19, 22, 23, 25]),能够在有限的领域中与人类智力表现相媲美;newell、simon和shaw的[20]“通用问题求解器”可能消除一些限制。简而言之,似乎值得避免与(其他)人工智能爱好者争论,承认在远大的智能未来中,机器独占主导地位。

然而,在一个相当长的过渡期内,主要的智力进步将由人类和计算机在紧密合作中取得。一个多学科研究小组,研究空军未来研究和发展问题,估计到了1980年,人工智能的发展将使机器独立地进行重要军事思考或解决问题成为可能。

那将留下五年的时间来发展人机共生,15年的时间来使用它。这15年可能是10年或500年,但那些年应该是人类历史上最具创造力和令人兴奋的。

2 人机共生的目标

现代计算机主要设计用于解决预先制定的问题或根据预定的程序处理数据。计算的过程可以根据计算过程中获得的结果进行条件判断,但所有的替代方案都必须提前预见到。(如果出现了一个未预料到的替代方案,整个过程就会停止,并等待程序的必要扩展。)

预制或预定要求有时并不是一个很大的劣势。经常有人说为计算机编程可以迫使人们思考清晰,有助于训练思维过程。如果用户能够预先思考好问题,与计算机的共生关系就不是必需的。

然而,许多问题即使能够预先思考,也是非常困难的。通过直观引导的试错过程,与计算机合作可以更容易地解决这些问题,并且可以更快地解决,因为这样可以发现推理中的缺陷或者揭示解决方案中的意外转折。

其他问题根本无法在没有计算机辅助的情况下制定出来。庞加莱曾经预见到一类重要潜在计算机用户的挫败感,他说:“问题不是‘答案是什么?’问题是‘问题是什么?’”人机共生的主要目标之一是将计算机有效地引入技术问题的制定环节。

另一个主要目标与此密切相关。它是要将计算机有效地引入到“实时”思维过程中,即时间过于紧迫,无法以常规方式使用计算机。例如,试想用计算机在如此繁忙的日程安排下指挥一场战斗。您今天制定了问题。

明天您与程序员一起工作。下周,计算机花了5分钟来组装您的程序,用47秒来计算您的问题的答案。您得到了一张20英尺长的纸,上面写满了数字,这些数字不是提供最终解决方案,而只是提供了一个应该通过模拟进行探索的策略。显然,在计划的第二步开始之前,战斗就已经结束了。

要像与能够补充自己能力的同事一起思考一样,与计算机的交互思考将需要比示例所示的以及今天可能的更紧密的人机耦合。

3 计算机参与制定和实时思考的需求

前面的段落默认地假设,如果数据处理机器所能执行的功能能够有效地引入思考过程中,那么它们将以重要的方式改进或促进思考和问题解决。这个假设可能需要证明。

3.1 对技术思维的初步和非正式的时间运动分析

尽管有大量关于思考和问题解决的文献,包括对发明过程进行细致案例研究,但我找不到与科学或技术企业中从事人员的心智工作进行时间运动学分析类似的资料。因此,在1957年的春季和夏季,我试图跟踪一名技术人员在他认为是投入工作的时间里实际做了什么。尽管我意识到样本的不足,但我自己是研究对象。

很快就明显地发现,我主要的工作是记录,如果按照最初的计划进行详细记录,这个项目将变成无限循环。但事实并非如此。然而,我获得了一幅关于我的活动的画面,让我停下来思考。也许我的情况并不典型 – 我希望不是,但我担心是。

我“思考”的时间中,大约85%的时间都花在了为了思考、做决定、学习所需知识而做准备上。获取或寻找信息所花的时间要比消化信息的时间多得多。我花了几个小时来绘制图表,还有几个小时用来指导助手如何绘制。当图表完成时,关系立刻变得显而易见,但必须绘制图表才能使它们变得如此。

有一次,需要比较六个实验测定的函数,这个函数将语音可懂度与语音信噪比相关联。没有两个实验者使用了相同的语音信噪比定义或测量方法。需要进行几个小时的计算才能将数据转换为可比较的形式。当它们处于可比较的形式时,只需几秒钟就能确定我所需要的知识。

总的来说,在我研究的这段时间里,“思考”的时间主要用于基本上是文书工作的活动:搜索、计算、绘图、转换、确定一组假设或假设的逻辑或动态结果,为决策或洞察做准备。此外,我选择尝试和不尝试的决策在很大程度上取决于文书可行性而不是智力能力。

上述发现所传达的主要建议是,填满所谓技术思考时间的操作,这些操作在机器上比人类更有效地进行。这些操作面临的问题是,它们必须在多样的变量上进行,而且在不可预知和不断变化的顺序中进行。

然而,如果这些问题能够以一种方式解决,以创建人与快速信息检索和数据处理机器之间的共生关系,那么合作互动将极大地改善思考过程。

在这一点上,可能适当地承认,我们使用“计算机”这个术语来覆盖广泛的计算、数据处理和信息存储和检索机器。这个类别机器的能力几乎每天都在增加。因此,对这个类别的能力做出一般性陈述是有风险的。

也许对于人的能力做一般性陈述也同样有风险。然而,人和计算机之间的能力差异在某些基因型上是显而易见的,它们对人机共生和实现其潜在价值的性质有影响。

正如以各种方式所说,人类是嘈杂、窄带的设备,但他们的神经系统有很多并行和同时活跃的通道。相对于人类,计算机非常快速和准确,但它们只能同时执行一个或几个基本操作。人类具有灵活性,能够根据新接收到的信息“有条件地编程”。

计算机是单一思维的,受其“预编程”所限。人类自然而然地使用围绕着单元对象和连贯动作组织的冗余语言,并使用20至60个基本符号。计算机则“自然地”使用非冗余语言,通常只有两个基本符号,对单元对象或连贯动作没有内在的理解。

为了严谨正确,这些描述需要包含许多限定词。尽管如此,它们所呈现的不相似(因此潜在的互补)的形象基本上是有效的。计算机可以迅速、良好和快速地完成许多对人类来说很难或不可能的事情,而人类可以迅速、良好地完成许多对计算机来说很难或不可能的事情,尽管不快速。

这表明,如果成功地将人类和计算机的积极特征整合在一起,它们之间的共生合作将具有巨大的价值。当然,速度和语言上的差异会带来必须克服的困难。

预期的共生关系中人类和计算机的四个可分离功能

在许多操作中,人类操作员和设备的贡献可能会完全融合在一起,以至于在分析中很难将它们清晰地分开。例如,在收集基于决策的数据时,如果人和计算机都从经验中找到相关的先例,然后计算机建议一项与人的直觉判断一致的行动方案,那就是这种情况。(在定理证明程序中,计算机会在经验中找到先例,在sage系统中,它们会建议行动方案。上述情况并不是牵强的例子。)然而,在其他操作中,人类和设备的贡献在某种程度上是可分离的。

至少在早期,人类将设定目标并提供动机。他们将制定假设。他们将提出问题。他们将思考机制、程序和模型。他们将记得,某个人在1947年或二战后不久关于感兴趣的主题做了一些可能相关的工作,并且他们知道可能在哪些期刊上发表了这些工作。

总体上,他们将作出近似和有缺陷但引领性的贡献,并且他们将定义标准并充当评估者,评判设备的贡献并指导思维的整体方向。

此外,当这种情况确实发生时,人们将处理极低概率的情况。(在当前的人机系统中,这是人操作员最重要的功能之一。极低概率替代方案的概率总和通常太大而不能忽略。)当计算机在特定情况下没有适用的模式或例程时,人们将填补问题解决方案或计算机程序的空白。

信息处理设备将把假设转化为可测试的模型,然后根据数据对模型进行测试(当计算机呈现数据供人操作员批准时,人操作员可以粗略地指定数据并确认其相关性)。

设备将回答问题。它将模拟机制和模型,执行过程,并将结果显示给操作员。它将转换数据,绘制图形(以人操作员指定的任何方式“切割蛋糕”,或者如果人操作员不确定自己想要什么,可以选择几种方法)。设备将插值、外推和转换。

它将将静态方程或逻辑陈述转化为动态模型,以便人操作员可以检查其行为。总体而言,它将执行填充决策之间的间隔的可例行性文书操作。

此外,当有足够的基础支持正式统计分析时,计算机将作为统计推断、决策理论或博弈论机器,对建议的行动进行基本评估。最后,它将尽可能多地进行诊断、模式匹配和关联识别,但在这些领域中,它将接受明显次要的地位。

实现人机共生的5个前提条件

前一节中假设的数据处理设备目前尚不可用。计算机程序尚未编写。实际上,非共生的现状和预期的共生未来之间存在着一些障碍。让我们检查其中一些,以更清楚地了解需要什么以及实现的机会有多大。

5.1 人和计算机之间的速度不匹配

任何现代大型计算机对于与一个人进行实时合作思考来说都过于快速和昂贵。显然,出于效率和经济的考虑,计算机必须将其时间分配给多个用户。分时系统目前正在积极开发中。甚至有一些安排可以使用户只能“破坏”自己的个人程序。

可以合理设想,在未来10到15年的某个时间,将现代图书馆的功能与信息存储和检索的预期进步以及本文前面提出的共生功能合并到一个“思考中心”中。

这个图景很容易扩大为一个这样的中心网络,它们之间通过宽带通信线路相连,并通过租用线路服务与个体用户相连。在这样一个系统中,计算机的速度将得到平衡,并且巨大的存储器和复杂的程序的成本将被用户数量分摊。

5.2 内存硬件需求

当我们开始考虑将任何大量技术文献存储在计算机内存中时,我们会遇到数十亿位和数十亿美元的问题,除非情况有明显改变。

首先要面对的是,我们不会将所有技术和科学论文都存储在计算机内存中。我们可能只存储可以最简洁地概括的部分-定量部分和参考文献,而不是整个文献。

书籍是现有的最精美和人工设计的组件之一,并且在人机共生的背景下,它们将继续发挥重要的功能。(希望计算机能够加快找到、提供和归还书籍的过程。)

第二点是,一个非常重要的存储部分将是永久性的:一部分是不可磨灭的内存,一部分是已发表的内存。计算机可以将信息写入不可磨灭的内存,并且可以无限次地读取,但计算机无法擦除不可磨灭的内存。(它可以进行覆写,将所有的0变为1,就像覆盖先前写入的内容一样。)已发表的内存将是“只读”内存。

它将被结构化地引入计算机。计算机将能够反复引用它,但不能改变它。随着计算机越来越大,这些类型的存储将变得越来越重要。它们可以比磁芯、薄膜甚至磁带存储更紧凑,并且价格更低廉。主要的工程问题将涉及选择电路。

就其他内存需求方面,我们可以依靠普通科学和商业计算机的不断发展。有一些迹象表明,内存元件的速度将与处理(逻辑)元件一样快。这一发展将对计算机的设计产生革命性影响。

5.3 内存组织要求

人机共生的思想中,信息必须通过名称和模式进行检索,并且必须通过过程比串行搜索快得多的方式进行访问。至少有一半的内存组织问题似乎存在于存储过程中。其余大部分问题似乎与存储机制或介质中的模式识别问题有关。对这些问题的详细讨论超出了目前的范围。

然而,对一个有前景的想法“trie内存”的简要概述,可以说明预期发展的一般性质。

所谓的“trie内存”是由其创始人fredkin [10]命名的,因为它旨在促进信息的检索,而且分支存储结构在开发时类似于一棵树。大多数常见的存储系统将参数的函数存储在由参数指定的位置。(从某种意义上说,它们根本不存储参数。从另一种更现实的意义上说,它们在内存的框架结构中存储了所有可能的参数。)然而,trie内存系统同时存储函数和参数。

首先,参数逐个字符地从一个标准初始寄存器开始,依次被引入到内存中。每个参数寄存器对应于集合中的每个字符(例如,对于以二进制形式编码的信息,对应于两个字符),而每个字符单元中都有存储空间用于存储下一个寄存器的地址。通过写入一系列地址来存储参数,每个地址告诉下一个参数的位置。参数的末尾有一个特殊的“参数结束”标记。然后是函数的指令,函数可以以一种或多种方式存储,最常见的是使用前缀树结构或“列表结构”。

对于小内存来说,前缀树内存方案效率低下,但随着内存大小的增加,它使用可用存储空间的效率也越来越高。这个方案的吸引人之处在于:1)检索过程非常简单。给定参数,将第一个字符输入到标准初始寄存器中,并获取下一个字符的地址。

然后转到第二个寄存器,并获取第三个字符的地址,依此类推。2)如果两个参数的初始字符相同,则它们将使用相同的存储空间来存储这些字符。3)参数的长度可以不同,也不需要事先指定。4)在存储器中没有为任何参数保留或使用任何空间,直到实际存储参数为止。前缀树结构是随着项目被引入到内存中而创建的。5)一个函数可以作为另一个函数的参数,而该函数又可以作为下一个函数的参数。

例如,通过输入参数“矩阵乘法”,可以检索到在计算机上执行矩阵乘法的整个程序。6)通过检查给定级别的存储器,可以确定到目前为止已存储的类似项。例如,如果没有egan, j. p. 的引用,那么向后退一两步就可以找到egan, james的痕迹。

刚刚描述的特性并不能包含所有所需的特性,但它们使计算机存储与人类操作者的共鸣并与他们通过命名或指向来指定事物的倾向相一致。

5.4 语言问题

人类语言和计算机语言之间的基本差异可能是实现真正共生的最大障碍。然而,值得安慰的是,通过解释性程序和特别是通过类似fortran的汇编或编译程序的努力,已经取得了巨大的进展,以使计算机适应人类语言形式。

肖、纽厄尔、西蒙和埃利斯[24]的“信息处理语言”代表了另一种和解的途径。在algol和相关系统中,人们通过采用标准的表示和表达公式来证明他们的灵活性,这些公式很容易转化为机器语言。

然而,为了实现人与计算机之间的实时合作,还需要使用一种额外且相当不同的通信和控制原则。通过将通常针对智能人类的指令与通常用于计算机的指令进行比较,可以突出这个思想。

后者准确地指定了要采取的各个步骤及其顺序。前者则表达或暗示了有关激励或动机的内容,并且它们提供了人类执行指令的参考标准,以便执行者知道何时完成任务。简而言之:针对计算机的指令指定了步骤,而针对人类的指令指定了目标。

人们似乎更自然、更容易以目标而不是步骤的方式思考。当然,他们通常了解要前往的方向或要沿着哪条线工作,但很少有人从一开始就具体制定好行程。

例如,谁会为前往洛杉矶的旅程详细规定路径呢?相反,用维纳的话来说,前往洛杉矶的人会不断尝试减少自己还没有处于雾霾中的距离。

通过指定目标进行计算机指令有两种方式。第一种是通过问题解决、攀登山峰和自组织程序来实现。第二种是通过实时连接预编程的段和封闭子程序,人类操作员可以通过名称指定并调用它们。

在第一种方法中,已经进行了有希望的探索性工作。显然,在预定的策略宽松限制下,计算机将能够设计和简化实现既定目标的程序。到目前为止,这些成果并不具有实质性的重要性;它们只构成了“原则上的示范”。然而,其影响深远。

尽管第二种方法更简单,而且似乎能够更早地实现,但它却受到了相对忽视。弗雷德金的字典存储器提供了一个有前途的范例。我们可能会在适当的时候看到一个严肃的努力来开发能够像语音中的单词和短语一样连接在一起执行任何计算或控制任务的计算机程序。

似乎阻止这种努力的考虑是,这种努力所产生的东西在现有计算机的背景下并没有太大的价值。在没有任何能够有意义地响应该语言的计算机之前,开发这种语言将是毫无回报的。

5.5 输入和输出设备

就人机共生的要求而言,与数据处理部门相比,与输入和输出设备相关的工作似乎进展最慢,从人的操作员的角度来看,这涉及显示和控制。

在说完这一点后,需要做出一些限定性的评论,因为高速引入和提取信息的设备工程是相当出色的,并且在林肯实验室等研究实验室中已经开发出一些非常复杂的显示和控制技术。

但总的来说,在一般可用的计算机中,几乎没有任何更有效、更直接的人机通信方式,除非使用电动打字机。

显示器似乎比控制器的状态要好一些。许多计算机在示波器屏幕上绘制图形,并利用了字符管显示管的出色能力,无论从图形还是符号的角度来看。然而,据我所知,没有任何地方能接近铅笔和涂鸦本或黑板和粉笔在技术讨论中使用时的灵活性和便利性。

1)桌面显示和控制:显然,为了有效的人机交互,人和计算机需要在相同的显示屏上绘制图形和图片,并相互写下笔记和方程式。人应该能够通过绘制图形,以一种粗糙但迅速的方式向计算机呈现一个函数。

计算机应该能够读取人的手写文字,也许在要求必须以清晰的大写字母写出的情况下,并且应该立即在每个手绘符号的位置上发布相应的字符,以便进行解释并放入精确的字体中。有了这样的输入输出设备,操作员将很快学会以机器可读的方式书写或打印。他可以组合指令和子程序,将它们设置为适当的格式,并在最终引入计算机的主存储器之前检查它们。

他甚至可以像吉尔摩和萨维尔(14)在林肯实验室所做的那样定义新的符号,并直接呈现给计算机。他可以粗略地勾画出表格的格式,并让计算机精确地绘制出来。他可以更正计算机的数据,通过流程图指导计算机,并且通常可以与之进行交互,就像与另一位工程师进行交互一样,只不过这位“另一位工程师”是一个精确的绘图员,一个快速计算器,一个记忆力高超的巫师,以及其他许多宝贵的合作伙伴。

2)计算机发布的墙面显示:在一些技术系统中,有几个人共同负责控制相互交互的车辆行为。某些信息必须同时向所有人呈现,最好是在一个共同的网格上,以协调他们的行动。其他信息只与一个或两个操作员有关。

如果所有信息都在一个显示器上显示给所有人,只会造成混乱的无法解释的杂乱。这些信息必须由计算机发布,因为手动绘图速度太慢,无法及时更新。

刚刚概述的问题即使在现在也是一个关键问题,并且随着时间的推移,它似乎肯定会变得更加关键。几位设计师相信,借助闪烁灯和基于光阀原理的时分共享观看屏幕,可以构建具有所需特性的显示器。

根据大多数思考这个问题的人的观点,大型显示器应该配备个人显示控制单元。后者将允许操作员在不离开自己位置的情况下修改墙面显示。

为了某些目的,操作员能够通过附加显示器甚至通过墙面显示与计算机进行通信将是理想的。至少有一种提供这种通信的方案似乎是可行的。

大型墙面显示及其相关系统当然与计算机和团队合作有关。实验室实验证明,通过参考大型情景显示屏协调活动的操作员非正式并行排列,比普遍使用的将操作员放置在个人控制台并通过计算机协调他们的行动的排列具有重要优势。这是需要进行仔细研究的几个操作员团队问题之一。

3) 自动语音生成和识别:人类操作员和计算机之间的语音通信有多么可取和可行?每当讨论复杂的数据处理系统时,这个复合问题都会被提出。与计算机一起工作和生活的工程师对其可取性持保守态度。

在自动语音识别领域有经验的工程师对其可行性持保守态度。然而,与计算机交流的想法仍然引起了持续的兴趣。在很大程度上,这种兴趣源于人们认识到几乎不可能让军事指挥官或公司总裁脱离工作去教他们打字。如果计算机直接由高层决策者使用,可能值得以最自然的方式进行沟通,即使代价相当大。

对其问题和时间尺度进行初步分析表明,公司总裁只会对与计算机的共生关系感兴趣作为一种娱乐。商业情况通常变化缓慢,有时间进行简报和会议。因此,计算机专家直接与商业办公室的计算机进行交互似乎是合理的。

另一方面,军事指挥官在短时间内做出关键决策的可能性更大。夸大十分钟战争的观念很容易,但依靠超过十分钟来做出关键决策是危险的。

因此,随着军事系统地面环境和控制中心的能力和复杂性的增长,计算机中实现自动语音生成和识别的真正需求似乎有望出现。当然,如果设备已经开发、可靠且可用,它将会被使用。

就可行性而言,语音生成相对于自动识别语音声音而言,技术问题不那么严重。商用电子数字伏特表现在逐位朗读其指示。贝尔实验室、皇家工学院(斯德哥尔摩)、信号研究与发展机构(基督城)、哈斯金斯实验室和麻省理工学院的邓恩[6],范特[7],劳伦斯[15],库珀[3],史蒂文斯[26]及其同事们已经展示了连续几代可理解的自动发言者。

哈斯金斯实验室的最新工作已经导致了一种适用于计算机使用的数字代码的开发,使自动语音能够发表可理解的连贯话语[16]。

自动语音识别的可行性在很大程度上取决于要识别的词汇量以及必须与之一起工作的说话者和口音的多样性。在几年前,贝尔电话实验室和林肯实验室展示了对自然语言言的十进制数字的98%正确识别率[4],[9]。

为了提高词汇量,我们可以说基于现有知识,几乎可以确定地开发出能够识别清晰发音的字母数字字符的自动识别器。由于未经训练的操作员至少可以像经过训练的操作员一样快速阅读,这样的设备将是几乎任何计算机安装的方便工具。

然而,要实现真正的共生水平的实时交互,可能需要一个大约2000个单词的词汇量,例如1000个基本英语单词和1000个技术术语。这是一个具有挑战性的问题。在声学家和语言学家的共识中,现在无法构建一个包含2000个词的识别器。然而,有几个组织将愿意在五年的时间内开发一个自动识别这样一个词汇量的设备。他们将规定语音必须是清晰的、口述风格的,并且没有特殊口音。

虽然详细讨论自动语音识别技术超出了当前的范围,但值得注意的是,计算机在自动语音识别的发展中起着主导作用。它们为当前一些领域的乐观主义提供了推动力。

两三年前,似乎认为在十年或十五年内不可能实现大规模词汇量的自动识别;它必须等待更多关于语音传播中声学、语音、语言和心理过程的知识的逐渐积累。

然而,现在,许多人认为在计算机处理语音信号的帮助下,加速获得这些知识的可能性,并且很多工作者认为即使没有太多实质性的语音信号和过程知识的帮助,复杂的计算机程序也能够表现得很好,作为语音模式识别器。

将这两个考虑因素结合起来,将需要实现实际意义的语音识别的时间估计缩短到可能是五年的时间,正如刚才提到的那五年。

参考文献

[1] a. bernstein and m. dev. roberts, “computer versus chess-player,” scientific american, vol. 198, pp. 96-98; june, 1958.

[2] w. w. bledsoe and i. browning, “pattern recognition and reading by machine,” presented at the eastern joint computer conf, boston, mass., december, 1959.

[3] f. s. cooper, et al., “some experiments on the perception of synthetic speech sounds,” j. acoust soc. amer., vol.24, pp.597-606; november, 1952.

[4] k. h. davis, r. biddulph, and s. balashek, “automatic recognition of spoken digits,” in w. jackson, communication theory, butterworths scientific publications, london, eng., pp. 433-441; 1953.

[5] g. p. dinneen, “programming pattern recognition,” proc. wjcc, pp. 94-100; march, 1955.

[6] h. k. dunn,“the calculation of vowel resonances, and an electrical vocal tract,” j. acoust soc. amer.,vol. 22, pp.740-753;november, 1950.

[7] g. fant,“on the acoustics of speech,” paper presented at the third internatl. congress on acoustics, stuttgart, ger.;september, 1959.

[8] b. g. farley and w. a. clark,“simulation of self-organizing systems by digital computers.” ire trans. on information theory,vol. it-4, pp.76-84;september,1954

[9] j. w. forgie and c. d. forgie,“results obtained from a vowel recognition computer program,” j. acoust soc. amer.,vol. 31, pp. 1480-1489;november,1959

[10] e. fredkin,“trie memory,” communications of the acm,sept. 1960, pp. 490-499

[11] r. m. friedberg,“a learning machine: part i,” ibm j. res. & dev.,vol.2, pp.2-13;january,1958.

[12] h. gelernter,“realization of a geometry theorem proving machine.” unesco, ns, icip, 1.6.6, internatl. conf. on information processing, paris, france;june, 1959.

[13] p. c. gilmore,“a program for the production of proofs for theorems derivable within the first order predicate calculus from axioms,” unesco, ns, icip, 1.6.14, internatl. conf. on information processing, paris, france;june, 1959.

[14] j. t. gilmore and r. e. savell,“the lincoln writer,” lincoln laboratory, m. i. t., lexington, mass., rept. 51-8;october, 1959.

[15] w. lawrence, et al.,“methods and purposes of speech synthesis,” signals res. and dev. estab., ministry of supply, christchurch, hants, england, rept. 56/1457;march, 1956.

[16] a. m. liberman, f. ingemann, l. lisker, p. delattre, and f. s. cooper,“minimal rules for synthesizing speech,” j. acoust soc. amer.,vol. 31, pp. 1490-1499;november,1959.

[17] a. newell,“the chess machine: an example of dealing with a complex task by adaptation,” proc. wjcc, pp. 101-108;march,1955.

[18] a. newell and j. c. shaw,“programming the logic theory machine.” proc. wjcc, pp. 230-240;march,1957.

[19] a. newell, j. c. shaw, and h. a. simon,“chess-playing programs and the problem of complexity,” ibm j. res & dev.,vol.2, pp. 320-33.5;october,1958.

[20] a. newell, h. a. simon, and j. c. shaw,“report on a general problem-solving program,” unesco, ns, icip, 1.6.8, internatl. conf. on information processing, paris, france;june, 1959.

[21] j. d. north,“the rational behavior of mechanically extended man”, boulton paul aircraft ltd., wolverhampton, eng.;september,1954.

[22] 0. g. selfridge,“pandemonium, a paradigm for learning,” proc. symp. mechanisation of thought processes, natl. physical lab., teddington, eng.;november,1958.

[23] c. e. shannon,“programming a computer for playing chess,” phil. mag.,vol.41, pp.256-75;march,1950.

[24] j. c. shaw, a. newell, h. a. simon, and t. o. ellis,“a command structure for complex information processing,” proc. wjcc, pp. 119-128;may,1958.

[25] h. sherman,“a quasi-topological method for recognition of line patterns,” unesco, ns, icip, h.l.5, internatl. conf. on information processing, paris, france;june,1959

[26] k. n. stevens, s. kasowski, and c. g. fant,“electric analog of the vocal tract,” j. acoust. soc. amer.,vol. 25, pp. 734-742;july,1953.

[27] webster’s new international dictionary, 2nd e., g. and c. merriam co., springfield, mass., p. 2555; 1958.

接下来是…

Written by 小竞 (编辑)

他们称呼我为小竞, 做作为河小马的助理有5年时间了,作为jingzhengli.com的编辑,我关注每天的科技新闻,帮你归纳一些现有科技以及AI产品来提升你的生产力,拥抱AI,让科技和AI为我们服务!