数字时代用户界面-李开复
数字时代用户界面-李开复
主讲人简介
李开复,美国微软公司副总裁,是语音识别技术方面的专家。1961年出生于中国台湾,1972年随母亲迁往美国。毕业于哥伦比亚大学,后毕业于全球最有名的计算机研究大学——卡内基梅隆大学,获得博士学位。80年代末加盟苹果公司,曾连续三年得到权威刊物的最佳科技奖。1997年担任微软亚洲研究院院长。2000年调入微软总部担任副总裁。
内容简介
从1985年,PC的应用是从DOS到Windows。在以后的十年之内,有了Windows,有了Internet的发展,带来了多视窗的、链接的图形功能,这些就是在用户界面上的一大革命。
现在我们用的图形用户界面就是所见即所得,看到它就能用它,是靠鼠标等基础之上做的用户界面。
可是当我们进入了网络时代,应用软件就会有越来越丰富的内容。随着我们工作的增多,放在屏幕上,让我们看到所有可以做的功能,已经不适应如今高节奏的工作状况,这个时候所见即所得的图形用户界面就会碰到一个瓶颈,而依靠语音技术的发展产生的自然用户界面将帮助我们解决这一难题。
将来,我们的电脑不仅仅是一个工具,而是一个得力的助手,你可以和你的手中的电脑讲话,而电脑也会理解你的意图帮你完成各项工作。语音可以说是惟一共通的表达的方法,无论你有没有鼠标,有没有键盘,只要有语音就可以。未来的用户界面究竟将会怎样?敬请关注由语音技术为您全新打造的《数字时代的用户界面》。
全文
谢谢各位同学大家好!回到北京真振奋,尤其看到这么多中国的年轻朋友。今天我很高兴有机会来介绍一下在 Digital Decade(数字十年) ,在用户界面上会有一些什么样的机会?我们都知道,从1985年PC的开始,它的用户界面是一个很简单的 Dos Command Interface(Dos 命令用户界面),我们要靠人去强迫地记得怎么和计算机来做一个沟通。那么在后来的十年之内有了Windows、有了Internet的发展,带来了Menus(菜单) ,多视窗的Internet带来了 Hyperlink(超链接) 链接的图形的功能,这些就是所谓的图形用户界面。这是在用户界面方面的一大革命,图形用户界面就是所见及所得,What you see is what you get,它是靠了BitmapDisplay(位图显示),靠了鼠标,靠了Internet的一些标准,在这基础之上做的用户界面。它的原理就是,我们能用眼睛看到的一些用户界面的 Element(内容),我们看到了它,我们就能够去用它,我用了它就会执行工作,这样一个理念之下,它是非常好用的。因为对于人们来说我能看见我就能用它是非常直观的,尤其是一些很常用到的功能。比如说Windows 的Tool Bar(Windows工具栏),我常常用它,它就老在我的机器上出现,我就可以直接地去使用它,所以这是它的好处。所以Frequent action 常用的动作在图形用户界面特别好用,因为它就在你面前,你一按事情就发生了。
但是当我们进入网络时代,进入Web Service(Web服务)时代,未来的应用软件会有更丰富的内容,这个时候所见即所得就不够好了。因为我们能做的功能太多了,不是一个可以放在屏幕上,让我们可以看到所有可以做的功能,所以这个时候图形用户界面就会碰到一个瓶颈。我们继续往后发展,未来的Digital Decade(数字十年),有三个很大的趋势:第一个是XML带来的一种格式,第二个是Web Service(Web服务),让我们能够把整个Internet当做一个操作计算的环境,让我们编程能够从手表一直到服务器上都可以使用,第三是Smart devices(智能设备),很聪明的设备,从手表、电视、电话一直到每一样能接电的东西,它都是一个计算的工具,都是一个可以使用软件平台的工具,都是一个可以上网的工具。这就是为什么我们在Digital Decade(数字十年)这么振奋的理由。但是进入了Digital Decade(数字十年),在网上有无限的有格式的有架构的这个XML的数据,在网上有无数的网络服务,你可以在网上订花、买书,可以在网上两个公司做彼此的交流,订货你可以在网上做无比的事情,任何你想做的事情都可以把它当做一个Web Service(Web服务),Web Service(Web服务) 可以彼此来沟通,那么Web Service(Web服务)也需要和人来沟通。所以在这么丰富的Web Service(Web服务),这么丰富的 XML的环境之下,我们需要一个新的用户界面,因为我们不可能把所有可能的想要做的工作,所有有可能的Web Service(Web服务) ,所有的XML的格式,都用图形用户界面显示在你面前。因为电脑和网的功能变成无限的,所以你不可能在有限的屏幕上,显示所有可以做的工作。所以图形用户界面将达到一个瓶颈。
另外Smart Devices,智能化的设备,不是每一个设备都有屏幕的,电话没有屏幕。我们怎么用图形用户界面,电话没有键盘没有鼠标,我们如何去用图形用户界面?所以又是一个理由。图形用户界面将达到一个瓶颈,我们认为未来用户界面的发展,应该是从自然语言语音。比如说墨水或者让电脑更像一个Tablet,一张纸,甚至有一天更像一个Personal assistant 得力的助手。我们常说的就是在Digital Decade(数字十年),我们希望将来的电脑能够并不只是一个工具,而是一个得力的助手。这就是所谓的Natural user interface(自然用户界面), Natural user interface(自然用户界面),如果说 Graphical user interface(图形用户界面)是What you see is what you get, Natural user interface(自然用户界面) 就是Do what I mean ,我想要做什么,我就告诉你,你就帮我做了,那么它是基于technology(技术) ,我们刚刚提到的有很多Device(设备),Natural user interface(自然用户界面)要能在各种设备上运行,有 XML,所以Natural user interface(自然用户界面)要能够利用有格式化的东西,有架构的东西,有序的东西, Web Service(Web服务)所以它要能够在Web Service(Web服务)或者是类似的。NET这样的环境,在多平台的从电话从手表一直到服务器上面能够执行。好我们需要这样的一个用户界面,我们希望它能够是Do What I Mean(按照我的意愿去执行 ) ,那Do What I Mean是怎么代表的呢?当我们想做一件事情的时候,无论是我要送一束花给我太太或者是我想知道怎么把一些地址打印成为一些Address Label(地址栏),才可以寄信。或者是我想知道在Word里面,有一个表格,我想把它一分为二,这些事情怎么去做呢?这些事情它们在我们人的脑海里是怎么出现的,它是靠自然语言出现的。
我们人来描述每一件我们想做的事情,我们的意愿都是用人的语言,是用一串字来代表的。所以这一串字,如果我们能够把冒到我们脑海的这串字直接告诉电脑让它去执行,这个应该是最直观的,最自然的最容易使用的一个用户界面。这样的一个用户界面是自然的,因为人的语言是多年来人类发展的,可以说是人类的工程,是我们人类多面演变之后达到的一个人类沟通的一个特别好的工具,这就是语言。这个语言是很自然的,因为我们都会语言,所以我们不需要学习,所以我们可以在更多的设备上,让更多没有接触过电脑的用户在这个Smart Device(智能设备)上使用这个自然用户界面。
第二,Scalable(可扩展性),语音可以说是惟一一个用户界面的方法,它可以在各种不同的 Smart Device(智能设备)上使用,因为无论你有多大Screen(屏幕),无论你有没有键盘,有没有鼠标,语音都可以使用。它不局限于需要一个荧幕或者是一个键盘,或者是一个鼠标。那最后呢,它的表达力Expressiveness非常的丰富,我们可以用语音讲一句话或者用语言代表一句话,我们可以说现在我不接电话,直到我演讲为止,或者我说现在我不接电话,直到我演讲为止,除非是比尔·盖茨打来,这样的一句话。用图形用户界面绝对不可能表达,所以我们需要语言的丰富的语言才能够表达这样的意愿。自然用户界面有这么一句话,Gordon E. Moore(戈登-摩尔)曾经说,他是一个有革命性的一个能力,他让你能够自然地和电脑讲话。那么电脑呢,会理解你说的是什么意思,在你的一个Context (内容)之中知道你说什么意思,Gordon E. Moore(戈登-摩尔)大家都知道,是英特尔(Intel)的创始人之一。也是有名的摩尔定律的创始人,伟大的计算机方面的很有贡献的创始人——Gordon E. Moore(戈登-摩尔)。
他说过这样的一句话,是在2002年接受美国总统奖章的时候说的,那我举一句话是什么意思呢?因为可能有人会怀疑,是不是语音的技术,是不是语言的技术能够足够地成熟,能够足够地达到真的是Do What I Mean(按照我的意愿去执行 ) 这种地步,能不能达到?我们都知道Moore’s Law(摩尔定律)告诉我们每18个月,计算机的速度会变快,会翻一番,会变快一倍。那语音方面呢?语言的理解呢?
这个就是在 GordonE·Moore(戈登-摩尔) 参加美国总统奖章授予的时候,他说的一个新的定律,叫做超级摩尔定律。超级摩尔定律就是告诉我们的是不但计算越来越快,越来越便宜,而且技术越来越好,语音的技术我们可以去衡量。它的犯错率,今天语音识别的技术的犯错率,和人的犯错率大家可以看到,大约还有一个数量级的差别。但是如果我们把历史拨回去十年或二十年,我们发现每一年我们都可以完全地期望语音识别比前一年更好10%,也就是说去年它如果犯100个错,今年就只犯90个错,明年就会只犯81个错。照这样数量的下降呢,肯定有一天,自然语言的识别自然语音的理解,会达到人的能力,人的语音识别的精准度。语音识别当然比较复杂一点,不是说计算机快了,就自然而然的就好了,而这是一个组合,更快的计算机,更好的算法,加上更多的数据,促成了语音这个行业每年都有可以预期的10%的进步。所以我们可以确定地说在十年到二十年之内,计算机的语音识别会达到人的能力,这是非常振奋的一件事情,也就是说,我们只要继续努力的工作,自然用户界面一定有来到的一天,这只是语音,当然还有很多技术,也是基本上在这个原理上每年比前一年做得更好。
现在我想讲的是在自然语言方面的处理,将有什么样的一个计划。我们的想法是这样的,我们当然有一天希望我们当然希望明天就能够到电脑上和它自然语言沟通,但是有很多很多的问题,一方面是技术,还要靠每年的进步,不是今天的技术,就能达到这种科幻小说上面的能力,这要经过十年或二十年的努力才能达到。第二个问题是人们并不习惯和它的电脑讲话,所以我们就算把这个能力做进去了,也不见得是能够被这个社会马上所接受的。第三,我们微软公司做平台的工作,我们深深地理解,平台不能够促使用户们的接受一个技术,需要应用软件才能够促使它的接受。所以,今天我们必须要让未来的语言语音进入了未来的应用软件,然后在平台上给它最好的支持,这样才有一天有希望能够做到。所以这就是为什么我们说Practical计划(实际的计划),我们不是梦想明天就可以跟电脑讲话,而且跟人沟通一样的自然,我们是一步一步地来,那这一步一步怎么来呢?
我们第一挑选最自然,最合理的一个启发点。语音我们就用电话来做,不要用PC来做,因为大家不愿意和电脑讲话,但是每个人都会对电话讲话。如果说我能够用语音的方法接电话,我就能够帮一个航线,帮中国航空公司,帮中国民航,它能够接电话告诉你你的航班几点抵达,甚至帮你订票。我可以帮一个股票经济商,帮你购买你需要买的股票,或者甚至问你要不要买某一个股票,也就是说,语音在电话上就像一个人和你对话一样,但是是机器在做的事情,但是因为电话是一个我们很自然愿意讲话的工具,人们就会更容易地接受它。
第二,我们不只是用讲话的,我们可以用打字的。我们有键盘,那在什么情况之下人们会用打字的方法输入自然语言在一个电脑里面呢?这有两个地方一个是Search(搜索),不管是网上的搜索引擎还是在电脑上面搜索您想要的档案,这都是搜索。或者是Help,帮助,这也挺有意思的。因为我们想要做一点事情,我在Word里我想知道怎么把一个表格一分为二?这句话现在是要人经过把这句话转换成图形用户界面来做它,但是人可能不知道怎么转换,但是当你不知道的时候,你就会打开Help(帮助),然后就问它,把这几个字打进去问它。所以这两个是非常合理地把自然语言处理的方法放进Windows平台里面,能够更好地支持搜索,能够更好地支持对用户的帮助。
我们非常实际地务实地一步一步来,在这两个 Speech for Telephone and Typing with Searching Help的方向呢,我们一步一步地来,把用户界面一步做得比另一步更好。但是我们的第一步,如果用户用完以后,并不觉得有自然用户界面,或自然语言处理的功能,我们并不沮丧,只要他认为说这个Search(搜索)越做越好,我们就挺开心的。我们再一步一步地往下做下去,另外我们并不是一个认为自然用户界面将取代图形用户界面。虽然在电话上你没有图形,那当然是可以取代的,但是在PC上面其实更合理的是应该用自然语言的方法,自然用户界面的方法,来辅助已存的图形用户界面,因为人们还是更习惯地用图形用户界面,他们不希望看到一个革命性的彻底的一个新的功能,或者一个新的用户界面。
第三,这个基础我们是用.NET来做的,所以这一整套系统我们是重新开发的。我回到美国总部之后呢,我们就在.NET的基础上用Visual Studio(可视化控件)来帮助我们的Developer (开发人员),能够把已存的应用软件加入语音的功能,加入自然用户界面的功能。我们在.NET Framework(.NET架构)上开发这一整套系统,我们利用XML Web Service(XML Web服务)能够让不同的系统能够彼此沟通。所以.NET对我们的用户界面是非常需要的一个低层的支持和技术,因为.Net可以在多种的设备上使用,所以我们也认为经过.NET我们可以在电话、电视机、汽车、 电器上都可以使用我们的自然的用户界面。所以我们怎么走这条路呢。
第一在Telephony上,就像我们刚才所说的,Text Speech(语音合成)、Speech Recognition(语音识别)、Dialogue(对话)也就是说人机对话的沟通,在PC上我们要做搜索,要做帮助。再下一步 Q&A(问与答),我有任何的一个问题我问你,你给我你的答案,这个问题可能是说我明天开会在什么地方,也可能是问一个比如说百科全书的问题,比尔盖茨财富到底有多少?我们能不能有一天做出这样的Q&A(问与答)的系统,这是一步一步来的,从左是时间的开始,到右边是未来的方向,那么刚开始你可以看到语音跟文字是分开的,但将来我会经过多通道用户界面,在任何的机器上它都可以支持语音手写体或者是打字输入,也可以从这些已有的这些功能,左边的这些功能做到Delegation, Delegation就是委托式的用户界面,也就是说我们用户我希望告诉我的PC,不是一步一步怎么做一件事情,而是最后我要得到什么样的结果,而我聪明的PC会帮我计划一步一步地完成它。还有Federation(联盟),就是说,我要求我的PC做一件事情,它不会做,但是它知道别的PC,或者别的Web Service(Web服务)可以做,它可以经过我委托它,它再委托别人去帮我做这件事情。再下一步Collective Agent(集中式代理),这个 Agent(代理)用户界面就是说不是我做用户来启动每一件事情,而是计算机可以主动地说,发生了什么什么事,你要不要怎么怎么做。比如说微软的股票超过四十块了,要不要卖,这个不见得是我人去主动地要求的,而是我很早地要求我得力的计算机助手帮我留意着微软的股票超到某一个程度,就要买或者要卖。当然把这个做好还需要Planning,也就是计划方面的工作。
我们举一些例子,用语音怎么做呢?打电话买一百股微软,好买了,这就是语音的一个对话。Dialogue(对话)我可以说买微软的股票,它会说要买多少股,我说一百股,这就是一个对话,我讲一句它讲一句,我讲一句,轮流的.从语音的角度来看呢,我们认为Smart Device(智能设备)跟语音是有非常大的关系的,因为今天我们可以把所有的设备分成这两个轴,从y的轴我们看到的是基本上是说它的Screen,它的显示器有多好.从x轴来说呢,我们说它的输入,比如说键盘或者鼠标有多好.当然PC是在右上方的,因为它有很大的Screen(屏幕),又有Keyboard(键盘), 又有Mouse(鼠标),电话是最差的,因为它又没有Screen(屏幕)又没有Keyboard(键盘)。其实呢,还有很多其他的设备,这些设备包括Tablet PC,PDA(个人数字助理),Screen Phone(可视电话),汽车或者TV,这些市场今天都比较小,但是很重要的是在下八年,到2010年的时候我们会看到的是 Screen Phone(可视电话) 和PDA(个人数字助理) 会越来越大。更多的汽车也会变成有计算的功能,也可以上网。更多的电视也会有计算的功能,也可以上网,而Tablet PC会成为更主流的技术。也就是说,有更多的平台,有更多设备的平台,上面是急需语音的一个输入的一个方法。我们在左下方,也就是说Screen(屏幕)非常糟的情况之下,那么语音呢,就可以不要理会它的 Screen(屏幕),我们直接语音对语音地(来)做一个对话。当你有一个小小的 Screen(屏幕)的时候,我们也许可以用(语音)的输入,而用图形的输出。所谓的 Multi Model(多模式),或者Commmnd and Control( 命令和控制),当我们Screen(屏幕)够大的时候,这个时候我就可以做听写了,因为听写需要做修改,修改的工作需要一个比较大的一个显示。所以上面的这些机器呢,比如说Tablet PC和语音的听写,是一个很好的结合,所以这几个是语音的很好的机会,那么下面我将做几个语音方面的演示。
第一个演示,我现在要打电话到美国,这是我们微软公司用SALT技术在用.NET技术和SALT技术做出来的一套系统,这套系统呢,我们将在中国的Visual Studio(可视化控件) 的比赛让中国的学生甚至比美国的学生更先能够有机会用到这方面的技术。在这个演示里面,你们会听到的是有一个很聪明的电脑代理,他会跟我有一段对话,那么我要他做一件事,它会做一件事,这套系统呢,是用Visual Studio(可视化控件)开发出来的,然后微软提供了很DialogueModule(对话模块),也就是说,开发者他编一个语音的系统。
--410155543
--您好,需要帮助吗?
--请帮我处理一下学院基金.
--给我申请表.
--您需要我把信以邮寄的方式还是Email的方式给您?
--Email.
--我已经把信发到您的Email里了.您需要我们找个业务代表帮助您填申请表吗?
--是的,谢谢.
--谢谢,我们马上就会与您联系.您有一封来自银行方面的告警信,您需要我们把它传给您吗?
--好的.
--请稍等.
--艾伦,您好!您有三笔帐单未付.首先是电费 $43.5,长途话费 $62.25,
DSL $31.52,您愿意付帐单吗?
--付电费和长途话费.
--电费和长途话费将在两天内交清,您还需要别的服务吗?
--不用,谢谢.
--请说“是”或“不是”或提出要求。您还需要别的服务吗?
--不是。
这就是我们的演示。在这个演示里你听到的是,我打电话到我的股票经纪商,那么我要求他,我希望理解怎么样去存钱,为了我的小孩的未来的教育,然后他就问了我很多话,最后决定把一些信息寄到我的Email Address里边。这个时候正好我的银行的有很多新的帐单要付,他就把我转换到另外一个部门。这个时候就有一位女士的声音出来,和我做了一个交谈,我决定把一些帐单付清了,另外一些帐单呢,还没有付清,这是这样的一个未来可以做到的一个交流的过程。我们预期这个产品应该在今年可以做完,所以在明年我们就可以看到很多的应用,让人们能更快地把一个已有的 .NET Application(.NET应用),加上语音。这个应用本来是在PC上在Web上应用的,它突然就可以帮你接电话了。
好,下面我要做的是一个另外的语音方面的演示。我们刚刚所说的语音呢,它有语音合成,还有语音识别。现在我要演示的是微软亚洲研究院的一个工作,大家都知道在亚洲研究院,语音是一个重点研究的项目。现在我要演示的呢,是一个语音合成。这套语音合成系统它最特殊的地方是,第一它非常的自然,第二它能够中文和英文混着说,而且是用同一个语音来说。让我们听听这个声音离人的声音还有多大的距离。
2003年2月27日,新一代软件技术展望大会在京召开,微软CEO兼CSA比尔盖茨先生将亲临现场与中国大学生面对面,盖茨先生将为微软亚洲研究院主办的微软杯XML Web Service(XML Web服务)学生软件开发大赛获奖团队颁奖,并做题目为Digital Decade(数字十年)的主题演讲。
好,谢谢。这个技术我们非常的自豪,我估计它的中文已经超过了我的中文的能力了,不过我的英文还比它好一点。
再下面我们所要看到的是我们在总部最近拍的一个 Video(录像)。也就是说,我们把一些技术,我们已做好的技术,在一些日常的环境上让大家更能理解语音它不是一个很玄的技术,是真的每天任何的一个人都有可能用到的。
--欢迎致电(自动化处方服务). 请说您的名字。
--简·赛门。
--请输入或说出您的个人标识号或者密码。
-- Connecticut
--欢迎,赛门夫人. 您需要重新填写还是修改您的处方?
--修改。
-- 您共有两个处方,您希望修改哪一个?
--Claro
--您的Claro处方将在一个小时内准备好。
--太好了。
--您今天还需要别的什么服务吗?
--是的。给我丈夫的手机打电话让他过来取处方。
--正在通知他.
--3月15日(周五)下午16: 15,811直达航班离开,3月19日(周二)下午13:30 831直达航班返回。您需要我现在就预定航班吗?
--对,预定航班.
--谢谢,我们将把您的电话转到旅游高级会员业务部门以便让您确认。
--您好。我的名字是迈克。您前往拉斯维加斯的航班已经按照您的意思预定好了。因为您是我们的高级会员,我们将给您一个特殊的折扣价,及包括晚餐和演出在内的娱乐服务,需要我更详尽地为您解释吗?
--呼叫我的秘书。
-- 欢迎到来,您说您的密码。-- 123。
-- 欢迎您,泰乐萨。需要帮助吗?
--为我的部门安排一次会议。
--请告诉参加会议的名单。
--有Rack Sherman(人名), Christine Constant (人名)和Mary Louise(人名).
--请告诉会议的主题.
--我们与约翰逊公司的合同.
--请告诉会议的地点
--在我办公室里
--请告诉会议的时间
--本周四下午2:00,会议将持续一个小时。
--Christine(人名)在会议日程上有冲突.
-- 无论如何请给他一个邀请,并告诉他这是紧急会议。回头再与我确认是否所有的参加者都能参加会议。
--还有什么别的我可以为您效劳吗?
--请查一下我的收件箱.
--您有四封信,其中有一封是急件.
-- 念给我听.
--泰乐萨先生.
--您好,这里是您的自动秘书,所有要求参加会议的人员都接受了邀请.
--太好了
--让我们求助于网络.
-- Bridge 大街16号发生火灾。
--告诉我们具体情形.
-最新的报告是,最严重的火灾破坏是再房间的西北角,在烟囱周围。这与火灾假设的起因相吻合。我的建议是接受这个声明。
-- 把别的照片发给火警报告中心,让火警报告中心的财产损失小组估算火灾损失,并通过Email给房主一个拷贝。
--我可以为你效劳吗?
--您好,这里是金融自动提醒服务,您是Mary Anderson(人名)吗?
--是的
--请说出或输入四位个人标识代码.
--5489
--谢谢。您付给了Atlantic(公司名)的代码为6233的帐单后将使您的帐户余额为负,需要我们激活您的帐户透支业务吗?
-- 不用,查一下我市场帐户的余额.
--您的市场帐户的余额为14862.70美元.
--从市场帐户转帐1000美元到我的主帐户上.
--转帐成功,您还有什么需要效劳的吗?
--谢谢,暂时没有.
--环宇航空公司.
--欢迎致电环宇航空公司自动服务中心,请说您的名字和个人标识代码.
-- Eric Williams(人名). 2323.
--您好,我可以为你效劳吗?
--我想要复查一下.
--告诉我您的航班号.
--5516.
--您对座位安排有什么特殊要求吗?
--我喜欢在前面的靠窗或走廊的座位.
--您现在看到的是符合您要求的剩余座位情况。
-- 9A可以吗?
--座位 9A 预定给了.
--您今天需要登记行李吗?
--是的.
--请前往B6窗口.
这个演示到此为止,就是我们认为在未来的电话上很多的机会,那么我们看到的每一个演示呢,它除了用电话交流之外,我们也看到的有些用手机它有荧幕,能够用的时候,它就利用到了它。我们也看到了有一个网页,网页上有一些字出现,当它讲话的时候,这什么意思,这就是在服务端,这个系统其实我们是用Web Service(Web 服务)做的。那么我们只是让人用电话能跟Web Service(Web 服务) 讲话,这个Web Service(Web 服务)上面的Form(组成),其实是看不到的,但是为了让大家理解,我们把Web(网络)跟 Telephone(电话)做在一起了,我们才做了这样特别的一个演示。
我们刚才曾经提到的,我们可以用Tablet PC,Tablet PC上面呢,做语音识别是很好的一个平台。原因是Tablet PC虽然手写满方便的,而且开会的时候也只能用手写,但是如果我们在自己的房间里,在有隐私的情况之下,手写的速度还是挺慢的。语音的输入可以说远远地超过了手写的速度,所以我们可以用语音输入,如果犯了错,我们可以用笔来做修正。现在我们做一个听写的这个演示。
--开始工作。
--亲爱的盖茨先生:
重新开始一段非常感谢您光临北京。北京是奥运会举办城市。今天我们很高兴有8000名来自北京各大高校的学生来欢迎您到来。
-----重新开始一段
——您的……(信件格式)
我们认为语音有非常多的地方可以有发挥的地方,在电话上是最主要的一个,但是在Tablet PC上, 在multi-model devices(多模式设备),在 Smart phone(智能电话)上都是很多的机会。
我们现在回到文本的输入,Text(文本)的输入,Search( 搜索)。我们今天当然知道Internet上,我们到Google(搜索引擎名),到MSN Search(搜索引擎名),到Yahoo(搜索引擎名) ,可以做简单的一些名词的搜索。但是未来我们搜索应该怎么做呢?未来很大的一个革命,是有结构化的内容, Unified Storge(统一存储),也就是说,XML不但很重要,我们将有承诺,在未来的Windows,下一个版本的Windows里面呢,用 XML,用有序的 Database(数据库)技术。数据库的技术来作为我们的 File system(文档系统),也就是说,我们每一个档案在我们的机器上,它都会是有序的,有结构的,也就是说,每一篇E—mail,我都知道是谁发来的,什么时候发来的,内容是什么,一些关键词是什么。也就是说,每一个Calendar(日程),每一个Appointment(约会) ,我和任何人开会,它都知道我在跟谁开会,在什么地方开会,几点开会,几点结束,然后内容是什么,要带什么东西,它都可以一个一个靠Database File(数据库文件)储存。当你一个整个 File System(文件系统) 的每一个档案,都有序的储存之后,我们就可以用自然语言,来做一个数据库的搜索。比如说我可以说我要找John(人名)寄给我的电子邮件,电子邮件的Subject(主题)是budget (预算),Find email form John about the budget(找John给我的有关预算的电子邮件) 他就应该可以直接把答案找给我。今天我们搜索E—mail非常困难,Help(帮助)得到帮助,我可以说My printer stuck( 我的打印机卡了),或者我想打彩色的打出来的是黑白的,这个时候它告诉我为什么,甚至如果是软件的问题,不是硬件的问题,它可以帮我修好。Task(任务),Ten thousand copies in Kinko’s Beijing(在北京的Kinko打印10000份),这个是一个很实际的例子,因为 Kinko(公司名)是我们的一个合作伙伴,Kinko(公司名)它有一个Web service(Web服务),Kinko(公司名)是美国打印的公司,它在北京也有一个分店,过去你都是要把你的文件带到店里面去,一份一份地影印,但是它现在做了一个 Web service(Web服务),你可以远程地去把一个文件寄给它。
Web service(Web服务)它有几个参数,我可以说我要把这份文件打一万份,我叫李开复,我的帐号是什么什么,或者我的信用卡号码是什么什么的,这都是一些有结构的东西,我可以靠Web service(Web服务)去传给 Kinko(公司名)。比如说盖茨先生来中国非常赶,然后他要印一万份东西,让每人有一份,那他在美国印了,捧这么重的东西过来的话,他的专机可能载不下。那他怎么办呢?他就可以说要打印一万份,而且在北京打印,在北京取货,下了飞机去取货,这样可以节省很多的时间,所以这就是所谓的一种 Task(任务)。当然 Task(任务)和Search 也很像,Search是要找一个东西要找一个结构的,Task(任务)是有一个结构的东西,但是我不是要找它,而是要把它抓起来当做参数去执行,所以这样的一个Web service(Web服务)应该很有用。
当然今天Kinko(公司名)还没有一个自然用户界面,所以你用表格的方法,Graphical user interface(图形用户界面)很繁杂的方法去做你的输入。将来我们可以用自然的用户的界面,写完一篇文章,我就告诉它在哪里打印,打印多少份,指令了之后,它就会做到。 Q & A(问与答)我可以问一个问题, What time will Bill Gates’ talk end?(盖茨的演讲何时结束),你可以告诉我3:55分,如果你有一个Calendar(日程),Calendar(日程)里有一个item(项目)叫Bill。Gates’ talk(比尔·盖茨的演讲),这个Calendar(日程)它是在3:55分结束,所以我问这个问题,它也可以有结构地去做一个 Database Request(数据库需求),就跟一个SQL Request(SQL语言需求)一样的,然后把答案显示给我看。Delegation and Federation(代理和联盟),这个是比较未来,可能是五年以后的一些scenario(景象),Send flowers to my wife on her birthday.太太过生日的时候送花,如果我能说每年送的话,以后就不会挨骂了。Pro-Active agent(主动代理)我可以告诉它,我有很重要的演讲,我不接任何电话,或者说除非是紧急的,除非是比尔·盖茨打来的,或者除非讲完了,这个时候如果你有一个很聪明的web service(web服务),它可以知道你这一秒钟在不在演讲,演讲紧不紧急,你接不接电话,什么电话是紧急的,谁是你的上司,它可以把这些信息都融合进去,能够主动地去帮你做一件事情。所谓的 Pro-Active(主动的),我吩咐它做一件事情,但是它不是马上做,而是一直延续地做下去,它帮我接所有的电话,一直到有一天我叫它不要接为止。Planning(计划)可能是说你要给它一个信息,而它要跟你做一个会话,对话之后它才决定最终你要做什么事情。比如说我要做 Planning(计划),第一步我想去欧洲度假,这时候它可能就问我要花多少钱,去什么国家等等的,怎么样做这样的一个Dialogue(对话),还是比较复杂的问题,比较未来的问题。但是我们很有信心,从上面用Speech(演讲)走,从下面由自然语言走,确实可以达到的。我们刚刚所说的Structural storage,这个XML ,甚至将下一代的XML由Windows来Native(本地化)直接支持用 SQL Database(SQL数据库)的功能。在Windows里支持每一个档案的XML这件事发生之后呢,所谓的很多例子都可以解决,让我们能够把左边的这些例子这些句子,这些自然语言转换成右边的SQL Query(SQL查询),这个其他的工作就很简单了。我们 SQL Database(SQL数据库) ,然后得出来的结果显示给你看,那就得了。所以我们认为非常的乐观的就是说将来当XML真的发展好了以后,世界上的数据更多更多的结构化的,这些结构化的数据呢,它其实是需要一个新的搜索的新的帮助的新的执行的一个用户的界面,让人们能够更流畅地和它来沟通。
现在我有一些显示,也是微软研究院,这个是微软美国研究院做的一个非常有趣的一个工作。它这套系统呢,可以回答任何的问题,世界上的事 它是无所不知,你可以问任何的问题,所以现在我问它一个问题,它现在做的工作是到网上去搜索,所有网上的无序的信息,然后它能把它有序地结构起来。它先用自然语言的方法把这句话,我的话就是问它说,有一个中国的篮球明星,他在美国休斯敦,打篮球,他叫什么名字?它就会把这句问题组合成各种不同的句子,然后到网上去问这个问题,它把网上得来的很多答案,每一个答案可以投一票,它最后投票最多的就是它的答案,所以它不是真的非常智能化的,但是姚明。
下一个问题,尼克松什么时候来过中国?这个问题其实满困难的,因为他来过很多趟.但是有历史性的那一次,也许应该是最合理的答案。我们看看这个系统怎么回答,这系统第一个做的呢就是分析句子的结构,用自然语言的方法把动词宾语等等提炼出来,然后来推测在网上如果有人答这句话,Visit China during什么什么,was in China during what what什么什么,去找这些句子,然后它把里面的答案在抽出答案来,看哪一些更符合When ,像是一个Data(数据)。它这个速度是比较慢的,因为它到网上去搜索各种的信息,1972正确。
当然为了避免大家认为我们这套系统是无所不知的,我也必须让它犯一个错。还好比尔已经走了,这个问题呢,希望他不会生气,我们看看他到底是跟谁结婚的,我们再等几秒钟答案就会见晓。因为这个系统其实没有真正的所谓人工智能,它是靠统计的方法得到答案的,所以它不能够真的知道一些人们非常理解的,很简单的一些 Commen Scence(常识),所以呢,你会看到它犯了一个错误。但是你可以看到这个例子还是比较有道理的答案,第一个答案是没有道理的,Microsoft(微软),就是因为Microsoft(微软)跟比尔盖茨Marry To(结婚)这两句短语常常在同样的时间出现,它就猜这个是答案,猜错了。他其实在夏威夷结婚的,所以那还是有道理的,第三个答案William.H.Gates ,它不知道比尔盖茨和William.H.Gates 是同一个人,所以就答了同一个答案。但是还好他的太太Melinda Gates第四个答案好歹还是出现了,我们回到Slide(幻灯片)。
所以最后我做一个总结,我认为在一个Digital Decade(数字十年)里面,非常需要自然的用户界面,因为有很多Smart Device,聪明的设备的出现,那只有语音才能够在任何设备。任何的屏幕,任何的键盘,有没有鼠标情况之下,都可以使用。而在Digital decade(数字十年)有 Structural storage,有结构的储存。所以我们既然有储存,储存的目的就是要搜索,就是要Retrieve(搜索),就是要Search(搜索)。那么自然语言是惟一的方法,可以去获取已存的有结构的信息。第三,Web Service(Web服务), Web Service(Web服务)是两个电脑彼此可以沟通,但是人们怎么去要求一个Web Service(Web服务) ,帮我买一束花,这个就要靠自然的用户界面。我也是深深地认为,自然用户界面,不是一个一天可以做到的一个革命性的东西,我们必须要一步一步来。先从最合理的,最自然的,人们最能接受的地方。比如说用语音用电话做,在PC上面呢,用 Search(搜索)和Help(帮助),是它第一个可以做的一个应用。但是我更深深地相信,在十年以后,当我们回顾我们会觉得自然用户界面真的是比图形用户界面更伟大的一次革命,谢谢大家!