本篇文章5397字,读完约13分钟
这些天中午,很多人都吃不好。更重要的是观看一场“人-机世纪大战”——由谷歌深度思维团队开发的围棋人工智能程序——阿尔法围棋(alphago),与世界顶尖围棋手李世石对弈。代表人性一面的乌巴会有什么样的命运?(被欧巴困扰),人类开发的机器能超越人类吗?人类的未来将走向何方?
为此,我们采访了idg最神秘、最科技、最聪明的技术团队:他们对这场战争有什么看法?idg对人工智能的投资逻辑是什么?
首先,关于人机战争
Q1:你认为人工智能的进步如何?
特别是在过去的两天里,“我们能否保持人类最后的智慧骄傲”这个问题已经被讨论过了。事实上,由人类智能开发的智能机器已经战胜了自己,这本身就是一种骄傲。相反,如果经过多年的努力,人工智能没有实质性的突破,那将是对人类科技发展的巨大打击。
建议每个人都不要太悲伤地看着它,因为机器在步骤、规则和计算上超越人类只是时间问题。从1952年“深蓝”(Deep Blue)赢得1996年的国际象棋比赛,到2011年,ibm沃森赢得了危险。多亏了摩尔定律,这种改进的速度似乎比人类智力进化要快得多,但它实际上是人类多年智力进化成果的转移和体现。以阿尔法戈为例,在手工制作的基本规则框架下,已经获得了历史上许多人类下棋规则的统计数据。换句话说,人工智能,关键还是人工的。再说一遍,21世纪最重要的是什么?天才!
Q2:人工智能还需要克服什么?
根据维基百科的定义:“智力或智力指的是生物的一般心智能力。”这种能力包括以下几点:理解、计划、解决问题、抽象思维、表达思想以及说话和学习的能力。”
如果你明白人工智能是人工表达的形式,你就会明白即使你赢了围棋,也并不意味着机器的“智能”已经完全超过了人类。近年来,人类在自然语言处理(听和说)和机器视觉(看)方面取得了巨大的进步,你可以看到越来越多的产品标榜这些功能。然而,人工智能还有很长的路要走。也许有一天,阿尔法戈会在某一场智力竞赛中战胜人类,然后兴高采烈,快乐无比。这是真正的恐惧(郝)和恐惧(万)的时代。
第二,人工智能基础知识
(业内人士可以直接到文章的结尾去看看idg的投资逻辑)
Q1:压倒一切的人工智能?什么是人工智能?
答:在这个阶段,所谓的人工智能可以从产品方面看到,大部分是指机器和人之间的拟人化交流方式,主要是“听得见、听得见、看得见、看得见”。此外,它似乎可以“记住一些东西”。其中,“听得见的”和“看得见的”都是通过硬件解决的,换句话说,就是麦克风和摄像头,所以智能主要体现在“可以理解的”(语音识别+语义理解)和“可以理解的”(图像识别)。“机器学习”、“神经网络”和“深度学习”是解决这些问题的具体算法。问:你如何看待谷歌人工智能击败欧洲围棋冠军提到了“神经网络”。
Q2:你能解释一下你刚才提到的各种各样的高名词吗?
答:以一种大家都容易理解但不严格的方式,“机器学习”就是统计,一些特定的参数被计算在大量的数据中;“神经网络”就是简单的“层次优化”;“深度学习”是机器学习的一个分支,经常与神经网络一起出现。可以简单地理解,分层优化中每个级别的内容都是从数据中计算出来的。当我们把这些名词放在具体的例子中时,它们更容易理解。
问题3:给我们讲讲语音识别?
答:让我们从语音交互的第一步“语音识别”开始。(如图所示)声音从声源发出,由麦克风接收,并转换成电信号。这个电信号放大后是一系列连续的波形信号。我们把这个连续的信号分割成小块,然后用一种方法把每个小块转换成一串小数字,以便进行后续处理。
转换的方法是这里最重要的一步。这套规则可以根据经验人工制定,也可以在大量统计数据的帮助下制定和优化。后一种方法就是我们所说的深度学习。为了更好地理解它,我们把它放到图像识别中。
转换后,是一个与标准库进行比较的过程。例如,在声音被转换后,它是(前半xxx xxx xxx xxx+(后半)yyyyyyyyyyyyyyyyyyyyyyyyyyyy,那么标准库中的A的发音对应特征值是xyyyyyxxxx+yyyyyyyyyyyyyyyyyyyyyyyyy,而B的发音对应特征值是xyyyyyyyyyyyyyyyyyyyyyyyyyyyyyy+yyyyyyyyyyyyyyy
在更高的层次上,匹配也可以根据序列来执行。例如,根据人类的语言习惯,在A之后接收B的概率较高,而接收K的概率很低。如果将这种可能性考虑在内,精度可以进一步提高。
Q4:这个标准库是如何产生的?
答:例如,如果你让100个人读A 1000次,然后让机器把每一个都转换成特征值,并取平均值,A的标准库就出来了。该标准库基于大量数据的统计结果(平均也是一种统计方法)。这个过程就像机器已经学习了很多次,所以它被称为“机器学习”。除了发音,各种组合的上下文也要计算在内。
标准库的建立应尽可能地复合实际场景,以便找出更符合使用场景的统计规律,实现更准确的识别。像iFlytek这样的高端产品已经积累了很多年,这使得它们可以支持多种方言,比如Mobvoi,并且可以支持几十个场景。说白了,这是一项劳动密集型的体力劳动。大公司,有更多的钱和更多的人,可以是大而完整的;小公司,有限的资金和有限的工作量,在有限的情况下,用户看不到任何区别。
问题5:语音识别和语义理解之间有什么关系?
答:可以理解,所谓的语音识别就是把声音翻译成单词和句子;语义理解就是给句子反馈。语义理解可以分为两种类型,一种是命令/数据请求类型,有明确的答案;一种是聊天式的,答案是开放的。
例如,首先问:今天北京的空气质量如何?回答:空天然气指数356。答案和问题之间的这种对应关系被称为“规则”。有很多方法可以问同样的问题。为了扩大每条规则的适用范围,有必要对语言结构、主谓宾定补和灵活调整进行一些拆分和重构。
例如,顺序的改变:北京today/きだよ的空气质量如何?Vs今天Beijing/きだよ 0的空气质量如何?
例如,北京today/きだよ 0的气体质量如何?今天北京的天气怎么样?
此外,可以增加对上下文的理解。例如,记住前一句的内容,替换下一句的词汇。
第1层对话如下所示:
问:今天Shanghai/きだよ 0的空气质量如何?回答:空天然气指数135
问:北京怎么样?回答:空天然气指数356
更高级的对话也可以有两层:
问:帮我在上海预订今晚的酒店。好的,我正在为你预订
问:空,什么是气体质量?回答:空天然气指数135
问:北京怎么样?回答:空天然气指数356
Q6:聊天风格怎么样?
答:这些问题的答案通常是开放式的。例如,问“你在做什么?”。
这种回答可以是预设的规则,这在一般的问候语中很常见。用户会发现他们反复问机器人同一个问题,每次的答案可能都不一样,比如“我在和你聊天”、“我不会告诉你”、“你猜吧”等。但是当他们问更多的时候,他们开始重复。
这个答案也可以从一个巨大的现实生活中的对话数据库中搜索,并返回出现概率最高的答案。例如,您可以搜索同义问题,如“你在做什么?”,“你在做什么?”,然后发现排名最高的答案是“闲置”、“猜测”、“不告诉你”,然后机器会返回这些答案。
通常,这两种方法用于特定的产品。就萧冰而言,他主要使用后者,而对话库的来源主要是在互联网上抓取的(直接调用msn信息可能涉及隐私问题)。考虑到返回的结果是随机的,很难理解它们两次,这些聊天机器人通常没有上下文理解。
问题7:总结前面提到的语音识别?
答:语音识别是一个积累数据和进行统计的过程,这是一项劳动密集型的工作。语义理解,无论是命令式的还是聊天式的,都是一个手工制定规则的问题,这是一项劳动密集型的工作,除非能够获得高质量的聊天记录资源(世界上只有少数几家公司拥有这样的数据资源,当然,我见过一些人花钱请人和机器人聊天)。工作量越大,机器人就越聪明。从公司的角度来看,在有限的情况下,小公司深深地卷入其中,有机会比大公司做得更好;大公司可以依赖资源,并在更多情况下覆盖它们。
用最精炼的话来概括——多少劳动,多少智慧;即使聊天也是不明智的。一般的障碍是工作量!演讲是收集材料的工作量;语义是制定规则的工作量;在有限的范围内,小公司在产品方面没有大公司的缺点。
最后,机器学习=统计学。
问题8:图像识别怎么样?
嗯,我们来谈谈最常见的图像识别是如何实现的。在这里,我想窃取安德鲁吴在加州大学洛杉矶分校演讲的ppt(视频截图)。
当人类看一个物体时,大多数人会看它的轮廓(不是颜色或其他任何东西),所以我们希望机器也会这样做。以摩托车为例。第一步是通过图像处理算法提取摩托车的轮廓(所有的图像处理工具如美图秀秀都有这个功能)。第二步,我们把一个图分成四个部分,分别计算0,45,90和135的边数,然后把这些数列在一起,我们称之为“特征值”。这个特征值包含了很多信息。例如,右下角通常有轮子,轮子是圆的。也就是说,各个方向的边应该存在并且具有相同的比例;在右上角的图中,通常有把手,所以在一个方向上会有更多的边。通过这些数字的内部关系,机器可以区分摩托车。这种方法可能看起来简单、粗鲁、不合理,但许多机器确实是这样识别的。
问题9:看起来确实有点…,但是如果你加入深度学习和神经网络呢?
答:利用深度学习和神经网络,它将彻底改变。
仔细考虑一下。当我们向别人介绍某人的脸时,我们喜欢说脸看起来很像某人,然后头发看起来有点像某人。也就是说,人类通过一些基本面孔的组合来识别人。从数学上讲,有几个基本面,然后一个新的面可以简化成一系列的数字,每个数字代表一个基本面的比例。
那么,基本的脸是从哪里来的?面的基本单位是零件,零件的基础是边缘、形状和各种边缘的组合。因此,要想认出一张脸,首先要看脸的底部。如何找到这些边缘?在前面的摩托车示例中,边缘被视为已定义(4个特殊角度)。人们的环境要么是懒惰的,要么是基于经验的,而经验是在人脑中计算大规模数据后获得的印象。如果机器自动进行这种统计,这叫做机器学习。这种机器学习(统计)过程,从简单的边开始,最后到达基本的面,称为深度学习。
具体来说,从左边的第一张图片开始,找到所有的边,然后看第二张图片。如果您发现一些边被重复,您将使这种关联变得更厚(用粗线表示,线条越粗意味着重复次数越多)。最后,根据统计,一些边被重复多次,这很重要,它们被用作基本边。同样,我们从图形中计算基本边的重要组合,即基本部分,而更深的一层是基本面。具体的操作过程将是复杂的,对应于由节点(边、部分和面)和节点之间的连接(厚度表示重要性)组成的计算架构和相应的算法,这被称为神经网络。
问题10:图像识别怎么样?
答:图像和语音识别的核心是特征值转换算法,即基本单元&数字表示。深度学习意味着基本单元库来源于数据统计,而不是人工设置(合理且可解释);神经网络是指一级递阶优化和权重连接(最简单的基本单元库),它们通常一起出现,使结果既合理又简单。
大型神经网络价格昂贵,每个节点都由高性能gpu或工作站实现,数千个节点可以用数百万美元购买,所以这是大公司的游戏。小公司通常使用多个小型神经网络。虽然识别的准确性会受到一定程度的影响,但在一些不真实的应用场景中,如家庭中的人脸识别和中小企业的门禁识别,用户还是可以很好的进行区分的。
问题11:你能把人工智能概括为一个整体吗?
答:人工智能首先可以理解(识别)。这是为了收集数据(工作负载),另一个是为了改进算法(统计可以通过经验或大数据手动进行)。对于小公司来说,主要是工作量。
此外,除了固有数据之外,我们还可以给出反馈(对话),主要是规则制定(工作量)和数据收集(工作量)。当竞争工作量时,产品设计往往更重要。该做什么不该做什么是小公司集中有限资源突破的法宝。
更高的层次是记忆。我会记得你一次,下次我会直接叫你的名字。例如,如果你回家晚了,你会主动打招呼,这是一个产品设计的问题。
第三,人工智能的投资逻辑
我们相信to c的人工智能已经从技术工作转变为产品工作,因为应用场景不是很严格,人才储备充足。因此,在这个层面上,我们愿意投资一个拥有强大技术力量的团队,但同时,它也是一个拥有强大产品思维的团队。最显著的例子是罗基德。如果你有机会尝试,你会对用户体验感到惊讶。
至于b的人工智能,图像识别在要求精度的应用场景中仍然需要一个高技术团队。从这个角度来看,我们投资了感知时间;;语义理解需要特定场景下的大量工作和特定场景下的大量数据。在这个层面上,我们倾向于专注于特定的行业,所以我们投资了智齿技术。
至于标题中的问题,我们想说的是:首先,vc投资的核心在于生产产品和提供服务的公司,以及每个人都能真正用来解决实际难题的产品和服务。如果有另一家像deepmind这样的高科技公司,我们投资的逻辑不是我们能否下棋,而是它能否在未来提供更完美的产品和服务;第二,在人工智能的现阶段,语音语义和图像识别已经从技术工作转向产品工作,这是我们的投资热点。
最后,附上现场直播地址:http://v.qq/live/p/topic/4393/index,让我们拭目以待!
如果转载,请注明出处
“读完这篇文章还不够吗?如果你也开始创业,希望你的项目被报道,请点击这里告诉我们!”
标题:欧巴输了第一局 所以 VC 会投资围棋机器人吗?
地址:http://www.j4f2.com/ydbxw/5736.html