1.柯洁被打败,中美人工智能的战争才刚刚开始吗?
2.SELF演讲实录 | 陈科:基因测序未来只需一千
3.水无常形——开源围棋 AI 软件 KataGo 安装使用指南
柯洁被打败,中美人工智能的战争才刚刚开始吗?
柯洁对战AlphaGo落败!5月日,中国著名围棋选手柯洁与AlphaGo的首场较量结束,经过手的博易大师顾比均源码激战,柯洁以微弱劣势输给了这款围棋人工智能。尽管AlphaGo在围棋领域取得了胜利,但中美两国在人工智能领域的竞争才刚刚开始。《纽约时报》曾报道,中美两国正进入人工智能的新一轮竞争,中国在技术发展上正迅速追赶美国。此外,《麻省理工评论》将百度、阿里巴巴的人工智能技术评为十大突破性技术之一,《财富》杂志也将百度与微软、谷歌、Facebook并列为人工智能领域的四大巨头。中国的AI发展得到了国际同行的认可,中美的人工智能之战才刚刚开始。
在智能终端领域,中美各大企业都在积极布局。亚马逊在智能家居领域处于领先地位,其智能音箱产品出货量超过万台,占据美国市场%的份额。谷歌则收购了Nest公司,推出了自己的智能音箱产品谷歌Home,并向第三方开发者开放,以此进攻智能家居市场。在中国,小米通过生态链模式孵化了家相关企业,其物联网平台拥有超过万的连接设备,APP日活用户超过万。百度也在陆奇的领导下大举进入智能硬件领域,收购了国内最大的智能硬件服务商“涂鸦科技”,并将度秘升级为事业部,度秘拥有与谷歌Home相同的语音对话能力,并已展开第三方合作。
在人工智能操作系统领域,各大企业都在努力整合自身技术,将语音识别、图像识别、自然语言理解等技术整合到操作系统中,以实现最强整合输出。微软、苹果和谷歌等国际巨头在操作系统领域有着先发优势,而百度、阿里巴巴和腾讯等中国企业在人工智能OS级别的布局能力也不容小觑。百度推出了DuerOS,并与多家企业达成合作,将各种智能服务覆盖至百度各个产品线中。阿里巴巴将操作系统押注在阿里云上,推出了YunOS系统,不断融合旗下投资的手机企业魅族、锤子以及第三方智能硬件。腾讯虽然曾推出手机OS,但未能成功,如今正通过微信小程序和独立搜索部门尝试打造微信OS系统。
在开源开放领域,各大企业都在努力吸引更多的bit 算法源码传统企业和智能硬件开发者接入自身的OS系统,以巩固自身地位,占领更多智能场景。特斯拉、微软和谷歌等国际巨头已对大量项目进行代码开源和平台能力开放,而百度和阿里巴巴在这方面做得相对较好。百度推出了“阿波罗计划”,开放无人车源码和能力,并在前沿技术领域进行开放。阿里巴巴则主要在服务器底层进行开放,主要集中于大数据挖掘和处理。
在商业变现领域,各大企业都在通过人工智能提升商业效率,并创造新的商业场景。DeepMind的AlphaGo虽然击败了人类围棋选手,但目前也在尝试进军医疗领域,寻找盈利的商业场景。谷歌和百度都采取了攻守兼备的策略,谷歌通过Alphabet架构分离盈利性业务和探索性业务,以便更好地探索新兴市场和商业场景。百度也在去年进行了组织架构调整,以更好地支持人工智能的发展。谷歌和百度在人工智能领域的对抗,成为了目前中美人工智能竞争的关键标志。
SELF演讲实录 | 陈科:基因测序未来只需一千
小时经常会有人说,陈科你长得这么像你爸爸;也会有人说,陈科,你像你妈妈多一点。那为什么会这样呢?学过生物的人都知道,因为我们的DNA,也就是碱基,一半来自爸爸,一半来自妈妈。毫无疑问,我们的面貌特征是他们结合以后的体现。实际上,不仅仅体现在面貌上,我们的身高,我们的胖瘦,还有我们自己是否容易患上某种疾病,都跟我们的基因是密切关联的。我们来看一张万人迷的照片。我想大部分人对他都不会陌生,没错,他就是贝克汉姆。他从我们基因组学的术语来讲是由1×^个细胞组成。每一个细胞从外到内,分别由细胞膜、细胞浆和细胞核三大部分组成。
所谓的细胞核,顾名思义就是核心,是细胞最主要的成分,细胞是构成生命世界中每一个有机体的基本单位。那么细胞的细胞核再往下分是什么样的状态呢?这就是刚刚黎耕老师讲到的,年的时候人类发现DNA双螺旋结构。所以由大到小观察,从细胞核、染色体,再到DNA。DNA是展会企业 源码最基本的单元,我们称之为碱基,它有ATGC四种类型。换句话说,我们是由这四种结构的DNA构成的。3.2×^9个碱基对,这就是我们人类基因组的DNA数目。
刚刚是从宏观到微观,从贝克汉姆到碱基DNA来进行观察;再反过来看看是怎样的过程?首先是四种DNA,最基本成分叫ATGC,他们形成一定的序列;再往上,有功能的序列我们称之为基因,基因与包含在基因周边的蛋白质,我们把它称为基因组;基因组构成了细胞核,细胞核是细胞的主要成分,细胞往上走,形成了器官,形成了系统;比如说我们的呼吸系统,血液系统,消化系统;到最后,贝克汉姆组装完毕,这就是由微观到宏观的过程。
这个过程的奇妙之处在哪儿呢?比如大家可能会问基因是什么、有什么作用?我们的生物学教科书里面有这样一个所谓的“中心法则”,从碱基或者说DNA开始,到RNA,到蛋白质,这个过程最终的目的是形成蛋白质。孩童的微笑,情侣之间的眉目传情,我在这里讲,您在下面听,所有的动作都是我们的蛋白质在执行功能。
DNA如此重要,它被称之为我们生命的源代码,这个源代码给予我们所有的活动,这些活动都能够回溯到DNA上去,因此我们可以从DNA中找到某种问题的原因,来解释它。
正是因为基因组的重要性,人类科学家开始联合起来进行研究。在上个世纪年代,确切来讲是年,以美国和英国为首的遗传学领域科学家们联合起来发起了人类基因组计划,这个计划简称叫HGP,由六国科学家组成。
当时计划用年的时间,测序一个人的基因组。为什么要花这么长的时间呢?因为我们基因组的大小是3.2×^9个序列,而且其中%以上是基因间区。换句话说它里面有很多的重复序列,这种重复序列的存在导致了我们想把它从3.2×^9的过程完全弄清楚是不太容易的。
人类基因组计划从年开始启动,到年,美国总统先生说我们完成了人类最伟大的计划之一,再到现在,这个版本已经更新到了第版,最新更新时间是年月。我们预计它的更新还会持续,只能说更新幅度越来越小,owncloud源码修改我们离真相越来越近。
自从人类基因组计划启动之后,相关测序产业也是蓬勃发展,直接作用就是我们可以了解更多物种的基因组是什么样子。到现在为止,有将近一万个物种已经有了自己的基因组。
不做基因组的人可能不太清楚,总统先生和黑猩猩有多少相似度?刚才猜测%、%、%、%的人都有,事实上是%。那么从基因组学这个角度来看,当我们认为自己多么与众不同时,多少显得有点滑稽。我们和猩猩的差别其实只有1%。而且,从更大范围来看,我们人类的基因组并不是最大的,我们的基因数目也不是最多的;最大的基因组来自于日本一种植物;这个表格中,平常不起眼的玉米,大概有5万个左右的基因,多于人类的2万个基因。中国人和美国人的基因相差只有0.1%,而我和你.%的基因都是一样的,差别不大。但是,回过头来要记住,因为它的基数是3.2×^9,你去乘基数之后,也就得到了^4到^5之间的差异。
我们经常会听到,不管是肿瘤也好,糖尿病也好,心脑血管疾病也好,经常都可以找到基因突变跟某一个疾病有关联的。但是请大家一定注意,很多情况只是一种关联,关联不是因果。因果是说,我和我老婆的存在,导致了我女儿的出生;而关联不是因果关系,只是一个随带的关系。比如我女儿碰巧上了这家幼儿园,她上这个幼儿园是一个关联,而不是因果。就像前面提到的一样,基因突变很多时候是一个关联;它并不可怕。而且我刚刚说了,哪怕我们.%相似,只有万分之一的不同,但是基数足够大。每个人,比如我们从爸爸妈妈继承的基因突变,每一代大概是个,这是有据可循的,而且这个里面大部分来自于父亲的贡献,有的遗传学家就此认为,其实进化的辅助登录源码动力来自于父亲,因为它显现了更多突变,更有可能给后代带来基因的多样性,更有可能使得后代与众不同。
正是因为基因组学的如此重要,在人类基因组计划之后,全世界范围的科学家并没有放弃追逐。当时的人类基因计划研究对象只有一个人,但是一个人太少了,每个人都不一样,因此便有了后来的千人基因组计划,我们检测一下黄钟人,再测一下黑色人种,白色人种,每一个人种,不管是中国人,还是日本人,虽然差别可以缩小到十万分之一,但是它的数目还是足够大的。
所以千人基因组计划出台后,我们今后在使用的时候,在序列比对的时候,可能不用再去比人类基因组计划中的HG(人类基因组计划的第版),而是比对我们自己的,比对我们中国人群的,比对我们中国南方人群里面某一个亚系的人群基因组,这样才更有可能找到:我突变了什么?我哪种疾病爆发的可能性更大?这就是千人基因组计划的初衷。
后来,为了把一直困扰人类的癌症解释清楚,世界范围内的两大组织,分别是加拿大领衔的国际癌症基因组联盟和美国人领衔的癌症基因组图谱,用基因组学方法去测序某一个类别的肿瘤。
比如说肾癌,他们选择了多名肾癌患者来测序它的基因组,分析哪些肾癌产生了突变,哪些突变跟愈后相关联,哪些药物针对哪些突变,然后对患者后续治疗做指导。
美国人领衔的计划(TCGA)在去年结束,加拿大领衔计划(ICGC)现在还没有结束。但是毫无疑问,不管是白种人,黑种人,还是我们黄种人,我们人类最主要的肿瘤基本上都测序结束了,这就导致大量数据的产生。
我们知道一个U盘大概有十个G,乘以倍是个T,再乘以倍是个P。而我们研究所里面数据储存远远高于这个,因为数据无时无刻不在产生,这样的数据量意味着我们需要更大容量,需要更大的容器来把它装下来,不然我们没有办法去比对它,没有办法很好地使用它。而这也导致了所谓的生物大数据的出现,大到了T级,大到了P级。
在大数据的应用方面,精准医学的出现毫无疑问对大数据是最好的回馈。因为花了那么多的钱,十几个国家的科学家投入研究,十几年的时间,数百亿美金的投入,对我们人类产生了如此多的数据,我们不用它岂不变成了垃圾?其实精准医学并不仅仅是美国总统在年和年曾经提到,在这之前,在我们中国,在我们中国科学院,在美国以外的地方,很早就有人提出来精准医学,因为需要针对每个人的基因背景,针对每个人蛋白背景来做个性化的裁减,来做个性化的治疗,这就是所谓的精准医疗,形象点来说,就是哪里坏了修哪里,这是最好的想法。
这是精准医学在癌症领域的应用。我展示的这个流程图是以肝癌为例的整个精准医疗的流程。术前影像显示有个肿块,影像结果出来之后,大部分患者会选择做手术。手术之后我们会进行一个病理学的判断,诊断肝癌到哪一级,哪一期;并且对这样的手术样本进行基因组学建库,建库以后进行基因组学测序,测序之后进行分析,分析以后会由董事会(咨询委员会)坐下来讨论这个患者的基因背景是什么样的,哪些突变可能是致病的,哪些不是主要的突变,董事会(咨询委员会)里面会包含至少四类人员,包括生物信息学家、遗传学家、临床大夫、病理医生。讨论结束后,我们针对这些可用的突变频谱进行验证,验证结束之后我们会对患者进行报告。比如肝癌,已有的病理学分析到了哪个层面,现在基因组分析到了哪个状态,现在有哪些药可以用,哪些是针对患者的。这样的报告就是精准医学最直接的体现。
在国外,精准医疗已经在顶尖医院应用了大概5年左右的时间,但是精准医疗并没有完全的铺开,我们中国才刚刚起步。但是中国人从来都是勤奋的,国外需要一个月完成的流程,在我们中国天就可以搞定。
讲一个故事,这个故事的主角是华盛顿大学的一个助理教授,他自己做白血病研究。不幸的是,年的时候,他自己得上了白血病。按照以往的方法进行了化疗,但是5年过后病情复发,他移植了弟弟的骨髓,可是好景不长,三年之后他再次复发,而这个时候癌症基因组学的进展处在一个高峰阶段,癌症基因组学发现他有一个基因异常高表达,而且靶向药物可以治疗这个异常高表达基因。这里有一点特别强调的是,这个靶向药物其实是治疗晚期肾癌的。换句话说,他用治疗肾癌的药物治疗了白血病,那么现状如何呢?最近的资料显示他还活着。这是一个幸运儿,从开始治疗到现在已经过去了十二三年的时间,对于白血病患者来说,这是一个奇迹,对于肿瘤基因组学应用来说也是一个非常令人振奋的消息。
另一个例子与糖尿病有关。这位长者是斯坦福大学的教授,他自己也是做遗传学研究的,他的故事于年发表在Cell期刊--这是我们生物学研究人员最梦寐以求发文章的地方,可以理解为顶级期刊。他的故事讲到,在多天的时间里,他分个时段采集自己的血液做基因组的分析,他发现自己存在二型糖尿病的风险,这个风险值大概0.5左右,这个时候他就有点着急了,就像之前我们在网络上看到过的那样,安吉丽娜·朱莉因为家族罹患乳腺癌和卵巢癌的风险过大,就把乳腺全部切除了。当这位教授知道自身血糖升高之后,就开始进行行为干预,此后血糖降了下来。对于他来说精准医学是一个成功案例,因为它成功的延缓了自己糖尿病的进展,很有可能让自己的糖尿病发生时间延后,甚至不发生。
这是两个经典例子:一个是癌症,一个是糖尿病。这么好的例子,我们大部分人支付的起吗?答案是肯定的。年的时候,每个人做基因组测序的花费是亿美金,到了今天变成了一万元人民币,时间成本和人力成本直线式下降,年变成天,人力成本从三千人变成了三到五个人就能够搞定。所以现在一万块钱就可以测一个人的基因组,在今年年底这个费用还会继续下降,业界最终目标是一千块钱测一个人的基因组。也许5年左右的时间,我们可以用手机APP查看自己的基因组,享受生物大数据、基因组学数据、精准医疗带给大家的普惠,当然,在一定程度上,先期时候还是需要付费的。
正是因为生物数据的如此复杂多样,它的层次除了DNA,RNA,还有蛋白质,还有更多层面,这么多的数据,作为一个大夫来讲不可能完全记得的。对于我们绝大部分民众来说也没有必要记这个事情,因为有人替我们去做。
以IBM为代表的商业机构推出了所谓的电脑医生平台,这个平台最大的特点就是在秒之内搜索百万级别的文献,并给出一个相对合理的治疗方案。其中诊断阶段,治疗阶段,每个方案都有参考文献,不是凭空而来的,够强大吧?可能有人会担心,最后我们去医院看病可能医生不见了,可能被电脑替代了。事实上我可以很明确的告诉大家,不论今后怎么变,大夫必不可少,因为电脑所做的事情虽然如此强大,能够在秒内给出答案,但是这个答案仍基于已有的数据库,它没有推断的能力。
当然,如果说基于AlphaGO能够击败李世石这件事情,可以认为人工智能存在无限可能,但是至少从目前来看,电脑医生只是一个供人们搜索和检索的数据库,而不是一个具有推动、推算、推演能力、有逻辑思维能力的真正的人。所以大家想象的,到医院去对着一台机器说话,然后他告诉我去哪里检查,然后给我抽血、做按摩、做手术,这还需要很长的时间,但不能说绝对没有可能。
既然精准医疗是如此好的东西,为什么没有广泛推广?除了之前提到的费用原因,就我们国内状况来看,还有以下几个方面是需要进一步打破壁垒。
因为精准医疗是新事物,所以在监管层面还有很多东西没有理顺,没有一个真正条文规定告诉该怎么做,这是第一个方面。
第二个方面,对于患者来说,或者是对患者家属来说,他们非常想参与进来,但他们不知道有什么途径可以了解相关的信息。比如我把测序仪买回来,测序结果出来以后,医院也不会分析;如果我们依靠第三方机构,问题又来了,第三方机构鱼龙混杂,难以取信;甚至我们经常可以在街边巷尾看到这样的兜售行为,说给你家孩子测个基因,看看他未来适合做科学家、艺术家,还是适合当教师。这些到现在为止,因为我们的数据库不够强大,市面都是一些虚假的广告。
第四个层面,是目前还没有一家第三方机构能够把我前面提到的四种认证专家集中起来做这件事情,因为这个行业还处于起步阶段,还有很多需要完善的地方,但是曙光已经出现,今后的可能性很大。
我们人类从有史以来,死亡原因一直在变迁,多年前我们绝大部分的祖先都是因为饥饿和战乱而死亡,到了上个世纪上半叶,感染性疾病,西班牙流感,给人类留下巨大创伤,我们今天读教科书的时候仍然心有余悸;到了上个世纪下半叶,心脑血管疾病,癌症成为死亡的主要原因,有一些科学家医学预测,当我们解决这些问题之后,在即将到来的未来,神经系统疾病将成为我们人类即将消亡的原因。基因组学能够解决所有问题吗?答案是否定的。因为我们每个人的基因只有一套,但是基因上面所修饰的,所依附的,所被黏附在上面的分子是多种多样的。
时至今日,生命的天书已经被打开了,我们期待它给我们带来不一样的应用,最终造福于我们人类的健康,为我们人类谋更大的福祉,谢谢大家。谢谢中科院青促会对我个人成长的资助!
出品:中国科普博览SELF格致论道
登陆“SELF格致论道”官方网站获取更多信息(/)。本期视频也将陆续在中国科普博览上推出,敬请关注。更多合作与SELF工作组self@cnic.cn联系。
水无常形——开源围棋 AI 软件 KataGo 安装使用指南
KataGo是一款由David J. Wu开发的围棋软件,它借鉴了DeepMind的AlphaGo Zero与AlphaZero论文中的研究,并在训练速度上进行了大幅改进,成为目前世界顶级的电脑围棋软件之一。其名字来源于日语“かた”,寓意通过强化学习永久训练自己并完成形式的人工智能。 KataGo相比AlphaGo的优势在于使用方法。用户通过命令行输入指令,KataGo以文本形式输出分析结果。对于非专业用户来说,掌握这些指令较为困难。因此,需要一个图形用户界面作为中介,将用户的棋谱转化为命令,将KataGo的输出转化为可视化的棋盘。常见的图形用户界面包括KaTrain等工具。 此外,KataGo提供了四个后端版本供用户选择,分别是OpenCL、CUDA、TensorRT和Eigen。根据不同的硬件配置和需求,用户可以选择最适合的后端版本以优化性能。 在安装KataGo之前,需要确保显卡驱动程序已经安装。对于TensorRT后端,还需要额外安装CUDA和TensorRT。以下是KataGo的安装步骤:前往KataGo的源代码库编译或下载主程序。
下载权重文件,并将其复制到KataGo文件夹中。
使用命令行自动生成配置文件,根据提示设置规则和参数。
对于那些希望简化安装过程的用户,可以尝试使用KaTrain这样的All in One工具。KaTrain提供了一个集成的界面,使得使用KataGo变得更加容易。 如果您希望深入了解KataGo的高级使用方法,可以按照以下步骤进行:在KataGo文件夹中使用命令生成配置文件。
自动生成配置文件时,根据提示设置规则和参数。
对于自定义配置文件的编辑,您可以按照特定的规则和参数进行修改,以适应您的需求。例如,您可以在规则部分选择特定的规则,调整是否允许认输,以及设置线程数以优化性能。 最后,为了提供更直观的分析结果,您可以使用图形用户界面工具,如Sabaki,与KataGo配合使用。通过设置界面参数,您可以查看胜率图、变化树等信息,以便更好地理解AI的分析结果。 总之,KataGo是一款强大的围棋软件,通过适当的选择后端版本、安装配置文件和使用图形用户界面工具,您可以在不同的硬件环境中优化其性能,从而获得更深入的围棋分析体验。