解析生物医学大数据,人工智能是最适用手段

2023-06-16 07:40:24 来源:科技日报

打印 放大 缩小

◎本报记者 张佳星


(相关资料图)

当前最核心的生物医学大数据问题是解决各种可测量的数据,包括遗传密码与表观表型之间的关系问题。我们知道分子水平的基因组学、蛋白质组学研究产生的数据量不计其数,近年来发展起来的表型组学研究也在不断积累数据量,我们会逐渐拥有大量的表观数据。那么这两大数据如何偶联?如此规模巨大、系统复杂的分析只能由人工智能来完成。

近段时间,人工智能大模型展现了强大的自然语义处理能力,再次掀起了人工智能的研究热潮。从图灵测试开始,机器人能否与人对话就被用作判断机器是否具有高级别认知智能的依据。大模型的建立,让人工智能距离通过图灵测试更近一步。

那么,当前的人工智能还有哪些潜力?在生物医学领域应如何更进一步发展适用的人工智能?科技日报记者日前对中国科学院院士、中国科学院生物物理研究所研究员陈润生进行了采访。

生物信息数据量大、维度广

记者:距离人类遗传密码被破译已经过了20多年,但似乎仍有很多健康问题难以解决,这是为什么?

陈润生:过去我们认为生物网络是“单色”的,或者说是单因素作用的。因为当时我们认为具有生命功能的分子只有蛋白质,遗传物质经过转录、翻译的过程转化为蛋白质,进而执行生命活动中的各项功能。

基于这样的认知,人类遗传密码的破译被理解为解读“生命天书”。将人类全部30亿个碱基序列全部测序完成,就能读懂这部“生命天书”,提纲挈领地搞清生命活动的运转体系,从而揭开所有健康的秘密,获得解决健康问题的手段。

但现在我们发现,生物网络不是“单色”的,生命活动的调控、抑制、互作中,还有核酸的参与。比如有些核酸序列也会发挥之前被认为属于蛋白质的功能,调控细胞活动。在承载人类遗传信息的30亿个碱基对中,还有很大一部分虽然我们读出了序列,但并不知道功能,它们在生命活动中究竟起到什么作用也没有被研究清楚。大量这样的区域被称为遗传物质的“沙漠区”……因此,当前对人类遗传密码的破译进程只走了解决健康问题过程中的一小步。

记者:既然生命活动这么复杂,是否需要更多的生物信息数据才有希望破解健康难题?目前需要充分利用的有哪些维度的生物信息学数据?

陈润生:这30年来,人类遗传密码的破译带动着整个生物医学领域内广泛的数据都成为了大数据。

生物信息学最早的研究对象是遗传密码,研究任务是对遗传密码进行收集、整理、存储、发布、分析和解释。现在数据更广泛了,生物信息学的研究从20世纪八九十年代创立时的无信息可用,到现在数据呈现海量、多维、异质化特征。比如通过电子病历大数据挖掘,我们可以得到很多重要信息。中山大学一些研究人员通过电子病历分析找到的科学结论被发表在了国际著名期刊上。又比如可穿戴设备带来的生理生化指标,这类信息具备实时、环境情绪相关等特性。这些数据还包括医院中的影像学数据、临床病人在治疗用药后的病情变化数据、环境数据、微生物数据、地质数据、化学农药残留数据等。所有这些跟健康相关的数据集纳起来,构成了非常复杂的健康大数据类型。

可大幅提高生物信息处理能力

记者:如何解析复杂的健康大数据?

陈润生:健康大数据很复杂,举例来说,电子病历写的是字,处理这样的信息需要自然语言处理模块,生理生化指标如脑电、心电等信息需要处理的是波形图,而影像学要处理图像,组学要处理符号。对这些性质各异的生物信息进行全面提取处理,就如同秦始皇统一六国不仅要统一文字、语言,还要统一货币、度量衡,需要将不同的信息融通,再做解析和决策。

当前最核心的生物医学大数据问题是解决各种可测量的数据,包括遗传密码与表观表型之间的关系问题。我们知道分子水平的基因组学、蛋白质组学研究产生的数据量不计其数,近年来发展起来的表型组学研究也在不断积累数据量,我们会逐渐拥有大量的表观数据。那么这两大数据如何偶联?如此规模巨大、系统复杂的分析只能由人工智能来完成。

目前来看,要解析生物医学大数据,人工智能技术是最适用的手段。

记者:从最初的人工智能到阿尔法狗再到大模型,人工智能发生了哪些变化?当前的大模型在处理生物医学信息方面有哪些优势?

陈润生:20世纪80年代,由于受算力和算法的限制,我们能设计运行的人工智能神经网络非常简单,只有几层。

现在的人工智能神经网络,比如阿尔法狗、阿尔法折叠等,它的网络模型架构达到200—300层。当今的计算能力能够使它们完成更加复杂的任务。

人工智能大模型让人工智能更进一步。我认为大模型的出现表明人工智能有了多方面、更深刻的进展。第一方面是对自然语言的处理能力发生了根本性的变化。处理人类的自然语言对于计算机来说很困难,突破这个能力后,人工智能可以拥有全局性的知识作为计算的基础。

第二方面进展是具备了预学习能力。人类之所以能产生智慧,是因为从出生以来一直在不断积累学习。现在在大模型中,计算机已经可以预学习了,能够在大量的知识被预先获得的前提下,再将具体科学问题交给计算机,而不是针对某一个特定问题进行学习。

第三方面进展是可积极促进模态融合。模态融合可以这样理解,比如人工智能不仅能完成基础医学里的结构预测工作,还能完成临床医学中的识图判读工作,更重要的是可以把这两个能力融合起来,即人工智能在每个领域都具备专家的知识,又能够融会贯通、举一反三。

基于以上三点,我认为发展人工智能作为未来医学大数据挖掘的工具值得重视。

以人工智能解析生物医学大数据

记者:很多人在健康出现问题之后的第一反应是“为什么会这样”,以后人工智能可以解答这样的问题吗?

陈润生:想要回答“为什么会这样”这个问题涉及到人工智能界的两个提法:弱人工智能和强人工智能。弱人工智能就像阿尔法狗,能处理特定任务。而强人工智能被认为是有可能制造出来的、真正能推理和解决问题的智能机器。

所以你的问题其实是在问,强人工智能有可能出现吗?过去我认为是不可能的,但现在看来,我觉得随着大模型的出现,一些问题正在破冰,强人工智能有了出现的苗头和希望。当然,现阶段人工智能的发展与真正的强人工智能还差得很远。

当前我们正在进行一些与医学相关的人工智能研究。比如扩大健康问题相关的参数,抽提面部、表情等特征,也融合基因组、转录组、蛋白组、宏基因组、表观组等全部维度的特征,甚至加入了中医内容,通过多模态融合建造医学多模态数据智能整合计算平台,我们称之为“灵枢”,并将其用于医学健康问题的实践。

记者:网上有人调侃,能写论文的人工智能却无法解释清楚“驴肉火烧”“鱼香肉丝”,而生物医学领域对于人工智能的要求更高,您认为如何让人工智能具有更严谨的运行能力?

陈润生:如何才能让人工智能解释清楚“驴肉火烧”“鱼香肉丝”等人类世界的问题,其实是在问如何才能让人工智能达到强人工智能的水平。

人工智能的智能水平主要由三个因素决定:数据、模型和算力。数据掌握在用户手中,模型需要不断研发讨论精进,算力是由计算机的能力决定的。

从这三个决定因素入手,我们能够发现,在数据方面,要解决相应的科学问题,人工智能掌握信息量高、信噪比低的足够信息就可以了。在算力方面,要依靠计算机科学家不断从硬件等解决方案入手提高运算能力。

只有模型方面是值得研讨的,现在的模型理论够不够达到强人工智能的要求,如何让模型更强?

目前有几个途径可以让模型更强,即增加知识量、增加网络节点数、增加网络复杂度。当前国际上几个大模型的处理数据量已达到万亿参数级别,在此基础上,我认为需要进一步增加的是网络复杂度。

我们可以从生理学家的脑生理切片模型中得到启发。新生儿的脑神经网络很简单,复杂度不够,学不了多少东西。成长让人的脑神经网络逐步复杂,进而承载更多内容。因此,我们可以从研究脑发育中获得启发,进而形成一个更完善的基础理论框架,获得适用的模型,使人工智能走向强人工智能。

关键词:

责任编辑:ERM523

相关阅读

精彩推送

环球讯息:二季度消费市场有望保持平稳增长 欧盟钢铁需求将回升 微头条
超常规手段打压手机企业后 印度政府的真实意图暴露 世界热闻 推动旅游复苏要在服务上多下功夫 全球热消息
今日快看!电力迎峰度夏须挖潜需求侧管理 即时:电网建设持续发力
解析生物医学大数据,人工智能是最适用手段 中煤集团山西华润联盛黄家沟煤业有限公司发生运输事故3人死亡
多措并举应对用电高峰_环球时快讯 “好评返现”方式不受好评
环球头条:电力迎峰度夏须挖潜需求侧管理 解决停车难 有车族也应思考生活方式 全球快看
A股“酒劲十足” 是超跌反弹还是新行情起点? 焦点短讯 当前最新:智能网联汽车产业城市20强:北上广前三,中西部有七城
环球热消息:多只基金提前结束募集 市场见底信号渐明 【世界播资讯】多地提示手足口病进入流行期 如何防范?
多地又掀购车补贴潮 汽车新一轮价格战卷土重来? 监管“三问”后国联证券定增缩水20亿 年内券商再融资明显降温 全球新消息
印度“磨刀霍霍” 中资手机企业进退维谷_每日速看 报告:中国太阳能产能“红利”扩散 在澳大利亚买电池板将更便宜|简讯
5月份新建商品住宅销售价格环比整体涨幅回落 每日热点:泡泡玛特回应“盲盒规范指引”:会积极配合监管部门落实相关细则
被指家暴打断妻子七根肋骨的拓维信息创始人,是啥来头? “最终解释权”成商家护身符 “霸王条款”如何终结?
16项治疗性辅助生殖技术项目纳入北京医保 蔚来ET5旅行版全球发布:起售价29.8万元,与ET5同价
环球新动态:“绝不降价”的蔚来“食言”背后:中国“造车新势力”加速洗牌 五部门:组织开展2023年新能源汽车下乡活动_世界观点
天天实时:“6.18”彩电再现价格战 大屏电视爆款降幅达30% 山竹放久了会变硬吗(山竹放久了会变硬吗为什么)|每日精选
2023年常州市正衡中学官网新生名单 或将6月15日上市 领克09大五座版预告图发布_世界热议
CQF适合哪些人报名考试?一分钟带你全面了解 明日寻星 第五人格×中国航天“太空创想”联动正式上线
泽连斯基被“偷家”,俄军导弹炸倒数十人,普京的意思很清楚了 全球快资讯 AppStore上线偷拍软件 苹果客服回应-环球头条
【世界快播报】胶州这里开始征迁,涉及两个村的45户居民! 天天视点!《生化危机4:重制版》武器商亏了近四千亿 碍事梨被误伤两千万次
焦点速看:美国在线物品价格跌不停,价格战越打越猛 广州五星级酒店有哪些品牌_广州五星级酒店有哪些
保险柜不翼而飞?厦门国际信托严正声明:厦门荣奔、厦门梁星两家公司隐瞒事实,擅自私刻印章|全球短讯 许小年:活下去,是企业最低纲领,也是最高纲领
保障各方合法权益 市场监管总局启动优化平台协议规则专项行动-当前聚焦 深交所与新浪集团达成战略合作
臭氧层破坏的主要危害臭氧层破坏主要危害是什么 2023浙江高考志愿填报线上咨询高校答疑活动(直播入口+直播时间)
【环球快播报】臭豆腐卤水制作方法 江西都市频道线上高招咨询会:专业或学校 志愿填报时优先考虑谁? 全球快报
钟祥市2023年防范非法集资宣传月活动正式启动 航宇科技:子公司拟与关联方等共设淮安志和,从事新业务航空锻造智能装备研发与生产_天天热闻
世界看点:杭州去眼袋好的医院排名 艺星等医院上榜 【全球报资讯】6月16日起,青岛国际会议中心恢复开馆
加价王来了!新一代丰田埃尔法宣传册曝光 网友:不如国产 天天报道 世界看热讯:河北多地高温 动物园为大熊猫提供冰块、空调
市监总局要求禁售宠物盲盒 这些商品不得以盲盒形式销售 世界滚动 安联锐视跌5% 2021上市即巅峰募7.2亿民生证券保荐
快本停播后谢娜参加浪姐又上何炅新节目,为何不能回湖南卫视主持 首届“海丝”侨商投资贸易大会开幕  海内外泉州人共谱“海丝名城”新华章
求职求才“双向奔赴”!东莞东城举办高校毕业生校园招聘会 头条焦点:菜品标准成本卡如何有效执行
天天热推荐:“剩菜盲盒”悄然走红 市场监管总局:销售食品盲盒要作出限定性表述 今日讯!北约计划在日本设立联络处?北约秘书长回避总台记者提问
240余万元!彬州法院集中发放执行案款 优化服务体验,国寿寿险打造一站式便捷保险服务 世界观焦点
惑星变异体5号副本平民_惑星 全球资讯 全球焦点!白酒企业在“冰淇淋峡谷”相遇
世界新消息丨梅西淘宝直播 流量不如李宣卓卖酒 市场监管总局部署开展优化平台协议规则专项行动
全球动态:韵达快递寄丢20万物品仅赔1000元 因人员流失无力分拣? 速看:甘州区水务局乌江水利管理所:“党建引领+河道治理” 助力乡村振兴
门窗行业发展前景及市场现状分析2023_全球快播报 消息!德国西门子宣布将投资1.4亿欧元用于扩建中国工厂
卡巴斯基郑启良:现有生意做好外,还要争取进入信创圈子|当前看点 天天消息!明日寻星 第五人格×中国航天“太空创想”联动正式上线
【全球新视野】2022年河南省中考满分作文:人人都是发声器(一) 东芝推出外部部件更少的小型封装电机驱动IC,节省电路板空间
甘州区火车站街道:筑牢“防火墙” 拧紧“安全阀” 世界热门 蚌埠市天桥街道喻义巷社区:无职党员“设岗定责”解民忧
手表原单货是不是高仿(手表原单和正品的区别)|环球播资讯 世界热资讯!Word2003技巧:如何与别人共享自动图文集词条
大手笔引援!曝上海签下四川王牌后卫,搭档王哲林冲击总冠军 避障及算法技术再跃升,扫地机器人远比你想象的还要聪明-播报
海口神州4价新冠疫苗在哪可以打? 环球关注:迎端午、备暑运 复兴号家族检修忙
头条焦点:浙矿股份:可转债转股价格调整为48.49元/股 【物流618】递四方迎战618 多措并举保障跨境物流时效
切尔西23/24赛季赛程:揭幕战红蓝大战!9-15轮:枪蜂刺城鹊鸥魔 聚焦 张恒远去世前,毕夏带儿子现身医院告别,站ICU门口痛哭惹人心疼
双鹭药业二股东被通报批评:减持达5%未信披并停止买卖 焦点简讯:全市场:都灵不会从国米买断拉扎罗,有德甲球队对他感兴趣
2012年日历全年表_2012年日历 南亚新材跌3.16% 2020年上市即巅峰超募8.7亿元
天天快资讯丨《逆水寒》手游还没公测,绝美Coser已扎堆,又一个Cos素材库? 简讯:金山区爱心暑托班报名条件
尚纬股份3涨停 理财公司投资周期为1个月以内(含)的“固收+权益”公募产品近3月业绩排行榜(截至6月9日)-天天即时
6G是什么?何时来?-天天热门 商务部:全力落实推动外贸稳规模 优结构政策措施-热门看点
乐融致新新增恢复执行信息 执行标的逾1000万元 中国教玩具之都品牌发展大会暨第二届中国教玩具之都国际博览会开幕-世界速看料