大模型“画龙”，小数据“点睛” 企业加快智能化转型

小数据、优质数据应用有其前提，即需要在大的基础模型（预训练模型）之上，通过小数据进行模型的微调，使模型更加精准地服务具体应用场景。从这个角度来讲，小数据将在未来基础模型完成下游任务时，起到关键的作用。

王金桥

中国科学院自动化研究所研究员

如今大数据已经成为人工智能的“标配”。在训练人工智能模型的过程中，如果想让其变得更加聪明，大量的、多样性的数据必不可少。但近日，著名人工智能学者吴恩达在展望人工智能下一个10年的发展方向时，表达了不同的观点。他认为，小数据、优质数据的应用或是未来趋势。

中国科学院自动化研究所研究员王金桥表示，小数据、优质数据应用有其前提，即需要在大的基础模型（预训练模型）之上，通过小数据进行模型的微调，使模型更加精准地服务具体应用场景。从这个角度来讲，小数据将在未来基础模型完成下游任务时，起到关键的作用。

多数应用场景难以获取高质量大数据

算法（模型）、算力和数据可以说已经成为推动人工智能发展的三大要素，其中数据尤为重要。在众多互联消费场景中，我们常常被精准的人工智能推送“击中”。通过对消费者消费习惯、购物偏好的分析，平台系统可以对消费者的潜在需求作出判断并加以引导，而这一切的基础，是基于大量的、丰富的数据样本。利用大数据，平台构建出了适用于该领域的专用模型，实现精准推送。

这些体验或许是普通消费者对于大数据和人工智能最直接的印象之一。吴恩达在采访中也表示，在过去10年里，面向消费者的企业由于拥有大量用户群（有时甚至高达数十亿），因此获得了非常大的数据集使得人工智能可以开展深度学习，并给企业带来了不少经济效益。但他同时强调，这种法则并不适用于其他行业。其原因在于，并不是所有场景都能产生丰富的大数据样本。

实际上，“在生活中，百分之八九十场景的问题都属于小样本问题。”王金桥表示，很多应用场景中，由于训练样本难以获取，因此只有极少量数据，缺陷检测就是其中的典型案例。缺陷检测，即采用机器视觉技术等，对某种特定缺陷进行检测和识别。这种检测在航天航空、铁路交通、智能汽车等众多领域都有应用。由于在实际的生产生活中，存在瑕疵的产品总是少数，所以缺陷检测的训练样本数量很少。

而即使对于样本丰富的场景，也存在训练数据标注愈发困难的问题。王金桥介绍，目前人工智能所使用的训练数据，还是以人工标注为主，而在海量数据面前，人工标注往往需要行业经验，一般人难以对标注区域进行识别。此外，针对每个应用需求都需要人工智能专家设计算法模型，模型越多，开发成本也会持续增加。

吴恩达也表示，在消费互联网行业中，我们只需训练少数机器学习模型就能服务10亿用户。然而在制造业中，有1万家制造商就要搭建1万个定制模型。而且要做到这点往往需要大量的人工智能专家。

从目前的行业发展趋势来看，基础模型或许是解决上述问题的一个方向。

以基础模型为“基座”用小数据微调

“近些年，行业开始重视研发基础模型或者说是通用型模型来解决上述问题。”王金桥说，先用大量数据预训练一个模型。这些模型在预训练中，见多识广是首要任务。训练中，模型会见识到该领域各式各样的数据，增长见识，以应对今后出现的各种情况。之后再在下游任务中利用具体的场景数据进行微调。

如自然语言处理（NLP）领域的大模型，如果要利用它完成如对话、问答等下游任务，只需要使用这个下游任务中数量很小的数据，在这个大模型之上进行微调，就能达到不错的效果。一些研究成果也表明，只需要原来建立专属模型5%—10%的数据样本用于大模型的数据微调，就能得到和专属模型一样的精度。

“从大模型转向小模型，实现一个模型做多个任务，可以说是目前行业发展中的一个转变。”王金桥说，这样不仅降低了开发难度，还大大减少了开发成本。以前，每个算法都需要一个深度学习专家去设计和训练，现在只需要在大模型之下进行微调，模型的设计和架构也变得相对简单。中小型企业只需要在大模型上，自己上传数据就可以完成。

此外，利用这种方法，模型的误报率也会减少。基础模型见过丰富多彩的数据和场景，在处理具体任务的时候就具备了海量知识储备，有更充足的准备去应对具体的小场景应用。

不过吴恩达在访谈中也表示，预训练只是要解决难题的一小部分，更大的难题是提供一个工具让使用者能够选择正确的数据用于微调，并用一致的方式对数据进行标记。面对大数据集的应用时，开发者的通常反应都是如果数据有噪音也没关系，所有数据照单全收，算法会对其进行平均。但是，如果研究人员能够开发出用来标记出数据不一致地方的工具，为使用者提供一种非常有针对性的方法来提高数据质量，那这将是获得高性能系统的更有效的方法。

多模态或是大模型未来发展方向

基础模型作为生产众多小模型的“基座”，性能尤为重要。其认知能力越接近人类，在此之上产生的小模型性能也将越优异。

在探索外部环境的时候，人类具备视觉、听觉、触觉等多种认知手段，并通过语言对话等形式实现互动交流。其中视觉得到的信息约占70%，听觉、触觉等获得的信息约占30%。“同样，要使得大模型的性能更加优秀，更趋近人类的认知能力，就涉及到训练中的数据融合问题。”王金桥指出，我们熟知的语言生成模型GPT-3，能够生成流畅自然的文本，并完成问答、翻译、创作小说等一系列NLP任务，甚至可以进行简单的算术运算。但其和外界交互的主要方式还是进行文本交流，缺乏图像、视频等多模态融合。

每一种信息的来源或者形式，都可以称为一种模态。如人有触觉、听觉、视觉、嗅觉；信息的媒介有语音、视频、文字等。人的认知模型可以说是一个多模态的集合。

要让基础模型的预训练更接近人类的认知模型，也需要进行多模态融合。即让模型通过机器学习的方法实现处理和理解多源模态信息的能力，如图像、视频、音频、语义之间的多模态学习。多模态预训练模型被广泛认为是从限定领域的弱人工智能迈向通用人工智能路径的探索。

“这一两年，大模型的数量呈现爆发式增长，且有从单一模态模型转向多模态模型的趋势。”王金桥说，具备了多模态能力的基础模型，在具体应用场景中健壮性更好，在异常和危险情况下系统的生存能力更强，今后多模态基础模型或将成为未来基础模型发展的一个重要方向。

关键词：

大模型“画龙”，小数据“点睛” 企业加快智能化转型	国家发展改革委等部门赴大商所联合调研加强铁矿石市场监管
【两会前瞻】专家看2022年房地产政策“变”与“不变”：房住不炒依旧良性循环或成新风向	太疯狂！企业“加价”抢人年薪涨到50万元！这类人才炙手可热
2021年度个税汇算今起开始你是退税还是补税？	惊现股债双杀！6000亿地产巨头融创中国“爆雷”？
卡地亚状告蒂芙尼窃取高端珠宝商业机密	中国开始从乌克兰撤出首批公民
信用画像，助企业顺畅融资	提振工业经济工信部提出这些举措
个人经营收款码来了！	盐津铺子多收了三五斗少赚了一个亿：减持时迅捷凶猛，增持时却拖拖拉拉
胆管癌新药艾伏尼布片落地乐城先行区	海南省将设高血压等5种疾病特色门诊
教育部：263个线上校外培训机构压缩到34个，压减率87.07%	西南大学讲师涉猥亵人体模特被行拘遭校方停职
教育部：今年寒假共查处以“一对一”等方式违规开展培训行为1042人次	3年烧钱超50亿，Keep不keep
预制菜包之后厨师的未来如何	全球铝镍供给现担忧下游家电企业怎么办
皖通科技控制权之争落定世纪金源黄涛入主	保险系私募股权基金遭遇“七年之痒” 逾两成已清算
规模房企年内到期债务超6000亿自救主要依赖促销回款	蔚来将以介绍形式在港上市
房天下创始人兼执行董事长莫天全辞职，代建功接任	保时捷独立上市背后：保时捷皮耶希家族的“双赢”
招商仁和人寿五年累计亏损近15亿元，回应：成本投入要时间消化	这里9家医疗卫生机构被关停！
兆驰股份：因恒大票据逾期，去年净利润同比下降最多87%	请道士做法的不只小鹏，B站搬迁请道士作法、网易请道士用代码写符祈福
理想汽车2021年净亏损3.2亿元：李想放言10年做到“苹果”水准	网传比亚迪汉DM-i/DM-p预售价格曝光？假！
又一家家乐福关闭！大卖场模式败走一线城市，老街坊：有促销才去，社区团购更方便	在乌华人网红引用多段虚假战争视频此前因自制国旗引发关注
春运期间较大交通事故为十年来最少	国内超半年未新发游戏版号，网易怎么办？丁磊：坚定开拓海外市场
回眸大健康——2022年2月医美、化妆品大事记	全国首例！买房“烂尾”后拒绝还贷遭银行起诉，法院为何判决不用还？
业绩近七年首度下滑！股价创年内新低 “纸茅”中顺洁柔烦恼多	Meta又陷风波，或在5月被欧洲监管机构叫停向美国传输数据
格力电器：董事会同意选举董明珠为公司第十二届董事会董事长	互联网信息服务算法备案系统正式上线运行
SDK商业模式分析：谁在编织APP背后的用户信息网？	国家将立即启动中央冻猪肉储备收储工作
跨国三巨头垄断高端医疗设备市场，中国企业如何加速“破局”？	农业农村部：强化监管，防止非法转基因种子下地
澳洋健康发布2021年业绩快报：预计亏损10.37亿元	俄乌战争推高天然气油价，化工生产商利润承压
发改委产业司召开汽车产业发展形势座谈会	反转！柬埔寨“血奴”案纯属捏造
金价暴涨，有人卖11公斤回款420万！黄金后市能“避险”吗？	奔驰车发动机零部件高温引发火灾，4S店称与质量问题无关
交通运输部：2021年我国完成港口货物吞吐量155.5亿吨	董明珠当选格力电器董事会非独立董事
交通运输部：推进物流降成本 2021年减费总额超1000亿元	5项国家生态环境标准首次发布为生态监测提供方法支撑
2月50城二手房成交量环比增约4%，刚需房源成交活跌	交通运输部：2021年网约车完成订单83.2亿中心城市占46.76亿单
爱尔眼科使用过期医疗器械被罚违法违规被罚达79次	华储网：2022年第一次中央储备冻猪肉收储竞价交易4万吨
王毅将在联合国人权理事会高级别会议发表视频致辞	外媒：泽连斯基要求欧盟立即接纳乌克兰
蔚来回港上市不是钱的事儿	国家将立即启动中央冻猪肉储备收储工作
国家将立即启动中央冻猪肉储备收储工作	俄官方：过去24小时4700多人从顿巴斯进入俄罗斯
国家发改委：国家将立即启动中央冻猪肉储备收储工作	交通运输部部长李小鹏：加快建设交通强国
食话实说 \| 如何预防食源性疾病？专家来支四招！	国家发改委：国家将立即启动中央冻猪肉储备收储工作
常用胃药质子泵抑制剂被要求修改说明书，增加骨折等多项不良反应	翰森制药引进罕见病NMOSD治疗新药
网易，背后的不易	是否准备从乌克兰撤侨？外交部：正研究可行方案
华为、小米等是否会遵守美国对俄制裁？外交部：美方在处理乌克兰问题时，不得损害中方的正当权益	新城控股：未曾与黑石等机构洽谈吾悦广场及住宅项目出售事宜
国家网信办：将于3月1日上线互联网信息服务算法备案系统	一个“稳”字，道尽楼市运行精髓
你点的外卖上有“食安封签”吗？	潮玩行业呼唤更多“冰墩墩” 国内原创IP如何延长生命周期
山东高速：人才安居未付恒大股权转让款超20亿，已提交仲裁	“它经济”正热，你为之买过单吗？
全国人大代表蒋胜男：建议男性带薪陪产假延长至42天	新消费场景层出不穷新业态能否拯救线下商场？
董明珠：做手机不是为了抢占市场份额而是有自身的规划	互联网信息服务算法备案系统将正式上线运行
广西：低温催涨花价临近节日价格或持续上涨	国家卫健委：全国累计报告接种新冠病毒疫苗312411.8万剂次
抓好春耕备耕守好保障国家粮食安全底线	《互联网信息服务算法推荐管理规定》明起正式施行
“东数西算”让数字化“脚步”更快更稳	我国连续12年位居世界第一制造业大国
入主盾安通过反垄断审查格力收购或将按下加速键	巴菲特致股东信：去年伯克希尔赚了近900亿美元，为何手握1440亿美元现金？
进口车厘子价格“腰斩”？别贪便宜，品质可能没那么好	机构预测：工业领域“十四五”整体达峰，电力等行业2030年达峰
唐人神：去年到今年生猪养殖行业的饲料成本大约上升了1元/公斤	杨国福麻辣烫快速扩张秘诀：20年间开出近6000家门店，99%都是“外人”的
零首付再现楼市！房企为卖房拼了，华润重奖中介50万元	乘联会秘书长崔东树：应鼓励高能量密度电池加大车载钴资源储备

大模型“画龙”，小数据“点睛” 企业加快智能化转型

相关阅读

精彩推送

每日推荐

俄外长称美欧要求各国停止与中俄开展经贸等各领域合作..

要闻

资讯新闻