深度丨大数据不香了?小数据人工智能正在崛起,产学界探索可信AI

2021-12-06 20:11:46 来源:

打印 放大 缩小

原标题:深度丨大数据不香了?小数据人工智能正在崛起,产学界探索可信AI

“每购买一个面包就会有一只柯基失去它的屁股。”

在这个段子背后,是面包与柯基屁股的相似性引发的视觉混淆。

相似的事物尚且容易引发人眼的视觉混淆,具有相似特征的数据则会引发人工智能的误解,使AI程序抓取的数据出现偏差,从而使AI程序作出错误的判断。

利用机器学习的这一特征,攻击者直接将伪装的数据和信息“注入”人工智能程序,从而污染机器学习模型,误导AI做出错误判断,这一威胁网络安全的行为就被称为“数据投毒”。

一直以来,人工智能都依赖大量的数据进行模型训练,但这带来了过度收集个人数据、脏数据清洗难度大、数据匮乏领域依然存在“数据孤岛”等问题。近日,美国网络安全和新兴技术局(以下简称“CSET”)发布研究报告《小数据人工智能的巨大潜力》,指出长期被忽略的小数据人工智能潜力不可估量。

在当下人工智能产业迅速发展的情况下,大数据行业正在发生哪些变化?人工智能行业的数据合规又将走向何方?

从大数据回归小数据

自2006年,“AI教父”杰弗里·辛顿以及他的学生鲁斯兰·萨拉赫丁诺夫提出深度学习理念后,基于深度学习技术的人工智能浪潮席卷全球。机器通过学习样本数据的内在规律与层次,从而获得预测能力。

随着深度学习算法从学术界走向工业应用,大数据资源的使用也越来越普遍。无论是早期如语音识别、人脸识别等应用数据生产,还是互联网电商体系下的行为数据生产,都是基于大规模数据分析结果,以此推动了整个数据产业的发展。

在人工智能领域,小数据方法并不是新鲜词。与依托于海量数据总结规律的学习方法不同,小数据方法是基于人类的先验知识,在仅有少量数据的情况下利用小样本数据集进行训练的人工智能方法,大致分为迁移学习、主动学习、强化学习、贝叶斯方法、数据生成等。

一方面,在数据量较少或没有标记数据可用的情况下,不得不基于小样本数据加以人工的先验知识或者预训练模型来训练新模型。

对于学术界而言,早期的模型训练运用数据量都不多,基于人类先验知识的迁移学习和强化学习就是小数据方法的初始应用。同盾科技合伙人兼人工智能研究院院长李晓林给记者举了一个例子:“我曾经参加过一个实验,对美国周边某种濒危海象的图片特征进行深度学习,以此来为动物保护协会识别、去重、入库和统计这种海象的数量。全球这种海象的数量一共2000多头,个体表面差别很小,在这种情况下只能采用小数据方法训练模型。”

另一方面,随着深度学习算法的发展,数据价值不断被挖掘,同时,像开头所述的“数据投毒”等网络攻击使得数据治理的工作量加大,对机器处理复杂数据的能力也提出了更高的要求。

“随着人工智能从感知走向认知,逐渐进入到商业本质,信息处理的维度使得人工智能进入到深水区。”天云数据CEO雷涛告诉记者,“我们开始接触到信息化系统因为流程处理所沉淀的小数据,这些交易、流程中的数据价值密度更高,比图像视觉等传统信号体系复杂得多,因此需要认知层的人工智能基础设施来挖掘其中的含义。”

雷涛认为,在真正拥有推理和解决问题的强人工智能到来之前,在问题泛化表达能力出现之前,小数据可以用于进行数据本身的优化。在机器模型建立的环节,需要大量的人借助先验知识的小数据和材料数据做交互,比如数据衍生、数据升维、数据降维,都是一些基于答案的数据或是基于业务的显性特征,利用算力和数据之间做交互,来完成模型更有效的学习。

基于小样本数据的分析偏差也是显而易见的,李晓林告诉记者,避免小数据方法出现失误,势必需要丰富的人类先验知识作为支撑,进行迁移学习。

“当下对小数据方法的重视并不意味着就摒弃了基于大数据的模型训练。”洞见科技CEO姚明表示,目前小数据模型主要用于和大数据模型的交叉核验,在二者相结合的情况下完善模型。

数据合规背景下的可信AI探索

随着数据要素流通市场建设,在激活数据价值的同时,如何保护数据安全成为大众关注的焦点。

11月1日,《个人信息保护法》(下称“个保法”)正式生效,对个人信息处理者收集、加工、使用、传输个人信息都提出了进一步要求。

个保法要求,任何组织、个人不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息;个人信息处理者利用个人信息进行自动化决策,不得对个人在交易价格等交易条件上实行不合理的差别待遇;在公共场所安装图像采集、个人身份识别设备,应当设置显著提示标识。

个人数据收集的受限使得小数据方法发挥出特有的优势。

CSET报告指出,小数据方法能够减少收集个人数据的行为,通过人工生成新数据或使用模拟训练算法,第一不依赖于个体生成的数据,第二,经由模拟训练合成的数据也可以实现个人信息的脱敏。

对于数据匮乏的领域或因共享意愿不足导致的“数据孤岛”而言,可以通过小数据方法来处理数据缺失,用少量的数据点创建更多数据点,凭借关联领域的先验知识迁移学习,或者通过构建模拟或编码结构的假设,来开拓新领域的探索与预测。

“首先我们不能回避的是,人工智能的优势就是面向个体的计算。”雷涛认为,人工智能运用于个体数据的计算无可避免,问题在于合规、适度的使用。

由此,全球产学研界展开了对可信人工智能的研究与探讨。

据中国信通院统计,2020年可信人工智能研究论文的数量相比2017年增加近5倍,各国人工智能产业巨头也通过研发可信工具、制定可信的人工智能原则探索可信AI实践。

在2021年世界人工智能大会上,蚂蚁集团首席AI科学家漆远总结了可信人工智能领域的四个关键词:鲁棒性、隐私保护、可解释性、公平性。

其中,可解释性就包括模型可解释、样本可解释、结果可解释,将深度学习和人类知识结合起来,引进专家机制弥补传统纯深度学习的风险。漆远指出,“因果分析可以使机器学习更稳定,小数据下不用见多识广,因为基于人类经验的因果关系非常稳定。”

在产业界探索可信AI的过程中,使数据“可用不可见”、“可用并可控”、“可控可计量”的隐私计算技术迎来风口。

“在获得个人信息使用的授权后,数据在加工过程中存在被复制、泄露,甚至被转售的风险,隐私计算从技术上保护了数据的安全。金融行业作为数据聚集地,是隐私计算技术最早的应用领域,目前政务、医疗、工业互联网等领域在数据协同过程中,都已经开始使用隐私计算技术。”姚明告诉记者。

雷涛指出,隐私计算的核心是解决数据的确权问题,将数据的所有权和使用权做到剥离,使得我们不用去搬移数据、访问数据的前提下也可以获取到数据价值的转移。

在数据要素流转的过程中,据李晓林介绍,隐私计算也被运用于政务数据开放与数据交易的场景之下。“在各地的政务数据流通过程中,不愿、不敢、不能共享的问题造成了数据孤岛的出现,打造基于隐私计算的共享智能平台可以帮助打通数据壁垒,实现数据的深度挖掘与价值释放。” 

但中国工商银行发布的金融业首份隐私计算白皮书指出,现阶段我国并未出台匿名化技术标准或相关指引性文件,金融业可探讨专门出台隐私计算技术使用指引,以指导各方合规应用相关技术。

人工智能立法正在进行时

目前海内外对于人工智能的立法工作正在进行中。

就在12月5日,联合国成员国大会刚刚通过首个关于人工智能伦理的全球标准《人工智能伦理问题建议书》(下称“《建议书》”),旨在实现人工智能给社会带来的积极效果,同时也预防潜在风险。

具体来说,《建议书》呼吁个体应该有权访问甚至删除其个人数据记录。它还包括改善数据保护和个体对自身数据的了解和控制权的行动,并将提高世界各地的监管机构的执行能力。《建议书》明确禁止使用人工智能系统进行社会评分和大规模监控,并鼓励联合国各会员国考虑增设独立的人工智能伦理官员或其他相关机制,以监督审计和持续监测。

今年6月,欧盟数据保护委员会和欧盟数据保护监督局针对欧盟今年4月发布的人工智能法规草案发表联合意见,进一步呼吁在公共场所禁止使用人工智能自动识别个人特征,包括人脸识别、步态、指纹、DNA、声音等生物或行为信号。

我国“个保法”第二十六条要求在公共场所安装图像采集、个人身份识别设备,应当为维护公共安全所必需,遵守国家有关规定,并设置显著的提示标识。所收集的个人图像、身份识别信息只能用于维护公共安全的目的,不得用于其他目的;取得个人单独同意的除外。

在上海人大刚刚通过的上海市数据条例中,更进一步地细化了人工智能技术的使用。

上海将限制个人信息采集的区域拓展至居住小区、商务楼宇等非公共场所,并要求不得以图像采集、个人身份识别技术作为出入上述场所或区域的唯一验证方式。另外,通过自动化决策方式向个人进行信息推送、商业营销的,应当同时提供不针对其个人特征的选项,或向个人提供便捷的拒绝方式。通过自动化决策方式作出对个人权益有重大影响的决定,个人有权要求处理者予以说明,并有权拒绝处理者仅通过自动化决策的方式作出决定。

记者多方了解到,目前我国多地对于人工智能的地方立法正在探索中,目前天津、南京、杭州、深圳等地已相继出台管理条例规范人脸识别,未来人工智能相关管理条例将主要聚焦人工智能体规范和算法规范两大方面。

关键词: 深度丨大数据不香了?小数据人工智能正在崛起,产学界探

责任编辑:ERM523

精彩推送

九成中国高净值人群表示未来三年有购买电动车计划 特斯拉最受青睐 劳力士成为中国高净值人群最青睐手表品牌 百达翡丽、宝格丽紧随其后
胡润报告:我国高净值人群婚前平均有5个男/女朋友 80%中国高净值人群爱好养宠物 平均每只宠物年开销8200元
这10首歌最令我国高净值人士感动 子公司出现‘失控’情形 科华生物业绩或“爆冷”
股票成中国高净值人群未来首选投资方向 黄金的选择比例超过基金位居第二 2021年实现净利24.33亿元 片仔癀豪掷44.80亿元新建产业园
多家公司元宇宙商标被驳回 川航一航班挂出7700紧急代码 民航西南地区管理局 :正在调查,会适时公布相关情况
长江流域成世界最大清洁能源走廊 6座梯级水电站2021年发电量创历史记录 中公教育巨额利润消失之谜:地产投资遇阻,仍有多重疑云
中公教育巨额利润消失之谜 2021年12月我国中心城市轨道交通客运量达200868万人次
北京消协通报智能门锁检测 三星西屋等产品存问题 北京:严格冷链食品和包装消毒 做到“不验核酸不入库”
2021年国内光伏新增装机53GW,分布式增长强劲重回风口 农业农村部:2021年猪肉产量基本达到历史正常年份水平
北京至成都一航班挂出7700紧急代码 已安全降落 青客租房申请破产清算,未履行金额近3000万元
增速稳中有降 房地产贷款如何"稳刚需" 2021房产经纪人大数据发布,大学生经纪人占比超4成
规模破千亿 养老目标基金应该怎么选 “原年人”要小心了!春节商家千层套路你看得穿吗?
华为王军谈30万辆销量目标:没有什么是不可能的 小红书申请元宇宙商标被驳回
北京至成都一航班挂出7700紧急代码,现已安全降落双流机场 去年开展的“菜篮子”市长负责制考核情况如何?农业农村部回应
因多计营业收入和营业成本1795万元 铁岭新城被责令改正 瑞幸计划在美重新上市?公司否认
经济观察:开年降息带给中国楼市的三个重要信号 拜登声称没准备好取消加征的关税 商务部回应
春节和冬奥会期间“菜篮子”产品稳产保供情况如何?农业农村部回应 58同城、安居客:2022年返乡置业有望升温
工信部:将对应用商店、重点互联网企业等实现监管全覆盖 苏州吴江区四季开源酒店致17死坍塌事故原因:无加固情况下拆除承重墙
否认销售人员大量离职的迈瑞医疗,欲给2700名员工戴“金手铐” 春节消费谨防四大“低价套路” 甄别虚假促销和诈骗
投资收益披露存差错 景峰医药及其董事长叶湘武被通报批评 中国一汽:与国家体育总局战略合作签约
酱货怎么挑?炒货怎么拣?海鲜怎么选?办年货吃货有秘籍 苏州致17死四季开源酒店坍塌事故原因公布:无加固情况下拆除底层承重墙
上海:到2025年全市生物医药产业规模超10000亿元 新增上市企业25家 “包装实丑价格感人” 年轻人买零食都爱淘“工厂店”
帝欧家居退出欧神诺股东?回应称“消息不实,仍为控股子公司” 七欣天利润上涨靠外包员工?公司多家子公司受到行政处罚
你在还债,别人在凡尔赛!杭州房企滨江春节放16天长假,还发最低3万消费券 B站全资入股有妖气漫画平台
工信部:专精特新要大批发展、着重发展 工信部:对智能网联汽车、冰雪装备等产业加大培育力度
国潮 ”新片场” 青岛啤酒百年国潮街泉城开街 苏州致17死四季开源酒店坍塌事故原因:无加固情况下拆除底层承重墙
工信部:建成全国APP检测平台,每个月能检测18万款APP 广东:确保产业链供应链安全 依法加强对资本的有效监管
国家能源局:我国光伏发电并网装机容量突破3亿千瓦 苏州:普惠托育机构明显上升,目前有3.2万个托位
我国光伏发电并网装机容量突破3亿千瓦 分布式发展成新亮点 蚂蚁集团减持众安保险至10.37%,回应:系正常投资决策
工信部:我国疫情防控政策对产业链、供应链有利 真老虎上阵,奢侈品牌虎年广告惹争议
北交所推动中小企业践行ESG理念 ESG投资在中国前景广阔 我国是否已陷入“低生育率陷阱”?专家回应
人民大学教授:生育相关假期成本要由国家、企业和家庭共担 房企融资活跃度明显提升
新能源汽车销量攀升 动力电池企业忙扩产 21世纪不动产一加盟店经纪业务违规遭北京住建处罚
美股全线收跌 中概股叮咚买菜跌近24% 保利回应成都天府新区项目整改进展:与业主基本达成一致意见
甘肃首家“食物银行”启用后显“萧条” 广东省政府工作报告:稳妥推进恒大集团等房地产企业债务风险化解处置
手机充电器接口统一标准是大势所趋 天津市市场监管委通报工业品监督抽查情况 不合格发现率为8.9%
我国开通5G基站142.5万个 “秒拨IP”黑产亟待有效整治
工信部:2021年全年累计清偿欠款超过200亿元 老旧小区物业管理困境:出了问题不见人 找到人不管事
海外消费者最爱十大年货:购物车刮起中国风 蚂蚁集团减持众安在线至10.37%,回应称系正常投资决策
吉林:加快建设现代化市场监管体系“吉林样板” 广东:市场化法治化稳妥推进恒大等房企债务风险化解处置
大基建潮涌 水泥“双碳元年”将至 药明康德发布年度业绩预告:扣非净利润同比增长68%到70%
讲书人樊登:用企业经营成果和用户规模,对抗知识分子的傲慢与偏见 汤加海底火山喷发会导致“无夏之年”吗?
字节跳动整整一个部门解散!发生了什么? “降息”!央行出手 A股重磅利好来了?解读-更新中
九部门联合发文推动平台经济规范健康持续发展 新年以来最大范围雨雪天气来了!
腾讯是家普通企业?清华专家:认同!领军企业没有特权,但有特殊责任 防疫交通管控不简单 春运更安心
战投部门裁撤之后,字节跳动的投资故事该如何讲下去? 铁路共青团:奋战在党和人民需要的地方
推动区域数字经济协调发展 乐视网案件再迎进展 多家中介机构陷诉讼纠纷
关注数字贸易国际规则构建与走向 你好,机器人工友
掌舵三一重工56年的梁稳根退位 向文波接棒 化肥企业能否搭上新能源快车
手握千万流量仍卖不好自家鞋子,还欲打包抛售 星期六董秘:鞋业面临渠道变迁 王老吉的“兄弟连”靠啥走红