来源:新智元
【新智元导读】这一届的智源大会,依然是星光熠熠,学术感爆棚。众大咖激辩超级AI,思想碰撞火花四射,依然是绝不能错过的一届AI春晚!
就在刚刚,一年一度的国内‘AI春晚’智源大会,圆满闭幕!
(资料图片仅供参考)
这场人工智能年度巅峰盛会上,有OpenAI、DeepMind、Anthropic、HuggingFace、Midjourney、Stability AI等耳熟能详的明星团队,有Meta、谷歌、微软等做出征服全世界产品的大厂,有斯坦福、UC伯克利、MIT等世界顶尖学府。
GPT-4、PaLM-E、OPT、LLaMA等重要工作的作者悉数出席,为我们讲解研究成果。这场大会堪称专业深度与创意启发兼具,每个话题都被探讨到极致。
而把大会推向高潮的,无疑是图灵奖得主Yann LeCun、Geoffrey Hinton、以及OpenAI创始人Sam Altman的演讲了。
这几位超重磅大佬的亮相,可谓是亮点满满。
Geoffrey Hinton:超级AI风险紧迫
在刚刚结束的论坛闭幕主题演讲中,图灵奖得主、深度学习之父Hinton为我们构想了一个值得深思的场景。
演讲开始,Hinton发问‘人工神经网络是否比真正的神经网络更聪明’?
是的,在他看来,这可能很快就会发生。
正如前段时间,Hinton离职谷歌,对辞职理由一言蔽之。他直言对自己毕生工作感到后悔,并对人工智能危险感到担忧。他多次公开称,人工智能对世界的危险比气候变化更加紧迫。
同样,在智源大会上,Hinton再次谈及AI风险。
如果一个在多台数字计算机上运行的大型神经网络,除了可以模仿人类语言获取人类知识,还能直接从世界中获取知识,会发生什么情况呢?
显然,它会变得比人类优秀得多,因为它观察到了更多的数据。
这种设想并不是天方夜谭,如果这个神经网络能够通过对图像或视频进行无监督建模,并且它的副本也能操纵物理世界。
在最极端的情况下,不法分子会利用超级智能操纵选民,赢得战争。
如果允许超级智能自行制定子目标,一个子目标是获得更多权力,这个超级AI就会为了达成目标,操纵使用它的人类。
张宏江与Sam Altman巅峰问答:AGI或将十年内出现
今日上午,Sam Altman也通过视频连线现身了。这是ChatGPT爆火之后,Sam Altman首次在中国公开演讲。
精彩摘要:
- 当下AI革命影响如此之大的原因,不仅在于其影响的规模,还有进展的速度。这同时带来红利和风险。
- 随着日益强大的AI系统的出现,加强国际间的通力合作,建立全球信任是最重要的。
- 对齐仍是一个未解决的问题。GPT-4在过去8个月时间完成对齐工作,主要包括扩展性和可解释性。
演讲中,Altman多次强调全球AI安全对齐与监管的必要性,还特别引用了《道德经》中的一句话:
千里之行,始于足下。
在他看来,人工智能正以爆发式的速度发展,未来十年可能就会出现超强AI。
因此,需要推进AGI安全,加强国际间的通力合作,并在相关的研究部署上对齐最为重要。
Sam Altman认为,国际科技界合作,是当下迈出建设性步伐的第一步。特别是,应该提高在AGI安全方面技术进展的透明度和知识共享机制。
另外,Altman提到,目前OpenAI的主要研究目标集中在AI对齐研究上,即如何让AI成为一个有用且安全的助手。
一是可扩展监督,尝试用AI系统协助人类监督其他人工智能系统。二是可解释性,尝试理解大模型内部运作‘黑箱’。
最终,OpenAI的目标是,训练AI系统来帮助进行对齐研究。
演讲结束后,智源研究院理事长张宏江与Sam Altman开启了隔空对话,一起探讨了如何让AI安全对齐的难题。
当被问及OpenAI是否会开源大模型,Altman称未来会有更多开源,但没有具体模型和时间表。
另外,他还表示不会很快有GPT-5。
会后,Altman发文对这次受邀来智源大会演讲表示感谢。
LeCun:依然是世界模型的拥趸
在头一天发言的又一位图灵奖得主LeCun,仍然继续推行自己的‘世界模型’理念。
对于AI毁灭人类的看法,LeCun一直表示不屑,认为如今的AI还不如一条狗的智能高,还没有发展出真正的人工智能,这种担心实属多余。
他解释道:AI不能像人类和动物一样推理和规划,部分原因是目前的机器学习系统在输入和输出之间的计算步骤是基本恒定的。
如何让机器理解世界是如何运作的,像人类一样预测行为后果,或将其分解为多步来计划复杂的任务呢?
显然,自监督学习是一个路径。相比强化学习,自监督学习可以产生大量反馈,能够预测其输入的任何一部分。
LeCun表示,自己已经确定未来几年人工智能的三大挑战,就是学习世界的表征、预测世界模型、利用自监督学习。
而构建人类水平AI的关键,可能就是学习‘世界模型’的能力。
其中,‘世界模型’由六个独立模块组成,具体包括:配置器模块、感知模块、世界模型、cost模块、actor模块、短期记忆模块。
他认为,为世界模型设计架构以及训练范式,才是未来几十年阻碍人工智能发展的真正障碍。
被问到AI系统是否会对人类构成生存风险时,LeCun表示,我们还没有超级AI,何谈如何让超级AI系统安全呢?
最顶配‘AI内行盛会’
轰轰烈烈的2023智源大会,可以说是本年度国内AI领域规格最高的、最受瞩目的大会。
从创办之初,智源大会的本质特征就很明确:学术、专业、前沿。
转眼间,这场面向AI内行的年度盛会已经来到了第五个年头。
这次,2023智源大会继续延续每一届智源大会的传统,学术氛围感依旧爆棚。
2021年,第三届智源大会上,图灵奖得主Yoshua Bengio、北京大学教授鄂维南院士、清华大学国家金融研究院院长朱民带来了主题演讲。
2022年,两位图灵奖得主Yann LeCun和Adi Shamir、强化学习之父Richard Sutton、美国三院院士Michael I. Jordan、哥德尔奖获得者Cynthia Dwork等重量级大佬做了分享。
而到了2023年,无疑是‘星光最盛’的一届。
共有4位图灵奖得主Yann LeCun、Geoffrey Hinton、Joseph Sifakis和姚期智,以及OpenAI创始人Sam Altman、诺贝尔奖得主Arieh Warshel、未来生命研究所创始人Max Tegmark、2022年吴文俊最高成就奖得主郑南宁院士和中国科学院张钹院士等大佬参与。
更为重要的是,继智源‘悟道’大模型项目连创‘中国首个+世界最大’纪录之后,‘悟道3.0’进入‘全面开源’的新阶段。
‘悟道3.0’是一个大模型系列。
具体来说,包括悟道·天鹰(Aquila)语言大模型系列、天秤(Flag Eval)大模型评测体系、‘悟道·视界’视觉大模型系列,以及多模态大模型系列。
语言大模型系列
悟道·天鹰(Aquila):全面开放商用许可
首先登场的是悟道·天鹰(Aquila)系列大模型,是首个具备中英双语知识,支持国内数据合规需求的开源语言大模型,并且已经全面开放商用许可。
这次开源的包括70亿参数和330亿参数的基础模型,AquilaChat对话模型,以及AquilaCode‘文本-代码’生成模型。
悟道 · 天鹰 Aquila 开源地址:
https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
性能更强
在技术上,Aquila基础模型(7B、33B)在技术上继承了GPT-3、LLaMA等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的tokenizer,升级了BMTrain并行训练方法,在Aquila的训练过程中实现了比Magtron+DeepSpeed ZeRO-2 将近8倍的训练效率。
具体来说,首先是得益于一个并行加速训练框架的新技术。
智源去年开源的大模型算法开源项目FlagAI,里面集成了BMTrain这样的新的并行训练方法。在训练过程中,还进一步优化了它的计算和通信以及重叠的问题。
其次,智源率先引入了算子优化技术,跟并行加速方法集成到一起,进一步获得了性能的提速。
又学中文,又学英文的大模型
悟道·天鹰(Aquila)的发布,为什么如此值得鼓舞?
因为很多大模型都‘只学英文’——只基于大量的英文语料训练,但悟道·天鹰(Aquila)又要学中文,又要学英文。
大家可能有亲身体验:一个人学知识的时候,如果一直用英文就没问题,但如果一下学英文,一下学中文,难度就会爆棚。
所以,比起LLaMA、OPT这类以英文为主的模型,需要同时学习中英文知识的悟道·天鹰(Aquila)的训练难度提升了很多倍。
为了让悟道·天鹰(Aquila)针对中文任务达到优化,在它的训练语料上,智源放了将近40%的中文语料。究其原因是智源希望悟道·天鹰(Aquila)不只能生成中文,还能读懂大量的中文世界的原生知识。
另外,智源还重新设计实现了中英双语的tokenizer(分词器),这是为了更好地识别和支持中文的分词。
在训练和设计的过程中,针对中文任务,智源团队特意会权衡质量和效率两个维度决定分词器大小。
在悟道·天鹰(Aquila)基础模型底座上打造AquilaChat对话模型(7B、33B)支持流畅的文本对话及多种语言类生成任务。
多轮对话
高考作文生成
此外,通过定义可扩展的特殊指令规范,可以实现AquilaChat对其它模型和工具的调用,且易于扩展。
例如,调用智源开源的AltDiffusion多语言文图生成模型,实现了流畅的文图生成能力。配合智源InstructFace多步可控文生图模型,它还可以轻松实现对人脸图像的多步可控编辑。
文图生成
多步可控人脸编辑
AquilaCode-7B‘文本-代码’生成模型,基于 Aquila-7B 强大的基础模型能力,以小数据集、小参数量,实现高性能,是目前支持中英双语的、性能最好的开源代码模型,经过了高质量过滤、使用有合规开源许可的训练代码数据进行训练。
此外,AquilaCode-7B分别在英伟达和国产芯片上完成了代码模型的训练,并通过对多种架构的代码+模型开源,推动芯片创新和百花齐放。
文本-代码生成
更合规、更干净的中文语料
相比国外的开源大模型,悟道·天鹰(Aquila)的最鲜明的特点就在于,它支持国内数据合规需求。
国外大模型可能具备一定的中文能力,但是几乎所有国外开源大模型使用的中文互联网数据,都是从像 Common Crawl 这样的互联网数据集上抽取的。
但如果对Common Crawl语料进行分析可以发现,它100万条里可用的中文网页只有不到4万个,并且其中83%是海外的网站,在质量上明显不可控。
因此,悟道·天鹰(Aquila)并没有使用Common Crawl里的任何中文语料,而是用的智源自己过去三年多积累的悟道数据集。悟道中文数据集来自一万多个中国大陆网站,因此它的中文数据更加满足合规需要,更加干净。
总的来说,这一次的发布只是一个起点,智源的目标是,打造一整套大模型进化迭代流水线,让大模型在更多数据和更多能力的添加之下,源源不断地成长,并且会持续开源开放。
值得注意的是,悟道 · 天鹰(Aquila)在消费级显卡上就可用。比如7B模型,就能在16G甚至更小的显存上跑起来。
天秤(Flag Eval)大模型评测体系
一套安全可靠、全面客观的大模型评测体系对于大模型的技术创新和产业落地也十分重要。
首先,对于学术界来说,如果想要促进大模型的创新,就必须有一把尺子,可以去衡量大模型的能力和质量到底如何。
其次,对于产业界来说,绝大多数企业都会选择直接调用已有的大模型,而不是从头研发。在挑选时,就需要一个评测体系来帮助判断。毕竟,自研基础大模型依赖庞大的算力成本。研发一个300亿参数的模型,需要的经费包括算力、数据等,至少要两千万。
此外,是否有能力打造一套‘自动化评测+人工主观评测’的大模型全面评价系统,并实现从评测结果到模型能力分析,再到模型能力提升的自动闭环,已经成为基础大模型创新的重要壁垒之一。
为了解决这一痛点,智源研究院选择优先推出天秤(Flag Eval)大模型评测体系及开放平台(Flag Eval.baai.ac.cn)。
天秤(Flag Eval)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。
具体来说,天秤(Flag Eval)大模型评测体系创新性地构建了‘能力-任务-指标’三维评测框架,能够细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。
目前,天秤(Flag Eval)大模型评测体系包含了总计600+评测维度,包括22个评测数据集和84,433道题目,更多维度的评测数据集正在陆续集成。
此外,天秤(Flag Eval)大模型评测体系还将持续探索语言大模型评测与心理学、教育学、伦理学等社会学科的交叉研究,以期更加全面、科学地评价语言大模型。
30+能力×5种任务×4大类指标=600+维全面评测
视觉大模型系列
在计算机视觉方面,悟道3.0团队打造了具备通用场景感知和复杂任务处理能力的‘悟道·视界’系列大模型。
其中,构建起‘悟道·视界’底层基座的,正是这次6连发的SOTA技术:
多模态大模型‘Emu’,预训练大模型‘EVA’,视觉通用多任务模型‘Painter’,视界通用分割模型,图文预训练大模型‘EVA-CLIP’以及视频编辑技术‘vid2vid-zero’。
1. Emu:在多模态序列中补全一切
Emu是一个接受多模态输入,产生多模态输出的大模型。基于多模态上下文学习技术路径,Emu能从图文、交错图文、交错视频文本等海量多模态序列中学习。
训练完成后,Emu能在多模态序列的上下文中补全一切,对图像、文本和视频等多种模态的数据进行感知、推理和生成,完成多轮图文对话、少样本图文理解、视频问答、文图生成、图图生成等多模态任务。
2. EVA:最强十亿级视觉基础模型
项目地址:https://github.com/baaivision/EVA
论文地址:https://arxiv.org/abs/2211.07636
EVA将语义学习模型(CLIP)和几何结构学习方法(MIM)相结合,并把标准的ViT模型扩大规模到了10亿参数进行训练。一举在ImageNet分类、COCO检测分割、Kinetics视频分类等广泛的视觉感知任务中取得当时最强的性能。
3. EVA-CLIP:性能最强开源CLIP模型
项目地址:https://github.com/baaivision/EVA/tree/master/EVA-CLIP
论文地址:https://arxiv.org/abs/2303.15389
以视觉基础模型EVA为核心开发的EVA-CLIP,目前已经迭代至50亿参数。
和此前80.1%准确率的OpenCLIP相比,EVA-CLIP模型在ImageNet1K零样本top1准确率达到了82.0%。在ImageNet kNN准确率上,Meta最新发布的DINOv2模型和10亿参数的EVA-CLIP持平。
4. Painter:首创‘上下文图像学习’技术路径
项目地址:https://github.com/baaivision/Painter
论文地址:https://arxiv.org/abs/2212.02499
通用视觉模型Painter建模的核心思想是‘以视觉为中心’,通过将图像作为输入和输出,来获得上下文视觉信息,从而完成不同的视觉任务。
5. 视界通用分割模型:一通百通,分割一切
视界通用分割模型具有强大的视觉上下文推理能力,只需给出一个或几个示例图像和视觉提示,模型就能理解用户意图,并完成类似分割任务。
简单来说,用户在画面上标注识别一类物体,即可批量化识别分割同类物体,无论是在当前画面还是其他画面或视频环境中。
6. vid2vid-zero:业界首个零样本视频编辑技术
项目地址:https://github.com/baaivision/vid2vid-zero
论文链接:https://arxiv.org/abs/2303.17599
Demo地址:https://huggingface.co/spaces/BAAI/vid2vid-zero
零样本视频编辑技术‘vid2vid-zero’,首次利用注意力机制的动态特性,并结合现有的图像扩散模型,打造了一个无需额外视频预训练,即可进行视频编辑的模型框架。现在,只需上传一段视频,然后输入一串文本提示,就可以进行指定属性的视频编辑。
中国大模型研究的启蒙者
2018年11月成立的智源研究院是中国大模型研究的启蒙者,经过5年发展,更成为中国大模型研究的标杆。
与其他的机构与众不同地方在于,智源研究院是一家平台性机构。成立之初,智源研究院就将营造人工智能创新生态作为基本使命和任务之一。
从创立至今,智源都如何推动了中国大模型研究的发展?
其实,智源研究院的成立恰恰赶在了国外大模型萌芽初现的一个契机。
说起来,2015年成立的OpenAI研究的主要方向是探索通往AGI的路线,也不是大模型。
从2018年后,OpenAI才开始集中转向大模型,并在6月发布了有1.17亿参数的GPT。同年,谷歌还发布了大规模预训练语言模型BERT,有3亿参数。
所有人都注意到,2018年的整个产业趋势、技术趋势都是做更大的模型。
随着模型所用算力增长,摩尔定律变成所谓的‘模型定律’,即训练大模型所用算力3-4个月翻一番。
也正是2018年,智源研究院成立,率先汇聚了AI领域的顶尖学者,开启了大模型探索。
由此,2021年,智源连着发布了悟道1.0,悟道2.0两代大模型。
据黄铁军介绍,在2021年3月,悟道1.0发布会上,智源研判人工智能已经从‘大炼模型’转变为‘炼大模型’的新阶段,从此,‘大模型’这个概念进入公众视野。
每年的智源大会,都会重述攀登AGI高峰的三大技术路线:大模型、生命智能和AI4Science。这三条路线不是孤立的,它们之间相互作用和影响。
如今,大模型涌现能力出现的主要原因来自,背后的海量数据。
语言数据本身蕴含着丰富的知识和智能,通过大模型方式将其提炼出来,用神经网络去表达复杂数据的背后规律。
这是大模型其中一条技术路线是能够通向AGI的合理之处。
这也就解释了,智源为什么最初将重心放在大模型上。2021年3月发布悟道1.0,紧接着6月发布了悟道2.0。
此外,除了大模型,在通往AGI的另外两条路‘生命智能’和‘AI4Science’上,智源也在不断探索。
2022年,智源发布了最高精度的仿真秀丽线虫。这次,智源将仿真线虫研究所用的生命模拟平台‘天演-eVolution’开放,提供在线服务。
天演是超大规模精细神经元网络仿真平台,具有四项显著特点:当今效率最高的精细神经元网络仿真的平台;支持超大规模的神经网络仿真;提供一站式在线建模与仿真工具集;高质量可视化交互,支持实时仿真可视协同运行。
基于天演平台,实现对生物智能进行高精度仿真,探索智能的本质,推动由生物启发的通用人工智能。进一步地,天演团队已将天演接入我国新一代百亿亿次超级计算机-天河新一代超级计算机。
通过‘天演-天河’的成功部署运行,实现鼠脑V1视皮层精细网络等模型仿真,计算能耗均能降低约10倍以上,计算速度实现10倍以上提升,达到全球范围内最极致的精细神经元网络仿真的性能,为实现全人脑精细模拟打下坚实基础。
两年后的现在,智源再次发布悟道3.0系列大模型。
从定位上讲,自悟道2.0发布后,智源作为一个非盈利的平台性机构,不仅是做模型发模型,逐渐偏向为构建大模型核心生态做出独特贡献。
其中,就包括模型背后数据梳理,模型测试,算法测试,开源开放组织,以及算力平台等全方位布局。
智源为什么有这样一个转变?
因为智源深刻认识到,大模型本身不是大模型时代最主要的产品形态,而是一个体系化,以智力服务为特征的一个新的时代。
当前,大模型一定会不断持续演进,不变的是背后的技术迭代,即训练模型的算法。
你每天所见的最新模型,不过是个固化的结果,重要的是训练模型的算法是否先进,成本是否有效降低,背后能力是否可解释、可控。
因此,作为一个平台机构,智源要做的是,把业界训练模型的算法汇聚成一个不断迭代的整体。
这项工作是必要的,智源不仅做大模型算法本身,同时也要花更多时间精力为大模型的技术体系发展添砖加瓦。
比如,智源推出了大型云计算服务平台‘九鼎智算平台’,为大模型训练提供算力、数据、算法的支持。
当然,并不是仅凭智源一己之力,还有产学研一起以开放方式进行协作和迭代。
今年3月,智源发布了FlagOpen飞智大模型技术开源体系,是与多家产学研单位共同构建的大模型开源开放软件体系。
正如黄铁军院长所称,‘我们希望在大模型已然成为人工智能产业发展的主导力量的当下,未来做更多的支撑性工作,为这个时代贡献一份独特力量’。
或许你会问,今年的智源大会与往届相比最大特色是什么?
风格一贯,两个词总结下:专业和纯粹。
智源大会的召开没有任何现实目标,不关注产品如何、投资者如何。
在这里,业界大佬能够以专业角度提出个人观点,做出判断,当然还包括顶级观点的碰撞、争论,不用去考虑诸多现实因素。
‘AI教父’Geoffrey Hinton今年第一次参加智源大会,前段时间还因为后悔毕生工作离职谷歌。他发表了最新关于人工智能安全的观点。
一如既往的‘乐观派’Yann LeCun不会像多数人担忧人工智能风险,在他看来车还没有造好就刹车太不合理,当前还是要努力发展更先进AI技术和算法。
同时,你也会看到会上观点的激烈交锋。Max Tegmark讲述控制人工智能风险。虽和LeCun不能说完全对立,但也有很大差异。
这便是智源大会最大的看点,也是一贯的风格。
这一定位的独特性,从这些年来看,也是愈发重要。
人工智能的发展对全球、对中国的影响越来越大,因此大家需要一个场合,用纯粹方式输出自己的观点,包括思想碰撞、激烈争论。
这样的意义在于,只有越专业,越纯粹,越中立,越开放的会议,越有利于大家更好的把握这样的一个高速发展的时代,同时还能第一整个对人工智能生态发展起独特的作用。
在国外,智源大会同样口碑极好,国际机构将智源大会作为与中国开展人工智能研究合作的一个窗口。
智源这一名字由来,也是智能的源头。因此,举办智源大会已经成为促进人工智能生态发展一个标志性活动。
嘉宾阵容之强大、议题设置之丰富、内容讨论之深度,这些都造就了独一无二的智源大会。
这场专属AI内行的顶级盛会,已成为中国AI领域的亮眼名片。
参考资料:
https://2023.baai.ac.cn/
关键词: