微头条丨医疗GPT来了如何破解语料稀缺瓶颈？

炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

华佗GPT通过从ChatGPT中提取“蒸馏数据”，并结合真实世界医生回复的数据，从而试图训练出具备像医生一样诊断能力的大型语言模型。

(相关资料图)

在医疗领域，大型语言模型（LLM）具有广阔的应用潜力。然而，目前类似ChatGPT这样的语言模型在回答患者描述症状时，仍然缺乏精确的专业解读，与医生差距较大。其中很大一部分原因在于训练大模型的数据仍有局限性。

针对这一痛点，香港中文大学（深圳）和深圳市大数据研究院王本友教授团队利用指令微调和强化学习的方法，在ChatGPT和医生的回复中找到结合点，训练并开源了一个新的医疗大模型华佗GPT（HuatuoGPT）。通过从ChatGPT中提取的“蒸馏数据”，并结合真实世界医生回复的数据，从而试图训练出具备像医生一样诊断能力的大型语言模型。

只提取大模型中的特定数据，这在专业上被称为“数据蒸馏”。“这种方法既保留真实医疗数据的专业性和准确性，又借助ChatGPT的多样性和内容丰富性的特点，结合两者的混合反馈进行优化，可以与用户保持流畅的交互。”研究团队表示。

另据介绍，在多轮问诊场景中，团队成员收集了涵盖20个科室的100个多轮对话进行评估。结果显示，华佗GPT在处理更加复杂的多轮问诊场景中的表现优异，在某些性能方面甚至超过GPT3.5。

第一财经记者尝试使用华佗GPT，在问诊中输入：糖尿病的症状有哪些？华佗GPT的回答比较全面；记者又反过来输入糖尿病的某些症状，问是什么疾病？但华佗GPT的回答较为宽泛，答：可能是由多种原因造成的。

“这至少能说明，这个大模型已经拥有了部分疾病谱的语料，例如糖尿病。”一位专注于医疗大模型开发的研究人员对第一财经记者分析称。

他同时指出，医疗领域的数据相对来说较为稀缺，主要由医院掌握，技术公司要获得医疗数据“门槛很高”。“如果把大模型看作是人，语料就是面包，数据就是面粉。”他说道，“语料越丰富，模型也就越强大。”

针对医疗语料缺乏的问题，业内已经开始寻求解决方案。近日，在天桥脑科学研究院（TCCI）主办的一场“面向AI模型的数据生成方法及其对医疗领域的启示”论坛上，研究人员探讨了被称为“自对话”和“自蒸馏”的训练，可以快速构建专属的大模型。

美国加州大学圣迭戈分校博士生许灿文和中山大学团队的合作者提出一种能自动生成高质量多轮聊天语料库的流程，他们利用ChatGPT与其自身进行对话，生成对话数据，再基于产生的对话数据调优，增强开源的大型语言模型LLaMA，获得了高质量的医疗专属模型“白泽”。

许灿文向第一财经记者介绍道，“白泽”在这个过程中并没有学会新的知识，只提取了大模型中的特定数据，并且保留了ChatGPT分点作答的语言能力。通过自动化的“数据蒸馏”，在特定领域能够达到ChatGPT的能力，但成本却远远低于ChatGPT，兼具经济意义和实用意义。尤其是在医疗领域，本地化或私有化建构的模型有助于消除隐私顾虑，辅助患者诊疗。

美国莱斯大学博士生唐瑞祥与合作者提出另一种新策略，即利用大型模型生成大量医疗数据，再通过小型模型对这些数据进行训练。实验结果显示，相较于直接利用大型模型执行下游任务，这一新策略能够取得更出色的效果。同时由于模型数据在本地，这也大幅降低了潜在的隐私风险。

展望未来，业内普遍认为，医疗大模型一方面是要具备广泛的适应性和泛化能力；另一方面是需要从特定任务出发，进一步精细化地处理。

上海交大博士生曹瑞升在TCCI论坛上表示：“在医疗领域，大模型应该能够做到可以针对特定类型的疾病，例如抑郁症进行专业化的任务处理，并提供更加精准和个性化的解决方案。而最终，数据生成和模型训练的过程将从分离走向融合。”

炒股开户享福利，送投顾服务60天体验权，一对一指导服务！

关键词：

阿里大文娱集团与西安市委宣传部签署战略合作协议共筑城市数字文化产业高质量发展	微头条丨医疗GPT来了如何破解语料稀缺瓶颈？
信息咨询服务的经营范围	空调制冷剂哪种好一点（空调制冷剂哪种好）天天百事通
马斯克私人飞机已从北京起飞，前往上海-环球观点	如何在玻璃化合物中添加染色剂
焦点速讯：《奇迹时代 4》：旧系列的变革之路	新动态：“卖崽青蛙”背后，小人物的逆袭
保契锐评丨比亚迪，或将逼出一个干干净净的车险市场	今日热闻!seiko所有型号（seiko手表型号大全）
环球关注：捕龙印txt下载（捕龙印）	津巴布韦总统宣布将于8月23日举行大选
今热点：历时半载抓13人，陕西子长公安破获团伙贩毒案	速讯：山东梁山县“帮扶送教育”活动有声有色
河南要求全力做好小麦保险理赔减少农户损失	身心健康也是礼物！儿童节一起去运动
天天最资讯丨光迅科技：公司是国内重要的数据中心光模块供应商这一，相关产品有应用于东数西算数据中心建设中	全球速讯：马斯克私人飞机已从北京起飞，前往上海
东瑞股份：公司屠宰加工项目已投产，并于5月31日发布投产仪式	当前报道:网球打法一般分为（网球的打法及规则）
2023年天津益中西青学校招生简章	马斯克今晚抵达上海将视察新款Model 3产线
卖房子做出Nature封面成果，他还想为同行众筹个“家”-天天即时	易极：5.31黄金1959空！\|新资讯
2023年华苑枫叶学校招生简章	视讯！美军侦察机蓄意闯入我训练区域实施侦察干扰，南部战区回应
5月31日华宝国证治理指数发起C净值下跌1.51%	世界看点：晟怎么读姓氏语音_晟怎么读
今日热搜：计算机二级什么时候考试报名_计算机二级什么时候考试	环球热资讯！为什么会有印第安酒窝_印第安酒窝
生活的白色垃圾怎么处理最合理_白色垃圾怎么处理	世界通讯！西京在哪个省哪个市？你知道吗？
花色立方消除\|焦点日报	助力中国式现代化建设蒙牛打造全球首座乳业全数智化工厂天天热点评
鲶鱼的营养价值多少钱一斤_鲶鱼的营养价值	如何开网店卖水果_如何开网店-世界信息
焦点消息！快来报名！四川省属高校“组团”招聘啦	记者：米兰就镰田大地加盟已达一致，还在与切尔西谈奇克转会
雷丁汽车所持野马汽车1.2亿元股权被冻结天天新视野	环球百事通！南部战区新闻发言人张南东陆军大校发表谈话
碘缺乏会导致儿童青少年什么疾病_碘缺乏会导致儿童青少年当前速递	世界消息！海边晒伤能白回来吗_海边晒伤后如何修复
太辰光：公司目前生产经营情况正常-环球快报	世界观点：腰椎间盘突出针灸一个疗程是几天_针灸一个疗程是几天
环球播报:2023世界新能源新材料大会将于6月在内蒙古鄂尔多斯举行	5月31日瑞斯康达（603803）龙虎榜数据-热门
全球看点：天津武清区2023年初中招生入学方案	低谷“窒息”四年，贾跃亭爬出深渊？
郑州高新区长椿路小学举行第十三届翰墨文化主题活动月	动力电池回收利用管理办法将加快出炉，新政会带来哪些变化？
《原神》3.7零时召唤柯莱认真胜负攻略\|环球今日讯	世界消息！国新健康: 《董事会议事规则》修订对照表
航宇科技：聘任李杰峰为公司副总经理-世界今日讯	瑞丰银行（601528）5月31日主力资金净卖出644.28万元\|快报
2023世界新能源新材料大会将于6月在内蒙古鄂尔多斯举行	注意！同大股份将于6月16日召开股东大会
广州已建28万多个电动自行车充电端口天天短讯	高校毕业生就业报告：上海职位最多 7.88%的应届生期望起薪过万
重清仓轻保质的“剩菜盲盒”恐怕难以长久	持续发力半日达，菜鸟618在京启动快递夜派，剑指京东？\|世界消息
一图了解：英伟达迈入万亿美元市值俱乐部估值却不合群	讯息：国际油价跌超4.4%、美油跌破70美元关口，后市怎么走
深圳：“演出经济”火热带旺消费新场景	每日热闻!拼多多蚕食京东、阿里地盘大牌矜持面临抉择
英伟达概念被热炒，A股“朋友圈”谁在合作谁在澄清？焦点热闻	【天天热闻】十六年难圆“上市梦”，郎酒“酱香第二”位置也难保了？
【新视野】茅台冰淇淋“狂飙”的一年	高龄女性怀孕需要注意哪些问题？国家卫健委发布会上专家回应
未名医药前实控人、董事长潘爱华被起诉，曾“剪电线”和科兴尹卫东抢疫苗	黑龙江省所有城区(镇)全面取消落户限制，实现“零门槛”落户口_世界热门
赛力斯之谜：市值已蒸发近千亿，连续三年累计亏损超70亿	今日聚焦!国家卫健委发布会上专家谈防控“小眼镜、小胖墩”问题
恒大地产新增被执行4.75亿，累计超370亿\|每日播报	十大黑膏药排名哪个牌子好？河南仙佑集团品牌怎么样？
科研属性遭质疑、与大客户关系密切，盛景微能否成功闯关IPO？-天天通讯	深度融合发展催生深港“反向代购”潮\|全球要闻
世界速读：内蒙古以“含绿量”提升工业经济“含金量”	事关儿童，扩散提醒！市场监管总局发布5种儿童用品消费提示
下架7600批次，召回636.1万件市场监管部门“精准”守护儿童和学生用品安全天天通讯	1－4月份我国电子信息制造业效益持续改善投资稳定增长
“徽酒一哥”猛冲200亿目标，但已痛失全国化发展良机？	焦点热文：古井贡酒次高端势能强劲，全国化进程稳步推进
大元泵业（603757）5月31日主力资金净卖出283.23万元	Intex 连接销的替代品世界今头条
魅族18等四款机型首个Flyme 10稳定版已全量推送世界快播报	北向资金全天净卖出41.67亿元_环球速看
【世界新视野】日本参议院通过允许核电站超年限运营的法案	首批出口50台车已下线，恒大汽车迎来“复牌”曙光世界热文
Top24李宁篮球精英赛在广东佛山落下帷幕	康盛股份：公司目前暂未开展套期保值业务
火影忍者鸣人上小樱图片_火影忍者鸣人上小樱图	二年级计算题一百道_二年级计算题_全球速读
酒水激战“618”：砸钱即盈利的时代过去了？	【世界独家】徐小明：下午有低点
汾酒股东大会的三个关键词：张永踊，青花汾酒，复兴\|天天快资讯	世乒赛女单决赛：陈梦对阵孙颖莎
当前快看：H&M败走北京三里屯，顶流潮牌让位LV、迪奥，年轻人：越来越逛不起了	当前短讯！cr3cr5是什么意思_cr5是什么意思
环球百事通！经济日报：“印太经济框架”充满排他与胁迫	室内高尔夫模拟器（关于室内高尔夫模拟器介绍）_独家

微头条丨医疗GPT来了如何破解语料稀缺瓶颈？

相关阅读

精彩推送

每日推荐

河南要求全力做好小麦保险理赔减少农户损失

要闻

资讯新闻

微头条丨医疗GPT来了 如何破解语料稀缺瓶颈？

相关阅读

精彩推送

每日推荐

河南要求全力做好小麦保险理赔 减少农户损失

要闻

资讯新闻

微头条丨医疗GPT来了如何破解语料稀缺瓶颈？

河南要求全力做好小麦保险理赔减少农户损失