华泰证券:从BloombergGPT看金融GPT机遇|天天快播
2023年3月30日,金融信息提供商彭博社发布了专为金融领域打造的大语言模型(LargeLanguageModel,LLM)BloombergGPT。该模
中财网 2023-04-03 17:00:30
2023年3月30日,金融信息提供商彭博社发布了专为金融领域打造的大语言模型(Large Language Model,LLM)Bloomberg GPT。该模型依托彭博社的大量金融数据源,构建了一个3630亿个标签的数据集,支持金融行业内的各类任务,在执行金融任务上的表现远超过现有模型,在通用场景上的表现与现有模型也能一较高下。
【资料图】
华泰证券分析师谢春生(执业:S0570519080006)认为,掌握金融数据的国内厂商也有望复制Bloomberg GPT的路径,实现大语言模型在金融场景的有效赋能。
核心突破在于金融语料
尽管Bloomberg GPT的模型参数介于GPT-2与GPT-3之间。但BloombergGPT的金融垂直能力远超GPT系列。
分析师指出:
根据论文《Bloomberg GPT: A Large Language Model for Finance》的模型介绍显示,Bloomberg GPT同样基于典型的Transformer架构,Bloomberg GPT的模型参数介于GPT-2与GPT-3之间,GPT-2模型参数为1.5亿,GPT-3模型参数为1,750亿,Bloomberg GPT的模型参数为500亿。
官方论文《Bloomberg GPT: A Large Language Model for Finance》中的测试结果显示,Bloomberg GPT在执行金融任务上的表现超过现有的通用LLM模型,在通用场景上的表现与现有通用LLM模型能力基本持平。
尽管Bloomberg GPT的模型参数相较于GPT-3较小,但分析师表示,依托彭博社的大量金融数据源,Bloomberg GPT在预训练中获得了大量高质量金融数据,并对预训练数据进行了一系列的清洗、标注,Bloomberg GPT在通用能力与GPT-3基本持平的情况下,实现了金融垂直能力的大幅增强。
开拓开源模型+垂直数据的LLM新思路
Bloomberg GPT在开发方式上有何独特之处?分析师认为,在模型构建上,Bloomberg GPT显示出了卓越的创新,为国内金融数据公司开发大模型提供了有意义的路径参考。
具体而言,主要体现在五个方面:
1)垂直领域语言模型:过去的大语言模型多为基于通用文本训练的通用模型,垂直领域模型多为仅基于垂直领域数据训练垂直模型,Bloomberg GPT开创了通用+垂直的混合训练方法,让模型兼具通用性与专业性;
2)训练数据:过去的大语言模型的预训练数据很大程度上依赖于网页抓取数据,如C4、ThePile、Wikipedia等,Bloomberg自建了高质量的大规模金融数据集;
3)模型评估:Bloomberg在对模型进行了公共、金融NLP基准测试之外,还对模型进行了一系列基于Bloomberg内部任务的性能测试;
4)Token化(Tokenizer):将训练文本Token化是模型训练的关键步骤,Bloomberg使用Unigram模型取代greedymerge-basedsub-word模型,实现更智能的token化转换;
5)模型构建方法:以GPT-3、GPT-4为代表的大语言模型均由大型的专业人工智能团队开发,并且模型训练需要大量算力;受益于开源模型BLOOM的项目实践与Bloomberg在垂直领域高质量数据的深厚积累,Bloomberg GPT成功证明了一个中等规模的团队可以在垂直领域的特定数据上生产同样具有竞争力的大语言模型。
金融GPT未来可期
分析师认为,Bloomberg GPT未来有望应用于以下三大场景:
1)Bloomberg查询语言的生成:Bloomberg GPT可以将用户自然语言查询转换为有效的Bloomberg查询语言,使与金融数据的交互更加自然;
2)新闻标题的建议:Bloomberg GPT可以为Bloomberg的新闻应用程序提供支持,协助新闻工作者完成新闻短标题的撰写;
3)金融问答:得益于金融垂直领域知识的输入,Bloomberg GPT可以更加准确地回答金融相关的问题,例如在识别公司CEO的问答上,Bloomberg GPT的回答相较通用模型更为准确。
分析师指出,作为并非聚焦人工智金融垂直领域厂商,Bloomberg为金融GPT发展提供了具有参考价值的有益示范。
掌握丰富的金融垂直知识与现有AI产品布局,基于高质量的金融数据与开源的大语言模型,同样有机会打造专属金融场景的大语言模型,实现大语言模型在金融场景的有效落地,让大语言模型成为底层的AI操作系统。
2023年3月30日,金融信息提供商彭博社发布了专为金融领域打造的大语言模型(LargeLanguageModel,LLM)BloombergGPT。该模
中新社南京4月3日电记者3日从中国科学院紫金山天文台获悉,在大地繁花似锦之际,天宇开启花样浪漫之旅。4月份,昴星团伴金
4月3日,据智车派了解,长安旗下车型长安CS35PLUS(图片|配置|询价)畅享版正式上市。新款车型主要针对外观以及内饰进行小幅度调整,共推出自动
本文目录一览1,松姬茸有何功效什么人不能吃2,姬松茸的功效与作用是什么3,松茸蘑菇的松茸的营养价值4,松茸有什么功效5,姬松茸的功效6,姬
汽车现在已经越来越普及,基本上都快实现每家每户都有汽车了,那么汽车这么多的情况之下,我们在用车的过程当中肯定也就会遇到各
法国真人版《猫眼三姐妹》先导海报近日,据外媒报道,法国将翻拍真人电视剧版《猫眼三姐妹》,先导海报一同曝光。海报中,三姐妹背影出镜,在
工厂员工工作总结范文简短第1篇20xx年已接近年终,xx车间今年的生产及管理工作即将告一段落。回顾一年来的忙碌与付出车间在厂部的带领下,紧跟
完败!字母33+14替补爆发,哈登11+6很无奈,恩比德该跟MVP说再见,雄鹿队,霍勒迪,76人队,美国篮球,阿德托昆博,乔尔·恩比德,詹姆斯·哈登,国际
今日NBA常规赛,湖人客场134-109轻取火箭。赛后浓眉接受了采访。谈到自己本场表现时,浓眉说道:“我感觉我回到受伤前的状态了。”本场比赛,
中国地震台网正式测定:04月03日03时32分在南海海域(北纬6 50度,东经115 80度)发生6 1级地震,震源深度600千米。
如今在进入职场工作后,相信不少员工都渴望跟领导维护好关系,毕竟领导是上级是上司,作为员工就应该在公司里听从领导的命令和指令,如果跟领
《最后的生还者》有着垂直同步的设置选项,因为游戏比较大,所以任何一个设置都会较大的影响到玩家的游玩体验。这个垂直同步也是这样,其实游
北京时间4月3日,根据意大利知名记者罗马诺的最新消息,切尔西俱乐部已将上个月刚刚从拜仁离任的纳格尔斯曼视为球队新帅的最佳人选。就在不久
近日,乌江渡发电厂“双周夜校”在全厂干部职工的期待中如期开讲,旨在进一步提升乌江渡发电厂青年骨干的综合素质和履职尽责能力
在文字中相遇在声音中相知敬请收听读创 深圳商报“读创诵读”—————————▼—————————朗诵:赵玉(读创 深圳商