当前视讯!国产ChatGPT「套壳」的秘密,现在被找到了
比算力更急缺的是高质量数据
编者按:本文来自微信公众号量子位(ID:QbitAI),作者:衡宇,创业邦经授权发布。
【资料图】
“科大讯飞套壳ChatGPT!”“百度文心一言套皮Stable Diffusion!”“商汤大模型实则抄袭!”……
外界对国产大模型产生质疑已经不是一次两次了。
业内人士对这个现象的解释是,高质量的中文数据集实在紧缺,训模型时只能让采买的外文标注数据集“当外援”。训练所用的数据集撞车,就会生成相似结果,进而引发乌龙事件。
其余办法中,用现有大模型辅助生成训练数据容易数据清洗不到位,重复利用token会导致过拟合,仅训练稀疏大模型也不是长久之计。
业内渐渐形成共识:
通往AGI的道路,对数据数量和数据质量都将持续提出极高的要求。
时势所需,近2个月来,国内不少团队先后开源了中文数据集,除通用数据集外,针对编程、医疗等垂域也有专门的开源中文数据集发布。
高质量数据集虽有但少
大模型的新突破十分依赖高质量、丰富的数据集。
根据OpenAI 《Scaling Laws for Neural Language Models》提出大模型所遵循的伸缩法则(scaling law)可以看到,独立增加训练数据量,是可以让预训练模型效果变更好的。
这不是OpenAI的一家之言。
DeepMind也在Chinchilla模型论文中指出,之前的大模型多是训练不足的,还提出最优训练公式,已成为业界公认的标准。
△主流大模型,Chinchilla参数最少,但训练最充分
不过,用来训练的主流数据集以英文为主,如Common Crawl、BooksCorpus、WiKipedia、ROOT等,最流行的Common Crawl中文数据只占据4.8%。
中文数据集是什么情况?
公开数据集不是没有——这一点量子位从澜舟科技创始人兼CEO、当今NLP领域成就最高华人之一周明口中得到证实——如命名实体数据集MSRA-NER、Weibo-NER等,以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在,但整体数量和英文数据集相比可谓九牛一毛。
并且,其中部分已经老旧,可能都不知道最新的NLP研究概念(新概念相关研究只以英文形式出现在arXiv上)。
中文高质量数据集虽有但少,使用起来比较麻烦,这就是所有做大模型的团队不得不面对的惨烈现状。此前的清华大学电子系系友论坛上,清华计算机系教授唐杰分享过,千亿模型ChatGLM-130B训练前数据准备时,就曾面临过清洗中文数据后,可用量不到2TB的情况。
解决中文世界缺乏高质量数据集迫在眉睫。
行之有效的解决方法之一,是直接用英文数据集训大模型。
在人类玩家打分的大模型匿名竞技场Chatbot Arena榜单中,GPT-3.5在非英文排行榜位居第二(第一是GPT-4)。要知道,96%的GPT-3.5训练数据都是英文,再刨去其他语种,用来训练的中文数据量少到可以用“千分之n”来计算。
国内top3高校某大模型相关团队在读博士透露,如果采用这种方法,不嫌麻烦的话,甚至可以给模型接一个翻译软件,把所有语言都转换成英语,然后把模型的输出转换为中文,再返回给用户。
然而这样喂养出的大模型始终是英文思维,当遇到成语改写、俗语理解、文章改写这类含有中文语言特色的内容,往往处理不佳,出现翻译错误或潜在文化的偏差。
还有个解决办法就是采集、清洗和标注中文语料,做新的中文高质量数据集,供给给大模型们。
开源数据集众人拾柴
察觉现况后,国内不少大模型团队决定走第二条路,着手利用私有数据库做数据集。
百度有内容生态数据,腾讯有公众号数据,知乎有问答数据,阿里有电商和物流数据。
积累的私有数据不一,就可能在特定场景和领域建立核心优势壁垒,将这些数据严格搜集、整理、筛选、清洗和标注,能保证训出模型的有效性和准确性。
而那些私有数据优势不那么明显大模型团队,开始全网爬数据(可以预见,爬虫数据量会非常大)。
华为为了打造盘古大模型,从互联网爬取了80TB文本,最后清洗为1TB的中文数据集;浪潮源1.0训练采用的中文数据集达5000GB(相比GPT3模型训练数据集为570GB);最近发布的天河天元大模型,也是天津超算中心搜集整理全域网页数据,同时纳入各种开源训练数据和专业领域数据集等的成果。
与此同时,近2个月来,中文数据集出现众人拾柴火焰高的现象——
许多团队陆续发布开源中文数据集,弥补当前中文开源数据集的不足或失衡。
其中部分整理如下:
CodeGPT:由GPT和GPT生成的与代码相关的对话数据集;背后机构为复旦大学。
CBook-150k:中文语料图书集合,包含15万本中文图书的下载和抽取方法,涵盖人文、教育、科技、军事、政治等众多领域;背后机构为复旦大学。
RefGPT:为了避免人工标注的昂贵成本,提出一种自动生成事实型对话的方法,并公开我们的部分数据,包含5万条中文多轮对话;背后是来自上海交大、香港理工大学等机构的NLP从业者。
COIG:全称“中国通用开放指令数据集”,是更大、更多样化的指令调优语料库,并由人工验证确保了它的质量;背后的联合机构包括北京人工智能研究院、谢菲尔德大学、密歇根大学、达特茅斯学院、浙江大学、北京航空航天大学、卡内基梅隆大学。
Awesome Chinese Legal Resources:中国法律数据资源,由上海交大收集和整理。
Huatuo:通过医学知识图谱和GPT3.5 API构建的中文医学指令数据集,在此基础上对LLaMA进行了指令微调,提高了LLaMA在医疗领域的问答效果;项目开源方是哈工大。
Baize:使用少量“种子问题”,让 ChatGPT 自己跟自己聊天,并自动收集成高质量多轮对话数据集;加州大学圣迭戈分校(UCSD)与中山大学、MSRA合作团队把使用此法收集的数据集开源。
当更多的中文数据集被开源到聚光灯下,行业的态度是欢迎与欣喜。如智谱AI创始人兼CEO张鹏表达出的态度:
中文高质量数据只是被藏在深闺而已,现在大家都意识到这个问题了,自然也会有相应的解决方案,比如数据开源。总之是在向好的方向发展,不是吗?
值得注意的是,除了预训练数据,目前阶段人类反馈数据同样不可或缺。
现成的例子摆在眼前:
与GPT-3相比,ChatGPT叠加的重要buff就是利用RLHF(人类反馈强化学习),生成用于fine-tuing的高质量标记数据,使得大模型向与人类意图对齐的方向发展。
提供人类反馈最直接的办法,就是告诉AI助手“你的回答不对”,或者直接在AI助手生成的回复旁边点赞或踩一踩。
先用起来就能先收集一波用户反馈,让雪球滚起来,这就是为什么大家都抢着发布大模型的原因之一。
现在,国内的类ChatGPT产品,从百度文心一言、复旦MOSS到智谱ChatGLM,都提供了进行反馈的选项。
但由于在大部分体验用户眼中,这些大模型产品最主要的还是“玩具”属性。
当遇到错误或不满意的回答,会选择直接关掉对话界面,并不利于背后大模型对人类反馈的搜集。
So~
今后遇到AI生成回答有错误或遗漏时,请不要吝惜一次点击,高举你手中的“”或“”,让大模型能收集更多的人类反馈。
本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。
标签:
推荐文章
- 当前视讯!国产ChatGPT「套壳」的秘密,现在被找到了
- 昆明军事检察院:“执行+救助”维护军人军属合法权益-世界新消息
- 社区智造“嘉” | 网格共治,期待新“蝶变”_全球今日讯
- 三福时尚百货加盟_三福加盟店多少钱 微速讯
- 世界微速讯:吴瑜珍_吴瑜
- 河南发现一座明代墓,墓志铭面世,专家看后:古人也爱开玩笑-今日视点
- 专访真格基金王强:这波AI风口更关注离应用场景更近的技术
- 还钱!知名省会财政局,公开催债!
- 【世界新视野】足球壁纸 | 卡卡 人生当中成功只是一时的,失败...
- 【世界时快讯】崔康熙透露莫伊塞斯伤情,谈德比战关键因素,王大雷:希望赢下去
- 男星割双眼皮前vs割双眼皮后,网友:难怪都爱“整容”了!
- 这些年轻人热捧的副业,其实赚不到钱……
- odd是什么意思中文翻译_odd是什么意思
- 竹井久不吃四的鸡打-E52-向听倒退2|焦点消息
- 云鹤千年手游_云鹤千年官方网站
- 参投产业基金涉关联交易,华盛锂电收监管工作函,公司回应称函件旨在督促各方交易合规
- 芃怎么读(芃怎么读拼音) 全球讯息
- 曙光5000(关于曙光5000介绍) 全球今日报
- iphone7怎样进入dfu模式_苹果7怎么进入dfu模式
- 今亮点!海上石油开发再添利器!万吨海上油气平台来了
- 村网共建“挖呀挖”花园开出“幸福花” 资讯推荐
- 环球热头条丨主角一开始就无敌的小说要全本_主角一开始就无敌的小说完本
- 新乡K9与新乡学院哪个门更容易混淆?找对方向!
- 风尾竹怎么水养(风尾竹怎么水养才能活)
- 【焦点热闻】大灯会眨眼带电也安全 沃尔沃EX90静态体验
- 男宠是啥意思?_男宠是什么意思 天天最新
- 牙膏可不可以带上飞机(民航总局对旅客随身携带物品有明文规定)|天天看点
- 《熟年》热播,宋丹丹挑战自我走出舒适区,和小9岁张国强演夫妻 世界速看料
- 重庆理工大学:擦亮“红岩”品牌高质量建设“大思政课” 焦点热议
- 鲍鱼粉丝蒜蓉家常做法分享做,一口一个停不下来
- 买房不用掏首付,还能“倒拿”50万?
- 报道:瑞典北欧斯安银行:欧元兑美元可能面临进一步下跌
- 富春环保:公司的垃圾焚烧发电项目,因配合杭州市政府拥江发展的规划,已全面拆迁
- fresh面膜套装(fresh面膜怎么敷)
- "辞退+停业"!中证协最新通报!这位同名分析师无辜"躺枪"
- 建湖县第二实验小学向阳校区校长_建湖县第二实验小学 当前关注
- 当前播报:乐视电视刷机纯净版_乐视电视怎么看电视台
- 纽云教育黄金同步官网_纽云黄金同步课程登录-全球今头条
- 全球讯息:北京泛海世家一套房产遭法拍?最终以1.17亿元溢价成交
- 全球快看点丨曼联vs切尔西首发:马夏尔、安东尼先发,穆德里克、马杜埃凯出战
- 江苏省江阴市发布雷暴大风黄色预警 全球快看
- 盘点汽车股 2023 年一季报,乘用车企的苦日子来了
- 最高3万!看见她立即报警!
- 减肥速度太快,有什么后果?几个方法让你健康的瘦下来! 当前视讯
- 天安智慧园区于深圳成立新公司 经营范围包括非居住房地产租赁等
- 世界快消息!容易走向大富的星座
- 韩国一客机舱门飞行中被打开,9人送医
- 西安市育才中学举行青年教师基本功大赛
- 中国将重点在四方面推进与中亚国家经贸合作
- 美国濒临债务违约 民众厌倦党争不休
- 今日52只个股突破年线
- 全国首个跨省域国土空间详细规划发布
- ST浩源:截至2023年5月20日,公司股东14658户,谢谢对公司的关注!
- 【当前独家】医美行业发起自律倡议
最新资讯
- 木瓜汤咋做_木瓜靓汤-当前关注
- 前4月成都网络零售额1912.1亿元
- 文献标识码a是什么意思啊-文献标识码a是什么意思
- 纳米神兵第二季全集完整_纳米神兵第二季全集
- 财报解析丨小鹏营收/利润/销量全线下滑 “蔚小理”即将成为历史?
- 天天信息:搜狐汽车全球快讯 | 比亚迪或考虑在法国建厂 比亚迪:正评估建厂可行性
- 洛克王国里面的火焰玻璃怎么获得?_洛克王国的火焰玻璃怎么得
- 汽车报道:国产MINI公告影响长城汽车A股早盘一字涨停 世界报道
- 合肥包河区幼儿园入园体检单丢了怎么办?
- 每日视点!圣阳股份:目前公司尚未参与中吉乌铁路项目
- 广东金融学院住宿费_广东金融学院附近酒店-天天快消息
- 天天新动态:美股异动 | 网易涨3% Q1业绩超预期
- 焦点热讯:汉莎接收第600架空客飞机!
- 金顶枣阳槊怎么读_金顶枣阳槊
- AI被指写假文致股价下跌,文心一言回应了!|全球实时
- 精彩看点:【BT金融分析师】Adobe收购Figma或存变数,分析师称已受到监管机构关注
- 信科移动:卫星互联网技术是6G的重要技术方向之一 快看
- 天天热文:高考录取分数线是多少?不同院校专业分数差距大吗?
- 全球微速讯:稳定房地产市场仍需努力
- "十二生肖中的爱情王者:谁是最浪漫的生肖?"
- 【世界播资讯】公司问答丨星辉娱乐:公司积极构建孵化创新品类及H5小游戏等产品队伍,开辟了新赛道
- 5月25日能源金属行业十大熊股一览
- 印媒 印度“唯一”的华文报纸说再见
- 全国文化馆服务宣传周正式启动
- EU 2021-1958:机动车智能速度辅助系统(ISAS)认证的具体试验程序及技术要求
- 当前观察:2-3到1-2!大连人送亚冠队上岸,创2大耻辱,谢晖:怪我,被动轮换
- 招商轮船:目前我们没有看到油轮需求减少的明显迹象,淡季油轮运价的坚挺其实也反证了运力供需趋于紧平衡的格局-环球速读
- 吉林大学全面放开转专业限制_全球视点
- 全球快看点丨中金黄金董秘回复: 公司如有上述计划,将按相关规定及时进行披露
- 海口一男子离职后,屡次凌晨“光顾”老东家,只为……-天天最新
- 当前热讯:豫见好丰景——开局之年探“三夏”丨小麦机收大比武唐河开赛
- 国盾量子:融资净买入84.48万元,融资余额2.43亿元(05-24) 今热点
- 长城久润灵活配置混合型证券投资基金恢复大额申购、大额转换转入公告
- 当前聚焦:四大证券报纸头版内容精华摘要(5月25日)
- 新动态:乘用车板块5月24日跌0.97%,上汽集团领跌,主力资金净流出3.27亿元
- 全球今头条!曹鹏公益基金会携手演员万千惠开展关爱自闭症儿童公益直播
- 【环球快播报】武汉炜煌智能科技有限公司
- 北京石景山夜晚去哪里玩?
- 信用卡个性化分期条件是什么?信用卡怎么申请个性化分期
- 烟尘仪_烟尘 环球热点评
- 今日观点!3899元起 OPPO Reno10 Pro+发布 配潜望镜头
- GASGAS:奥古斯托·费尔南德斯证明了他的实力
- 世界热议:调查报告格式范文2000(调查报告格式及范文)
- 泰勒希罗个人资料和图片_泰勒希罗最新篮球明星动态
- 环球观察:南宁慧泊是一只值得解剖的“麻雀”
- 陆金所控股Q1净利润7.32亿元同比大降86%:新增贷款降65% 逾期率全面升高
- 速递!坐便器尺寸不对怎么办 坐便器尺寸
- 世界快报:用友郭金铜:拥抱AI时代 加速企业数智创新
- 江西省“全民防溺水”专项行动启动 天天热点评
- 环球资讯:台风路径发布实时系统_台风路径