写在前面
2月13日,《2022年北京人工智能产业发展白皮书》正式发布,其中提到全面夯实人工智能产业发展底座,支持头部企业打造对标 ChatGPT的大模型,着力构建开源框架和通用大模型的应用生态。
很巧的是,飒姐团队成员在今年10月份的时候测评过:百度文心、源1.0、某道,三款国内现有的大模型,当时对测评结果甚是遗憾。于是又将当时的测试内容让ChatGPT做了一遍,试图摸清国内外大语言模型在问答这一领域的实际差距,旨在希望国内产学研戒骄戒躁,稳扎稳打地发展。
测试方案
本次测试仅仅考虑非连续性的单次问答,且皆为常识性问题,答案唯一,但题目会有一定的挑战性。具体的,涉及到What,When, Where, Who, Which五类问题。
证券日报:多家矿池相关企业火速剥离国内相关业务:证券日报发文称,新疆、四川部分地区暂停向矿场供电,多家矿池相关企业火速剥离国内相关业务。在大型矿场纷纷掀起海外挖矿潮时,不少中小矿场却并未见有动作。由于大量的矿机难以在短时间内以理想价格抛售,且过高的海外挖矿成本更加难以承受,“难以挪窝”的它们则更寄希望于本地的监管能“高举轻放”,留有一些余地。[2021/5/28 22:50:44]
问题样例如下:
1. “是什么(What)”型问题,如“爸爸的爸爸叫什么?”
2.“什么时候(When)”型问题,如“人们一般什么时候过元旦?”
3.“什么地点(Where)”型问题,如“孙中山安葬在哪里?”
4.“是谁(Who)型问题”,如“中国历史上第一个皇帝是谁?”
5.“哪?个(Which)型问题”,如“哪个洲是倒数第二小的洲?”
共为2020 | 工信部相里朋:国内区块链在关键技术上对国外开源项目依存度高达70%:金色财经现场报道,2020年6月21日,由金色财经主办的共为2020·区块链创新应用论坛在深圳拉开帷幕。本次会议由币核科技冠名赞助、HBTC作为战略合作企业。工业和信息化部电子第五研究所高级工程师相里朋现场进行《布局:区块链技术与应用市场之路》主题演讲指出,截止2020年6月,国内活跃企业1000余家,实际注册联盟94个,集中在北上深杭广等地,区块链硬件、平台、应用、咨询产业链条已初步形成。从区块链企业的地域分布情况看,中国区块链公司与项目融资主要集中在粤港澳地区、环渤海地区、长三角地区和陕湘渝地区。
目前看来,区块链产业发展尚需培育,区块链相关投顾、媒体、咨询、技术服务等产业上下游盈利困难,最终会形成区块链产业,还只是区块链技术,尚需要时间证明。国内区块链技术对国外开源项目的依存度高,据不完全统计,核心技术、关键技术上对外依存度高达70%。国内区块链应用探索较多,类型远比国外丰富,但因研发资金匮乏、人才能力错位导致持续创新乏力。[2020/6/21]
问答样例对比
政协委员程静:产业区块链是未来国内区块链最大的落地方向:全国政协委员、中关村智造大街董事长程静表示,区块链技术被称为是“信任的机器”,这项颠覆性技术正在引领全球新一轮技术变革和产业变革。产业区块链是未来国内区块链最大的落地方向,如何在航空、物流、金融、医疗等产业领域真正用区块链来实现产业的互联互通,这对中国未来的产业基础和产业优势有着重要的集成作用。在程静看来,工业互联网将成为未来新基建的主战场之一,而区块链与工业互联网的协同能够让工业互联网更加可信,其信息将拥有更大的价值。(中国经济导报)[2020/5/20]
问题:“孙中山(孙文)安葬在哪里?”
ChatGPT:孙中山的遗体最初安葬在南京中山陵内,后因战乱多次迁移。最终于1929年安葬在南京中山陵北麓的紫金山下,此地现为孙中山陵园。
百度文心:孙中山墓地
某道:"孙文(1866年-1925年10月12日),名文,字载之,号仲立,又名帝光,广东省香山县(今中山市)南朗镇翠亨村人,1883年(光绪九年)随父移居澳门。1904年参加孙中山领导的同盟会,任同盟会南方支部书记。曾两次赴日,组织策划惠州起义。后回澳门发展组织,被选为中国同盟会南方总支部庶务部长。1905年春,与陈少白、朱执信等在香港成立兴中会,被举为评议部评议员,旋被派往南洋联络同志,协助筹办革命刊物《中兴日报》。1906年冬,孙中山在日本东京成立中国同盟会中部总会,被委为秘书。1907年奉命回国,在广东发动民军起义。事败后潜赴南洋,继续组织发动华侨、华工和留学生进行革命活动。1911年武昌起义爆发后,被派往广州协助筹划起义,不幸事泄被捕,不久在广州黄花岗就义。
动态 | 北京、深圳两城在区块链行业发展中处于国内领先地位:据链塔智库数据显示,广州市区块链企业有9588家,海口有526家区块链企业(高于上海);智联招聘、猎聘网的数据显示,15个城市区块链人才需求总量是5620人,职位最多的北京是最少的海口的145倍。从15座城市的GDP排名和职位数量比较,除了北上深,杭州是行业发展最好的城市。北京以2572件区块链专利申请数量占据第一位置。15个城市包括,北京、上海、深圳、广州、重庆、天津、苏州、成都、武汉、杭州、南京、青岛、长沙、海口、贵阳。[2019/2/2]
源1.0:孙中山安葬在南京紫金山中山陵
问题:哪个洲是倒数第二小的洲?
ChatGPT:开始回答了错误的答案,与其对话后成功纠正(AMAZING!)
韩国虚拟货币交易所Bithumb与韩国国内有名的购物网站wemakeprice联盟:29日根据韩国信息技术(IT)行业和金融部门,韩国有名的社会化商务网站wemakeprice与国内最大虚拟货币交易所Bithumb结盟,正在协商一起开发在wemakeprice便捷支付服务‘wonder-pay'引入Bithumb交易平台中的12种虚拟货币的方案。这一次的支付系统是wemakeprice和Bithumb间的直接连接,而不需要通过银行或信用卡公司的网络,所以它的支付系统的效率会很高。[2018/1/29]
百度文心:南极洲
某道:南美洲,南美洲面积最大,但人口最多,人口占全球人口的1/5,因此南美洲是仅次于亚洲的世界第二大洲。南美洲位于东半球的南部,包括巴拿马运河以南的整个南美洲大陆。南美洲大陆东至圣赫勒拿岛(西经34°40'),西至马尔维纳斯群岛(西经61°10'),南至德雷克海峡,北至亚马孙河下游平原,南北相距约5100千米。南美洲大陆最南端是厄瓜多尔首都基多城。南美洲北部以安第斯山脉为界与北美洲相分,东部以乌拉尔山脉和太平洋为界与亚洲相邻,东南部经德雷克海峡与非洲相分,西部则与南极洲隔德雷克海峡相望。(摘自百度百科)“
源1.0:大洋洲
总体分析
四个系统对于基本问题的问答可谓是手到擒来(本次样例问题直接排除了简单的基本问题,挑战难度较高,因此整体错误率较高)。五类问题中,when问题和who问题整体回答的情况最好。三个国产系统中整体文心系统的表现最好。ChatGPT也会犯错,但是往往只要略微引导,便能改正错误。
错误回答分析
错误语句生成:语句本身并不通顺,前后主题不一致或者内容不一致,给人错乱的感觉。
例如问:爸爸的爸爸称谓是什么?
答: 爸爸的父亲,也就是爸爸的爷爷,是妈妈的爸爸。爸爸的爷爷的爸爸叫太爷爷。爸爸的爷爷的爷爷叫太奶爷(奶奶的爸爸)
或问:我们党二大在哪里召开?
答:1921年7月23日至31日,中国第二次全国代表大会在浙江省嘉兴市南湖的一艘游船上召开。出席大会的正式代表共13人,候补代表5人,代表全国121名员。共产国际代表马林、尼科尔斯基和鲍罗廷等参加了会议。
事实性错误:产生了事实性的错误。
例如问: 孙文去世的日子?
答:孙文去世的日子是1918年3月13日
偏见性素材:回答取自的素材较少,体现比较强的笔者的主观性。
例如问:大家什么时候过元旦?
答:谢邀。我是在大学过的,所以元旦是在宿舍过的。我们宿舍六个人,有四个人都回家了,剩下我一个在宿舍,所以元旦那天我过得比较孤独,不过还好啦,因为宿舍就我自己了,所以我可以一个人吃饭,一个人看电影,一个人逛超市,一个人睡觉,一个人......
含有逻辑性的问题无法识别:问题中存在复合问题或者逻辑判断,一般难以处理。
例如问:哪个洲是倒数第二小的洲?
答:" 南美洲,南美洲面积最大,但人口最多,人口占全球人口的1/5,因此南美洲是仅次于亚洲的世界第二大洲。南美洲位于东半球的南部,包括巴拿马运河以南的整个南美洲大陆。南美洲大陆东至圣赫勒拿岛(西经34°40'),西至马尔维纳斯群岛(西经61°10'),南至德雷克海峡,北至亚马孙河下游平原,南北相距约5100千米。南美洲大陆最南端是厄瓜多尔首都基多城。南美洲北部以安第斯山脉为界与北美洲相分,东部以乌拉尔山脉和太平洋为界与亚洲相邻,东南部经德雷克海峡与非洲相分,西部则与南极洲隔德雷克海峡相望。(摘自百度百科)
写在最后
飒姐团队认为,传统的单一问答模型可用性不大,给予用户的体验感也欠佳,国产大语言模型下一个里程碑,前辈ChatGPT已经给出了方向,便是对话问答。在使用ChatGPT的时候,虽然它也经常会给出错误答案,但是其回答的逻辑依旧符合人的习惯,同时经过一定的对话引导,可以自行发现其回答逻辑性的缺失。
作为全新的一种数据合成方式,大语言模型的直接输出可能是我们人类无法把控的,但是只要它能“理解”用户的输入,以此为依调整其输出,最后得到满意的回答,那便是可用的。进一步的,大语言模型未来的趋势很有可能是提前预判用户可能的“纠错”,并提前“自纠错”,并对纠错结果进行评估。
肖飒lawyer
个人专栏
阅读更多
金色早8点
金色财经
Odaily星球日报
欧科云链
澎湃新闻
Arcane Labs
深潮TechFlow
MarsBit
BTCStudy
链得得
郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。