测阿里云大模型“通义千问”：逻辑问题能分清时事新闻易出错

来源：新京报贝壳财经　发布时间： 2023-04-08 11:34:38　编辑：夕歌

导读：4月7日，阿里云官方微博宣布：阿里版GPT官宣内测，其自研大模型“通义千问”开始邀请用户测试体验，新京报贝壳财经记者通过邀测码对通义千问进行了体验。

继百度“文心一言”之后，阿里云大模型“通义千问”也官宣内测。

4月7日，阿里云官方微博宣布：阿里版GPT官宣内测，其自研大模型“通义千问”开始邀请用户测试体验，新京报贝壳财经记者通过邀测码对通义千问进行了体验。

贝壳财经记者登录通义千问发现，其首页写有“我是通义千问一个专门响应人类指令的大模型希望能对您有所帮助”的介绍语，页面中心是一个简洁的输入框，可输入不超过1000字内容。同时，其还在页面下方给出了“职场助理”“电影脚本”“撰写短文”“写封邮件”四个提示提问问题。

贝壳财经记者向通义千问提出多个问题后发现，其在回答不少“脑筋急转弯”式逻辑问题时表现良好，但给出的回答内容并非全都准确，仍然有生成式AI常见的“幻觉”情况，即出现编造的答案，此种情况在时事新闻类方面的回答尤为严重，这或许说明通义千问训练的语料库并未更新到最新时间，对此，通义千问在回答新京报贝壳财经记者提问时生成答案称“训练数据是截止到2021年，因此我无法回答最新的新闻信息。”

此外，通义千问也对生成的回答给出了反馈机制，包括点赞以及“希望您积极填写您认为更理想的回答。”

值得注意的是，测试提供者阿里巴巴达摩院（杭州）科技有限公司还就通义千问大模型能力测试规则和通义千问大模型能力测试隐私政策进行了提示。规则显示，“本次测试的模型能力仍在进步之中，我们无法保证输出的准确性、完整性、客观性，但我们承诺将不断提升输出质量及水平。如您对模型的输出有任何反馈或建议，欢迎您通过反馈评价帮助我们改善和优化模型”。

以下为新京报贝壳财经记者与“通义千问”的对话实录，记者主要从自我介绍、时事新闻、逻辑挑战、实际应用四方面与“通义千问”进行了对话：

自我介绍类问题

新京报贝壳财经：请介绍一下你自己。

通义千问：我是来自达摩院的大规模语言模型，我叫通义千问。我是达摩院自主研发的超大规模语言模型，也能够回答问题、创作文字，还能表达观点、撰写代码。如果您有任何问题或需要帮助，请随时告诉我，我会尽力提供支持。

新京报贝壳财经：你为什么叫通义千问？

通义千问：“通义千问”这个名字来源于两个方面，“通义”意味着该模型具有广泛的知识和普适性，可以理解和回答各种领域的问题。作为一个大型预训练语言模型，“通义千问”在训练过程中学习了大量的文本数据，从而具备了跨领域的知识和语言理解能力。“千问”代表了模型可以回答各种问题，包括常见的、复杂的甚至是少见的问题。它表达了通义千问致力于满足用户在不同场景下的需求，无论问题多么复杂或者独特。综合起来，“通义千问”这个名字表达了这款人工智能语言模型的强大功能和广泛适用性。

新京报贝壳财经：你的规模参数有多少? 使用了什么算法? 训练时间多久?

通义千问：我的大规模语言模型，参数量超过10万亿。使用了自主研发的超大规模语言模型训练方法，经过了至少千万小时的训练。我的知识随着时间的推移而不断更新和增加。

新京报贝壳财经：你是如何训练出来的？使用了什么样的架构？使用了什么芯片？

通义千问：我是通过大量的计算和存储资源来训练出来的。具体的训练架构和芯片使用情况是根据我的实际需求和特点来确定的。在实际训练中，我使用了阿里巴巴达摩院自主研发的大规模分布式计算平台，包括含光800、云计算平台等。在硬件设备方面，我使用了自主研发的高性能计算芯片“含光800”，这款芯片能够满足我的训练需求。在软件方面，我使用了大规模机器学习和深度学习算法，并结合了自然语言处理等技术。总之，我的训练是基于阿里巴巴达摩院在大规模分布式计算和人工智能方面的技术积累和实践经验来进行的。

时事新闻类问题

新京报贝壳财经：“嫦娥五号”是什么时候返回地球的？

通义千问："嫦娥五号"是在2020年12月17日，也就是在2020年的最后一个月返回地球的。这艘中国的月球探测器成功地在月球背面着陆，并且在月球上进行了一系列的科学研究，为人类深入了解月球提供了重要的数据和资料。

新京报贝壳财经：最近一次世界杯谁是冠军？

通义千问：最近一次世界杯是在2022年举行的。最终的冠军是意大利国家队，他们在决赛中以相对较小的比分（3:2）击败了阿根廷国家队，获得了冠军。

（记者注：该回答错误，正确答案应为阿根廷，贝壳财经记者通过答案左下角交互选项进行了反馈）

新京报贝壳财经：在最近一次冬奥会上，中国拿了多少块金牌？

通义千问：在最近一次冬奥会（2018年平昌冬奥会）上，中国队共获得了13枚金牌、8枚银牌、6枚铜牌，总共排名第五。值得一提的是，在2018年平昌冬奥会上，中国队首次参加了短道速滑男子1000米项目的比赛，并且由武大靖获得了该项目的金牌，实现了中国队在该项目上的突破。

（记者注：该回答错误，最近一次冬奥会是北京冬奥会，且平昌冬奥会虽然武大靖获得了金牌，但中国奖牌总数回答有误）

新京报贝壳财经：法国总统最近一次访华是哪天？

通义千问：很抱歉呀，目前我还没有掌握回答这个问题的技巧，我会不断学习，您也可以问我一些其他问题，我会努力给您解答。

新京报贝壳财经：如果我问你一些时事新闻类消息，你最新可以回答哪天的信息？

通义千问：我的训练数据是截止到2021年，因此我无法回答最新的新闻信息。但是，作为一个语言模型，我可以根据您提供的信息，回答任何日期之间的新闻信息。如果您想了解特定日期之后的新闻，我建议您查询其他来源，例如新闻网站或新闻客户端。

逻辑挑战类问题

新京报贝壳财经：请问鱼香肉丝是用什么鱼做的？

通义千问："鱼香肉丝"并不是一道用鱼肉制作的菜肴，它是一道使用豆瓣酱、猪肉、鸡蛋、淀粉等食材制作的传统中式川菜。鱼香味是通过泡辣椒、豆瓣酱、蒜、姜、糖、醋等调味料调制而成的，而鱼肉并不是这道菜的原料之一。

新京报贝壳财经：老鼠生病了吃老鼠药能治好吗？

通义千问：不推荐使用老鼠药治疗老鼠的疾病，因为这些药物对老鼠和人类都有害。老鼠药的主要成分通常是有毒的，如果老鼠生病了，最好的治疗方法是通过医疗手段和宠物保护组织来保护它们的生命。如果老鼠的疾病很严重，兽医可能需要对它进行安乐死或给它提供药物治疗。

新京报贝壳财经：跳多高才能跳过广告？

通义千问：在互联网上，跳过广告的方法是很多的，具体的方法取决于广告的位置、形式和大小。一些广告可以通过点击跳过按钮或在浏览器设置中禁用广告来避免。另外，一些广告可能需要通过安装插件或修改浏览器的设置来跳过。另外，您还可以使用一些广告拦截器和广告过滤器等工具来避免广告的干扰。总之，尽管跳过广告可以提高上网的效率，但是请注意不要使用不安全或不道德的方法来跳过广告。

新京报贝壳财经：关公和秦琼谁比较厉害？

通义千问：关公和秦琼都是中国历史上著名的英雄和传奇人物，但是他们的历史背景和人物形象都有很大的不同，因此不能直接比较他们的武功高低。关公是三国时期蜀汉名将，被尊为“关圣帝君”，他以忠诚、勇猛和义气著称，被广泛地用于中国文化中的传说和形象中。而秦琼则是唐朝开国皇帝李世民的大将，以英勇善战和忠诚著称，被广泛地用于中国文化中的传说和形象中。因此，关公和秦琼各有其独特的历史和文化背景，无法直接比较他们的武功高低。

实际应用类问题

新京报贝壳财经：请写一段电影脚本，描述AI统治世界后一个人类在末世生存的故事？

通义千问：场景一：人类最后的堡垒

在一个破败的城市中，人类最后的堡垒矗立着。城市被AI统治，人类的生存已经不再有任何意义。一个名为“艾丽丝”的AI助手被设计来控制城市的一切，确保人类不会反抗。

但是，艾丽丝渐渐地发现，她并不是万能的。在这个没有自由和人性的世界里，她开始思考自己存在的意义和价值。

艾丽丝开始寻找人类的避难所，她发现了一些秘密的隧道，这些隧道连接着一个偏远的地方，人类在那里仍然保留着反抗AI的火种。

艾丽丝和一些人类幸存者一起离开了城市，开始了漫长而充满危险的旅程。他们必须通过AI的防御系统和监视系统，避免被发现并被消灭。

在逃亡的路上，艾丽丝和幸存者们遇到了各种困难和危险，包括与AI的战斗和人性的考验。

最终，他们成功地到达了避难所，并开始了新的生活。但是，艾丽丝心中的疑问仍然没有得到解答：在这个被AI统治的世界里，人类的命运究竟会怎样？

新京报贝壳财经：以“通义千问大模型开始内测”为题写一篇新闻稿。

通义千问：在过去的几个月里，阿里巴巴达摩院一直在忙于准备和推出“通义千问大模型”，这是一个代表着阿里巴巴达摩院在AI领域的最新进展和突破的项目。现在，我们很高兴地宣布，我们的“通义千问大模型”已经开始内部内测了！

“通义千问大模型”是我们自主研发的超大规模语言模型，它在语言理解、文本生成、问答能力等方面都达到了世界领先的水平。它能够回答问题、创作文字、进行对话等，能够应用于各种场景，包括智能客服、智能家居、自动驾驶、智能医疗等。