近日,中国科学院自动化研究所等单位的研究人员首次证实,多模态语言模型在训练过程中学会了“理解”事物,这种理解方式与人类非常相似。这一发现为探索人工智能如何“思考”开辟了新的道路,也为未来打造像人类一样“理解”世界的人工智能系统奠定了基础。相关研究成果在线发表在《自然机器智能》杂志上。
人类智力的关键是能够真正“理解”事物。当我们看到“狗”或“苹果”时,我们不仅可以识别它们的外观,如大小、颜色、形状等。,还可以理解它们有什么用,它们能给我们带来什么感受和文化意义。这种全方位的理解是我们认识世界的基础。随着像ChatGPT这样的大模型的快速发展,科学家们开始好奇:他们能从大量的文字和图片中学会像人类一样“理解”事物吗?
传统的人工智能研究侧重于物体识别的准确性,但很少讨论模型是否真正“理解”物体的含义。“目前人工智能可以区分猫狗的图片,但这种‘识别’和人类‘理解’猫狗的本质区别还有待揭示。”中国科学院自动化研究所的论文通信作者何晖光说。
在这项研究中,研究人员借鉴了大脑认知的原理,设计了一个巧妙的实验:让大模型和人类玩“寻找差异”的游戏。实验者会给出三个对象概念(从1854个常见对象中选择),要求选择最不匹配的对象。通过分析高达470万次的判断数据,研究人员首次绘制了大模型“思维导图”——“概念地图”。
何晖光介绍,他们梳理了66个关键视角,代表人工智能如何从海量测试数据中“理解”事物,并给它们取名。研究表明,这些视角很容易解释清楚,与人脑中负责物体加工的区域的神经活动高度一致。更重要的是,能够同时理解文字和图片的多模态模型,“思考”和选择的方式比其他模型更贴近人类。
此外,研究中还有一个有趣的发现。当我们人类做出判断时,我们不仅会看到事物是什么样子的,比如形状和颜色,还会思考它的含义或用途。然而,大模型更依赖于它所学的“文字标签”和抽象概念。“这证明,大模型确实开发了一种有点类似于人类理解世界的方式。”何晖光说。(记者陆成宽)
赞一个