你有没有真正知道什么是“花”,没有闻到花香,没有触摸过花瓣,没有在花园里散步?这个问题引起了很多科学争论。一些认知理论专家认为,个人感受和体验是概念形成的关键,但目前快速发展的大语言模型研究表明,仅仅依靠语言就有可能建立对现实有意义的真实表征。
近日,记者从香港理工大学了解到,该校的研究人员与俄亥俄州立大学、普林斯顿大学和纽约市立大学的研究人员合作,通过分析大语言模型与人类概念表征的相似性,对语言能够在多大程度上促进复杂概念的形成和学习提出了新的见解。相关成果发表在《自然-人类行为》中。
选择ChatGPT和大语言模型ChatGPT以及港工人文学院院长李平领导的研究团队 Google LLMs生成的词汇评分与集中在近4500个单词的人类评分进行比较,其数据是公开发表和验证的格拉斯哥词汇模板和兰卡斯特词汇模板。这些评分涵盖了非感官运动领域,如情感效价、具体性和可形象性;视觉、嗅觉、听觉等感官领域;腿/脚、嘴巴/运动领域,如喉咙。
研究小组以人与人之间的匹配结果为基准。首先,将个别人类和大语言模型产生的数据进行比较,探索人类和大语言模型的词汇评分在上述领域各个维度上的相似性,找出大模型和人类在理解不同领域概念上的一致性,并利用表征相似性进行分析,整合各个领域、多个领域、多个领域的每个词汇的评分数据,进行更全面的人类和模型比较。
结果表明,大语言模型产生的词汇表征与人类表征的相似性在非感官运动领域最高,其次是感官领域,最差的是运动领域。这凸显了大语言模型在表征人类概念方面的局限性。虽然大模型可以有效掌握非感官运动领域的概念,但在理解涉及视觉外观、味觉等感官概念或需要肢体运动体验的运动概念时,其表现明显逊色。其中,动作概念很少被文字完全描述,高度依赖于身体体验。与颜色相比,可以从文本数据中学习到的感官概念更具挑战性。
根据研究结果,研究人员进一步检查了具体训练是否可以提高大语言模型的性能,发现结合视觉输入模型生成的性能与人类性能的相似性明显更高。
文章通讯作者李平说:“纯语言训练和语言训练+视觉输入(如图像和视频等。)训练的大语言模型为研究感官和运动信息如何影响人类概念的形成提供了独特的机会。我们的研究显示了多模式学习的潜在优势,因为实时整合各种模式的信息是人类学习和表征的特征。如果大模型能够吸收这一特征,就能更接近人类的认知模式。"
研究小组指出,未来大语言模型和多模态数据可以通过类人机器人技术进行整合,使其能够积极解读现实世界,并采取相应的行动。李平指出:“技术的发展有望推动大语言模型真正实现人工表征,从而反映人类认知的复杂性和丰富性。”
赞一个