岁数两岁，教龄一年半：婴儿ai训练师登上science

李筱婷 2024-02-04 04:23 855

"岁数两岁，教龄一年半：婴儿ai训练师登上science,这篇新闻报道详尽，内容丰富，非常值得一读。这篇报道的内容很有深度，让人看了之后有很多的感悟。作者对于这个话题做了深入的调查和研究，呈现了很多有价值的信息。这篇报道的观点独到，让人眼前一亮。新闻的写作风格流畅，文笔优秀，让人容易理解。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台首页快讯资讯推荐财经(Finance)科技(Technology)创新城市最新创投汽车(Car)企服专精特新直播视频专题活动搜索寻求报道我要入驻城市合作年龄两岁，教龄一年半：婴儿AI训练师登上Science机器之心·2024-02-02 17:52关注61 小时视频数据教 AI 学单词。

只用 61 个小时的数据：人们终于证明了，利用(Use)当代 AI 工具，达成「真正的语言学习」是可行的。

在公开采访中，图灵奖得主 Yann LeCun 多次提到，现在的 AI 模型和人类婴儿相比，学习效率实在是太低了。那么，如果让一个 AI 模型去学习婴儿头戴摄像头拍到的东西，它能学到什么？

最近，Science 杂志上的一篇论文进行(Carry Out)了初步尝试。研究发现，即使数据有限，AI 模型也能从 10 到 100 个例子中学到单词 - 视觉所指对象之间的映射，而且能够零样本地泛化到新的视觉数据集，并达成多模态对齐。这说明，利用(Use)当今的人工智能工具，从婴儿的视角进行(Carry Out)真正的语言学习是可能的。

年龄两岁，教龄 1 年半，Sam 是怎么教 AI 学习的？

这一次，人工智能通过婴儿的视角看世界来学习语言。

神经网站通过人类婴儿的视觉经验，自行学会了识别物体，这为人类学习提供了新的见解。

AI 通过 Sam 佩戴的头盔式摄像机所拍摄的音视频学习。

当婴儿听到「球」这个词时，他们(They)是如何将这个词的语义与圆形、有弹性的物体（即正确的视觉所指对象）联系起来的呢？哲学家和认知科学家都认为，婴儿在学习新词时，需要从众多候选意项中挑出正确的那一个。

婴儿非常擅长学习词汇。在 6 到 9 个月大的时候，他们(They)开始将单词与眼前的物体建立起音形义的联系。到 18 到 24 个月大的时候，他们(They)已经能理解约 300 个单词。

那么，孩子们是如何快速学会眼前物体的名称的呢？他们(They)又是如何建立起物体的意义和其视觉之间的联系呢？这些问题都需要进一步的探索和研究。

此前，已有一些相关理论在实验中得到了验证。有学者认为单词学习是由简单的、能串联起各领域的联想学习机制驱动的。但是这些理论通常是在婴儿不同的成长时间段测量的，不能揭示某种促进单词学习因素的相对重要性，也不能从中构建计算模型、为计算机模型能获得像人一样的学习能力提供指导。

如果一个模型能够通过孩子的眼睛和耳朵感知世界，那么它是否像解释人类词汇学习能力的联想学习理论一样，能够仅通过基于物体表征的联想学习，理解并整合物体的形体和语义呢？可能者，它是否需要借助其他的认知能力，比如归纳偏置（inductive biases），来启动这种能力呢？

为了得到这些问题的答案，来自纽约大学(University)的研究者们对最简单的词汇学习理论进行(Carry Out)了前所未有的测试：他们(They)给一个婴儿戴上了头戴式摄像机，并检查模型是否能够从这部摄像机的视频记录中学习到单词与其视觉所指对象之间的映射关系。

戴上摄像机的是来自澳大利亚的 Sam，从 6 个月大到大约 2 岁，他每周头戴摄像机两小时（约占清醒时间的 1%）。

研究团队根据 Sam 的视频建立了 SAYCam-S 数据集。他们(They)从中选取了 61 个小时的录像，其中包含 60 万张视频帧与 3.75 万段经过转写的录音，记录了大约 25 万个单词实例以及对应的图像。这些图像是 Sam 在玩耍、阅读和进食等活动期间拍摄的。

研究团队根据这些数据来训练神经网站，并得到了儿童视角对比学习模型 CVCL。CVCL 采用了对比学习的技术，以学习哪些图像和文本经常一起出现，哪些不会，从而获得预测某些词汇（如 “球” 和 “碗”）所指代图像的能力。

研究发现，CVCL 可以从一个孩子有限的经验片段中充分学习多模态表示。CVCL 能够将一系列日常词汇与分类任务中相应的视觉所指对象匹配起来，大规模对齐视觉和语言概念，并将此能力泛化到训练中未见过的新例子中。该研究表明，多模态表征学习与领域通用的联想学习机制相结合，能够为计算机学习单词带来突破。

具体来说，研究者根据多模态模型研究的最新进展设计了 CVCL。CVCL 整合了表示学习和联想学习，用一个对比目标来协调视觉编码器和语言编码器两个神经网站。

如图 1 所示，对比目标以自我监督的方式进行(Carry Out)训练（即只使用儿童视角的记录，不使用外部标注），模型将目标在视频帧和语言片段共同出现的情况转化为向量提取出来，将其视为正面例子，同时将不共同出现的转化成向量分离出来，视为隐含的负面例子。

提取到正面例子后，CVCL 将这些时间向量转换为学习和调整多模态表征的学习信号。这种方法既不需要对词义进行(Carry Out)限制，也不需要预先列出可能的视觉所指对象，能从婴儿记录的视频中恢复许多基本的单词与其视觉所指对象的组合。

评估 CVCL 获得的词汇，对应视觉所指对象的结果(Result)

训练完成后，研究团队评估了 CVCL 以及各种类似的模型学习到的单词 - 视觉所指对象组合的质量。根据一种针对儿童的常见测试，研究团队向模型提示了一个目标类别标签，让模型根据四个候选图像与标签的余弦相似度中选择相应的视觉所指对象。

图 2A 显示了标签 S 的测试结果(Result)，总体而言，CVCL 的分类准确率为 61.6%。图 2D 显示了模型在不同标签中的具体结果(Result)，在 22 个概念中，CVCL 对 11 个概念的判断与 CLIP 相差不到 5%。但 CLIP 训练所用的数据量（互联网的 4 亿个图像文本对）远超于 CVCL。为了解决分类重叠等潜在问题，研究团队还手动筛选出了子集进行(Carry Out)了后续评估。

为了确定 CVCL 捕捉单词含义能力的上限和下限，研究团队还将其与类似模型进行(Carry Out)了实验。为了测试模型将语言和视觉信息对应起来的能力，研究团队将原数据集中共同出现目标物体的视频帧和录音打乱，重新训练了一个模型的变体 CVCL-Shuffled。被打乱后的模型表现不佳，这显示了视觉和语言信息共现对模型学习的关键作用。

为了测试视觉嵌入的有效性，研究者在训练过程中随机冻结了 CVCL 的视觉编码器。尽管模型掌握了如「沙子」和「汽车(Car) 」等少数概念，但如图 2D 处所示，模型的成绩再次大幅下降（M = 38.0%）。

研究者比较了 CVCL 与基于其他数据可能 Oracle 训练数据的 AI 模型，其他模型的训练数据超出了儿童词汇的范围。CLIP 的准确率达 66.7%，比 CVCL 高出 5.1%，这得益于 CLIP 更理解少数单词的含义如「厨房」、「玩具」和「篮子」。

通过以上测试，可见当在一定范围内测试时，CVCL 的性能可以与基于互联网规模数据训练的模型相当。

此外，研究者测试了模型是否能独立对单词进行(Carry Out)分类，而不是根据某些引导儿童的句子得出了判断。他们(They)在初始化的预训练编码器上对线性分类器进行(Carry Out)拟合得到了一个 Linear Probe 模型，新模型准确率达 81.6% ，说明 CVCL 具有独立判断能力。

研究团队量化了在对话中自然(Nature)出现的单词相对直接标记示例对模型训练的价值。如图 2B 所示，他们(They)使用更少的人工标注数据（使用打过标签数据的 10% 和 1%）训练了两个 Linear Probe 模型，测试结果(Result)如下表所示。

减少了人工标注数据的 Linear Probe 模型，分类准确度分别下降到了 77.2% 和 65.9%。使用了 1% 的标注示例的模型性能略好于 CVCL。通过比较，可以保守估计一个人工标注的至少相当于来自自然(Nature)语言的七个示例。不过，来自自然(Nature)语言的数据能更加灵活、更准确地表示儿童学习的内容，并且它可以容纳无限数量的视觉概念。

为了研究是否有其他因素影响了单词 - 视觉所指对象组合的可学习性，研究团队还训练了 CVCL 模型的其他变体以作评估。他们(They)改变了模型结构可能训练过程的各个方面，但没有一个变体的表现优于 CVCL 本身。

综上所述，研究结果(Result)表明，人类最初习得的的单词-视觉所指对象组合可以从 10 到 100 个自然(Nature)出现的单词-视觉所指对象组合中获得。

泛化至全新的视觉实例

为了测试 CVCL 的泛化能力，研究团队在 Konkle Objects 数据集上进行(Carry Out)了实验。

从研究婴儿语言学习的实验中获得了灵感，研究团队为 CVCL 提供了 64 个额外的在白色背景上的单个物体图像，其对应的单词都在 CVCL 的词汇表中。这个实验使得研究团队能够检查 CVCL 学习的单词是否能成功(Success)泛化到未见过的物体中。

如图 3A 所示，CVCL 具有一定的泛化能力，在 64 个物体中有 16 个得分高于 50%（正确），另外 42 个概念得分高于 25%（偶然），整体准确率为 34.7%。

此外，两个 CVCL 的模型变体都接近偶然准确率（CVCL-Shuffled 和 CVCL-Random Features 模型的准确率分别为 25.6% 和 23.4%），而其最佳表现都接近目前(Currently) SOTA 方法（CLIP 和 Linear Probe 模型的准确率分别为 99.4% 和 90.7%）。

这些结果(Result)表明了 CVCL 的多模态表征如何允许分布之外的泛化 —— 与该能力其他更大规模的演示一致。为了说明这次评估所需的视觉泛化的程度，图 3B 展示了嵌入在话语中的单词的一些自然(Nature)训练实例（从孩子的视角），与用于评估的新颖测试图像相匹配（以及它们(They)的分类准确度）。此外，这次评估与经典婴儿词汇学习实验中呈现的刺激类型非常相似，这表明在实验室外获得的表现足以解释婴儿如何将实验室内的视觉刺激泛化到新的视觉刺激。

多模态表征的组织结构

最后，研究者介绍了 CVCL 中学习到的多模态表征结构的三个分析家族。

首先探索的问题是，CVCL 的视觉和语言概念系统在多大程度上是一致的。例如，如果「汽车(Car)」的视觉和词嵌入都独立地更类似于「道路」而不是「球」，将表明良好的多模态对齐。

使用 Labeled-S 中的 22 个概念，研究者通过随机抽取 100 个注释帧，提取其图像嵌入并跨帧平均计算每个概念的视觉原型。他们(They)还检索了每个概念相应的词嵌入。接下来，计算这些嵌入之间的所有余弦相似度（包括模态内和模态间）并使用 t - 分布随机邻居嵌入（t-SNE）可视化它们(They)之间的关系，如图 4A 和 B 所示。在图 4A 中，虚线表示每个概念相应的视觉质心和词嵌入之间的距离。

由于这些跨模态距离中的许多都很小，研究者检查了概念之间的模态内相似性（通过余弦）是否与视觉和语言相关，发现了概念对齐的显著程度（相关系数 r = 0.37，p 0.001）。

这些关系不适用于 CVCL 的两个下界中的任何一个（图 S4）。此外，对齐距离也与分类性能呈强烈负相关（r = -0.65，p = 0.001），一些最不准确的类别表现出各自视觉原型和词嵌入之间的最大距离。图 4B 展示了每个概念的带标签图像嵌入的子集，强调不同的视觉概念在示例的紧密聚类程度方面存在差异。通过将视觉变化视为概念视觉嵌入与其视觉原型之间的平均欧几里得距离，研究者还发现与分类性能的强烈负相关（r = -0.48，p = 0.025），这表明 CVCL 在处理「手」和「玩具」等单词参照映射时的难度与它们(They)的视觉变化有关，与紧密聚类的概念如「汽车(Car)」和「婴儿床」相比。

接下来，研究者可视化了在 CVCL 中不同的词嵌入如何与图像嵌入相互作用（图 4C）。检查三个不同的概念，他们(They)体坛到模型预测与特定词嵌入最相似的图像（以绿色显示）与每个类别的真实标注图像集（以蓝色显示）非常接近，完整概念集显示在图 S6 中。研究者发现 CVCL 学习将不同视觉相似的项目集合表示为一个概念的不同子簇，尽管每个词只使用一个向量。例如，「楼梯」的词嵌入最强烈地激活两个独立的集群，分别代表室内和室外楼梯，而「拼图」产生另外两个集群，代表字母和动物拼图。以前的概念学习心理理论通常需要明确、内置的机制来捕捉概念内部的子结构，但在 CVCL 中，我们(We)发现多簇表示通过对比学习隐式地出现。

研究者还定性检查了 CVCL 定位指代的能力。对于给定的图像，通过应用 Grad-CAM 获得一个注意力图，通过计算最终卷积层特征图的加权和（使用基于图像文本余弦相似度梯度相对于特征图的空域平均值的权重），突出显示与目标类别最相关的图像区域。研究者可以将此注意力图叠加在图像上，并检查指代的位置与注意力图之间的任何对应关系。

图 5 展示了四个概念中多个注意力图的示例。对于某些类别，CVCL 的注意力图提供了物体定位的证据：注意力图中最高激活的区域紧密跟踪指代的定位。

本文来自微信公众号“机器之心”（ID:almosthuman2014），编辑：娄佳琪、张倩，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

+10

好文章，需要你的鼓励

机器之心特邀作者0收藏+10评论打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮微博沉浸阅读返回顶部参与评论评论千万条，友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章最前线｜追觅科技(Technology)发布新品扫地机X40，搭载仿生双机械臂扫拖边角缝隙大模型也有小偷？为保护你的参数，上交大给大模型制作「人类可读指纹」2024「人形机器人元年」：是噱头，还是机会？字节Coze国内版上线，30秒定制AI机器人，还做Bots商店｜最前线打破大厂数据垄断，阿里云前安危负责人吴翰清再创业，要做AI个人计算机｜早期项目谷歌连放大招：Gemini Pro支持中文，Bard学会画画，还上新了新模型大模型的“百模”竞争进入淘汰赛，是时候打扫战场了机器人公司欠薪背后：商海无情，想象力有价清华系2B模型杀出，性能吊打LLaMA-13B，170万tokens仅需1块钱最新文章推荐最前线｜追觅科技(Technology)发布新品扫地机X40，搭载仿生双机械臂扫拖边角缝隙大模型也有小偷？为保护你的参数，上交大给大模型制作「人类可读指纹」“包袱”甩给吉利？沃尔沃拟减持极星汽车(Car)股份(Stock)，股价一度涨逾30%Q4“成绩单”亮眼，Meta喜迎“开门红”年龄两岁，教龄一年半：婴儿AI训练师登上Science春节火爆，盒马入局，98元/次的上门喂猫遛狗是一门好生意吗？县城，网约车的失意之地2024「人形机器人元年」：是噱头，还是机会？小红书2023复盘：76个账号涨粉超百万，直播带货初登C位苹果失意，库克灭火

机器之心特邀作者

专业的人工智能媒体和产业服务平台

发表文章444篇最近内容大模型也有小偷？为保护你的参数，上交大给大模型制作「人类可读指纹」6分钟前年龄两岁，教龄一年半：婴儿AI训练师登上Science7分钟前小红书开源「InstantID」效果炸裂，被Yann LeCun点赞，迅速蹿上Github热榜昨天(Yesterday)阅读更多内容，狠戳这里下一篇春节火爆，盒马入局，98元/次的上门喂猫遛狗是一门好生意吗？

春节长假，宠物生意火了。

7分钟前

热门标签祖国石化车托帮路况对标分析玉米十字星外部融资宠物医院谷歌推广脉诊更美app永生传奇世界太空铝网页代码海淀北部漕河泾开发区国庆小长假中秋小长假五一劳动节刺客聂隐娘广深港高铁广东移动商界美邦服饰周成建印度理工学院君子兰藏獒长春君子兰关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴