用大模型读取你的想法，并转化成文本！恐怖的DeWave模型

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

悉尼科技大学的科研人员，通过大语言模型、EEG（大脑活动检测工具）、脑机接口等技术，开发了一个可自动读取人类想法，并转化成文本的AI大模型——DeWave。

DeWave的使用方法非常简单，用户只需要戴上EEG，然后开启你的思维活动，DeWave就能将你的想法直接翻译成文本，就像现实版的《读心人》非常“恐怖”。

相比马斯克的Neuralink脑机接口芯片，DeWave使用更加简单方便，无需做昂贵的手术植入芯片，通过海量数据训练的大模型就能将脑电波翻译成文本。

DeWave可帮助那些无法说话的脑血栓、中风、聋哑人等，可与正常人进行交流，目前翻译的准确率在40%左右。其实这个产品用于谈恋爱场景也不错，双方都带上这个，再也不怕对方撒谎了。

值得一提的是，该研究已经被全球顶级机器学习大会“NeurIPS”，评选为重要论文。

论文地址：https://arxiv.org/abs/2309.14030v3

其实这项技术与去年10月19日，Meta发布的通过MEG（另外一种大脑活动检测工具）重构人类大脑成像过程有点类似。都是通过EEG、MEG等工具捕获大脑微弱活动电流，检测这些磁场变化，然后获得脑部活动数据。

获得原始大脑数据后,研究人员就可以用大语言模型等对其进行解码,提取重要的视觉、文本信息。所以，获取大脑活动数据是翻译、重构人类想法、思维画面的关键基础。

Meta的论文地址：https://ai.meta.com/static-resource/image-decoding

DeWave简单介绍

DeWave的核心技术思路是，将连续的脑电波信号转化为离散的编码,然后输入预训练的大语言模型进行文本翻译。

首先，通过向量量化变分编码器的结构,将接收到的脑电波信号，转换成一系列向量化的特征表示。

然后,这些特征表示会被进一步转化为一系列离散的代码,每个代码都对应码本里的一个离散词向量。码本就像一个字典,里面有限个数的离散词向量。特征表示通过在码本中找到最匹配的那个离散词向量,来获得对应的离散代码。

在得到一系列离散代码之后,就可以像处理语言词向量一样,输入到预训练的大语言模型,最终生成翻译的文本内容。

DeWave训练流程

DeWave的训练流程主要分为三个阶段：1）自监督编码器预训练(仅原始EEG脑磁波)，这一阶段会先训练一个脑电波自编码模型,输入原始EEG波形,通过重建实现自监督。这样可以提取有用的时域和频域特征。

2）编码器和码本训练，固定好波形编码器后,训练Transformer编码器与离散码本,获得稳定可分离的脑电波表示。

3）端到端微调，解冻大语言模型允许端到端训练。在编码器引导下微调BART模型,实现EEG到文本的生成。需要注意的是，对词级特征输入并不需要第一阶段的预训练,可以直接从第二阶段开始。

DeWave局限性

研究人员表示，DeWave模型在将脑电波转化为文本的任务中取得了一定的成果，但也存在一些局限性。

依赖于预训练大语言模型：DeWave在实现脑电波到文本的转换过程中使用了预训练大语言模型，如BART。

这意味着DeWave方法的性能受限于预训练语言模型的质量和能力。如果预训练语言模型不够准确或不具备广泛的语言理解能力，可能会影响到DeWave方法的翻译性能。

对平行数据的依赖性：DeWave方法在训练过程中需要使用平行的脑电波和文本对数据，以进行监督学习。

然而，获取大规模的平行数据对于某些任务可能是困难的或成本较高的。因此，如果缺乏足够的平行数据，DeWave方法的性能可能会受到限制。

对标记的依赖性：尽管DeWave方法在文中声称可以在没有标记（如眼动追踪）的情况下实现脑电波到文本的翻译，但它仍然依赖于基于标记的对齐过程。

DeWave使用了事件标记来将脑电波分割成单词级别的特征，这可能导致在没有标记的情况下无法准确地对脑电波进行分割和翻译。

悉尼科技大学首席研究员兼DeWave作者， Chin-Teng Lin表示，DeWave是第一个将离散编码集成在大脑到文本翻译领域的产品，引入了一种创新的神经解码方法。同时与大语言模型的集成，也开辟了神经科学和AI相结合的全新探索。

什么是EEG

EEG 是电脑图(Electroencephalogram) 的缩写，它是一种记录大脑电活动的检测方法。EEG 主要是通过头皮上的电极来捕捉大脑神经细胞之间通信的微小电信号。

大脑活动产生电流，当神经细胞（神经元）被激活时，它们会产生电信号。EEG 检测的是大量神经元同步活动所产生的电位变化。主要用于科学研究、脑部检测、脑部疾病治疗等。

什么是MEG

MEG，全称为脑磁图（Magnetoencephalography），是一种神经成像技术，用于测量大脑活动中产生的极微弱的磁场。MEG能够提供关于大脑功能的空间和时间信息。

MEG的工作原理是基于生物电活动产生磁场的物理原理。当大脑中的神经元活动时，它们会产生微小的电流，这些电流会产生相应的磁场。

MEG设备使用一种非常灵敏的传感器，称为超导量子干涉设备（SQUIDs），来检测这些微小的磁场。

MEG主要应用：定位脑功能、研究大脑通信、诊断和治疗规划、研究神经发育和疾病等。

本文素材来源DeWave论文，如有侵权请联系删除

END

幸福双城资讯网