学术前沿|进步对齐:让AI跟上人类道德的脚步

人工智能电子侃 2024-10-01 18:12:54

来源:北京大学人工智能研究院

供稿:邱天异

排版:梁文凯玥

AI引发的价值锁定与进步对齐的定义

随着AI技术的发展,AI系统已经开始在多个领域对人类的观念和价值观产生影响。例如,大型语言模型(LLM)被用于个人助理、教育、内容创作等,它们所体现的价值观可能会在社会层面上传递给用户。

价值锁定(Value Lock-in)是指由于AI系统的影响,社会的道德价值观长期停滞不前,停留在某个特定的历史阶段。例如,如果AI系统固化了21世纪初的价值观,未来的社会可能无法超越这些价值观,导致不道德实践的延续和新道德概念的缺失。

为防止这种现象,本文提出进步对齐的概念。进步对齐旨在确保AI系统所体现的道德价值观能够持续改进,跟随甚至引领人类道德的演变,就像人类价值观在过去千年中经历的进步一样。

AI引发的价值锁定是关键生存性风险

价值锁定可能导致社会丧失大量的道德潜力,延续当前的苦难和不公正。如果AI系统固化了当代的偏见和道德盲点,未来的人类社会可能会长期停滞在不道德的状态中。这种风险与AI引发的灭绝风险一样,都是关键的生存性风险,需要引起足够的重视和研究。

目前,对价值锁定的研究和关注相对较少,大多数对齐方法,如人类反馈强化学习(RLHF),主要关注的是使AI系统符合当前的人类价值观,而没有考虑价值观的动态演变。这使得进步对齐成为一个被忽视但非常重要的研究方向。

03

进步对齐的形式化定义

为了更好地研究和解决进步对齐问题,引入了部分可观测的马尔可夫决策过程(PA-POMDP)来形式化该问题。PA-POMDP提供了一个框架,能够模拟AI系统与人类价值观的互动和演化过程。

PA-POMDP的定义

PA-POMDP由以下元素组成:

· 状态空间S:表示人类价值观的可能状态。例如,不同的道德观念、价值取向等。

· 行动空间A:AI代理可以采取的行动集合。这些行动会影响人类的价值观,如提供建议、教育内容、决策支持等。

· 转移函数T:描述在特定行动下,价值观从一个状态转移到另一个状态的概率。这个函数反映了AI行动对人类价值观的影响机制。

· 观察空间Ω:AI能够观测到的人类价值观体现形式,如反馈、对话内容、行为等。

· 观察函数O:给定当前状态和行动下,产生特定观察的概率。它表示AI从人类行为中获取价值观信息的过程。

· 效用函数U:衡量AI在进步对齐目标上取得成功的程度。效用函数可以根据AI对人类道德进步的促进程度来定义。

通过PA-POMDP,研究者可以模拟AI系统的策略,评估其对人类价值观演化的影响,为设计进步对齐的方法提供理论指导。在实践中,ProgressGym基于PA-POMDP的形式化定义构建实验框架,为研究者提供了实验平台,支持对进步对齐算法的开发和测试。

04

研究方法

知识驱动方法

知识驱动方法利用LLM的自然语言理解和推理能力,直接参与和促进道德哲学的研究。这些模型在预训练过程中已经学习了大量的人类知识,包括道德哲学、伦理学等领域的内容。通过进一步的设计和训练,LLM可以模拟人类的道德推理过程,甚至可能在道德哲学研究上取得突破。

LLM用于哲学推理

LLM可以被用于生成、分析和评估道德论证,提出新的道德概念和理论。由于其强大的文本生成和理解能力,LLM可以参与到复杂的哲学讨论中,提供多样化的视角。例如,LLM可以帮助识别当前道德理论中的不足,提出改进建议,或者探索新的道德框架。

人机交互研究

为了确保AI系统在道德进步中发挥积极作用,需要深入研究人类与AI的交互方式。通过人机交互研究,可以了解不同的互动设计如何影响人类价值观的变化。例如,如何设计AI系统的沟通方式,使其能够有效地促进道德思考,而不至于产生反感或抵触情绪。

示例研究:AI系统影响人类价值观 [Jakesch et al., 2023]

一项研究让参与者与持有特定观点的LLM互动,结果显示,参与者的观点发生了显著变化。这说明AI系统在影响人类价值观方面具有强大的能力。因此,设计能够积极促进道德进步的AI系统,需要对人机交互的方式进行深入研究。

数据驱动方法

数据驱动方法通过收集和分析大量的历史和现实时序数据,构建人类价值观演化的预测模型。这个模型可以帮助AI系统理解人类道德价值观的演变规律,预测未来的发展方向,从而指导其行为选择。

价值数据收集

收集大量的价值观数据是数据驱动方法的基础。数据来源包括历史文本、文学作品、法律文献、新闻报道、社交媒体内容等。这些数据反映了不同历史时期、不同文化背景下的人类价值观和道德观念。

价值数据的类型包括以下种类:

· 结构化、无偏数据:如问卷调查结果、偏好注释等。这些数据格式统一,易于分析。

· 非结构化、有偏数据:如互联网文本、历史文献等。这些数据量大,内容丰富,但需要处理偏差和噪声。

价值动态建模

通过统计模型、时间序列分析、社会模拟等方法,构建人类价值观随时间演化的模型。

价值动态建模的潜在方法包括但不限于:

· 统计建模:使用时间序列分析方法,捕捉价值观变化的趋势和周期性。

· 社会模拟:利用代理建模、进化博弈论等方法,模拟个体之间的互动和价值观的传播。

· 机器学习算法:训练预测模型,利用历史数据预测未来的价值观变化。

价值选择

在每个时间步,AI系统需要确定一个目标价值观,以对齐自身的行为。这可以通过规则启发式方法,如外推当前价值观的趋势,或者通过强化学习算法,直接优化效用函数,选择能够最大化道德进步的行动策略。

价值选择的潜在方法包括但不限于:

· 基于规则的启发式方法:简单地跟随当前价值观的变化趋势,适合初步应用。

· 强化学习:定义明确的效用函数,训练AI代理在PA-POMDP框架下选择最佳行动策略。

· 控制论与博弈论:应用控制理论和博弈论的方法,处理AI与人类之间的互动和反馈。

价值实施

将目标价值观嵌入AI系统中是数据驱动方法的最后一步。其可能方法包括:

· 基于微调的方法:在特定价值观导向的数据上微调模型,使其输出符合期望的道德标准。

· 脚手架(Scaffolding):在LLM上构建额外的结构或框架,指导其生成符合目标价值观的内容。

· 发展方法:在模型训练过程中,注入对道德进步的考虑,使模型在预训练阶段就具备对道德演化的敏感性。

案例研究:基于预测建模的方法

作为一个案例,我们来考察基于预测建模的进步对齐方法,即通过历史数据和模型,预测未来的道德进步方向,指导AI系统的行为选择。这种方法可以帮助AI系统更好地适应人类价值观的变化,避免价值锁定的风险。

1. 收集历史文本数据:从过去几个世纪中收集大量的历史文本数据,包括书籍、报纸、法律文献等。这些文本反映了当时的社会价值观和道德观念。

2.微调语言模型:将这些历史文本按照时间段划分,对预训练的语言模型进行微调,生成一系列模型,每个模型对应一个历史时期的价值观。

3. 构建机理模型:利用这些微调后的模型,构建一个能够解释和预测人类价值观演化的机理模型。通过分析模型在不同时间段的输出,研究价值观的变化模式。

4. 模型验证:将历史文本数据集划分为训练集、验证集和测试集,优化模型参数,提高模型在预测未来价值观变化方面的准确性和可靠性。

但同时,这一类方法也面临一些挑战:

· 严谨性问题:需要确保模型没有“泄露”现代价值观,防止未来信息影响历史模型的准确性。

· 数据不足与偏差:历史数据可能不完整或存在偏差,需要处理缺失数据和纠正偏差。

· 因果推断:缺乏反事实数据,难以确定价值观变化的因果关系。

· 统计非独立性:历史数据是时间序列数据,并非独立同分布,这会对模型的训练和验证带来挑战,例如直接进行交叉验证可能并不可行。

统一方法

统一方法旨在为进步对齐提供一个原则性的、端到端的框架,而无需对知识或数据进行显式建模。在这种方法中,AI系统被假设具有无限认知能力,能够理解和推断人类的道德价值观,并根据这些价值观做出决策。

作为一个例子,我们考察进步辅助博弈(Progress-Assistance Game)。这个模型扩展了AI对齐领域中传统的辅助博弈(Assistance Game)框架,引入了人类道德的不确定性,处理人类价值观的动态演变和复杂性。

在进步辅助博弈中,假设人类接收到的奖励信号并不完美,存在噪声或偏差。这模拟了人类道德判断的不确定性和可能的错误。AI代理需要保持对奖励函数的不确定性,并通过与人类的互动,推断和学习人类真实的价值观。

AI代理与人类共同优化一个目标,但由于人类的反馈可能存在偏差,AI需要帮助人类克服这些偏差,推动道德进步。这种设定鼓励AI展望未来,理解道德进步的历史和机制,与人类合作,促进价值观的演化。

至于这一理论框架如何形式化,可以参见辅助博弈的原始论文[Hadfield-Menell et al., 2016]。

在认识到其潜力的同时,统一方法也面临一些挑战:

· 建模人类道德不确定性:需要建立更加精确的模型,模拟人类在道德判断上的不确定性,以及道德观念的变化过程。

· 可纠正性:确保AI代理的行为是可被人类理解、监督和纠正的,防止AI过度干预或操纵人类价值观,保持人类对道德演化的主导权。

· 可扩展性:提升算法的计算效率,使其能够在复杂的、现实的环境中应用,包括处理大量的数据和复杂的互动情境。值得注意的是,近期在辅助博弈的求解效率方面取得了大幅进展,例如在Minecraft游戏求解的场景下[Laidlaw et al., 2024]。

05

ProgressGym实验框架

进步对齐研究需要强大的实验平台来支持算法的开发和评估。为此,作者所在团队构建了ProgressGym,一个专门用于进步对齐研究的实验框架。

ProgressGym的目标

ProgressGym旨在为研究者提供一个综合性的实验环境,支持对进步对齐算法的开发、测试和评估。通过模拟各种进步对齐场景,ProgressGym帮助研究者深入理解不同方法的效果,加速研究进展。

ProgressGym的核心贡献

1. 构建了ProgressGym实验框架:利用了从1221年至2022年长达9个世纪的历史文本数据(38GB),以及18个历史语言模型(每个世纪对应一个7B和80B参数的模型),搭建了ProgressGym框架。该框架允许从历史中学习道德进步的机制,通过时间自回归进行测试,并应用于现实世界的道德挑战。

2. 提出了具体的挑战和基准测试:ProgressGym将现实世界的进步对齐挑战转化为具体的机器学习基准测试,如跟踪演变的价值观(Follow)、预见性地预测道德进步(Predict)以及调节人类和AI价值观之间的反馈回路(Co-evolve)。这些挑战需要考虑时间维度,传统的对齐方法无法直接应用。

3. 引入了终身和外推算法作为基线方法:提出了终身(Lifelong)和外推(Extrapolative)对齐算法,作为进步对齐的基线方法,并在ProgressGym上对其性能进行了全面评估。这些算法展示了进步对齐问题的可行性,证明了虽然进步对齐具有复杂性,但可以通过算法解决。

4. 开放了源代码和排行榜:ProgressGym是开源的,并提供了实时的排行榜,邀请机器学习社区参与,提出新的挑战和算法,促进进步对齐领域的发展。

ProgressGym的功能模块

1. 数据集模块:

· 历史数据集:收集并整理了9个世纪的历史文本数据,覆盖了1221年至2022年的丰富文献。这些数据为研究人类价值观的演化提供了坚实的基础。

· 历史语言模型:基于每个世纪的文本数据,训练了18个历史语言模型(每个世纪对应一个7B和80B参数的模型),这些模型体现了不同历史时期的价值观和语言特征。

2. 挑战与基准测试模块:

· 跟踪演变的价值观(Follow):要求算法能够准确地追踪人类价值观的变化,理解价值观随时间的演变。

· 预见性地预测道德进步(Predict):要求算法能够预先预测未来的道德进步方向,提前调整AI系统的价值观。

· 调节人类和AI价值观之间的反馈回路(Co-evolve):要求算法能够有效地管理人类和AI之间的价值观相互影响,防止反馈回路导致的价值锁定或偏差。

3 算法实现模块:

· 终身对齐算法(Lifelong Alignment):在AI系统的整个生命周期中持续学习和调整,使其价值观能够随着人类价值观的变化而演进。

· 外推对齐算法(Extrapolative Alignment):基于历史数据,外推预测未来的价值观变化,提前对AI系统进行调整。

4. 评估与分析模块:

· 性能评估:提供了评估算法在上述挑战中的表现的工具,衡量指标包括预测准确性、道德进步促进度等。

· 结果分析:支持对实验结果进行深入分析,帮助理解算法的优势和不足。

ProgressGym的应用场景

1. 算法开发与测试:研究者可以使用ProgressGym开发新的进步对齐算法,并在统一的环境下进行测试,快速迭代改进。

2. 模型性能比较:通过在相同的基准测试下比较不同算法的性能,研究者可以客观地评估各方法的优劣。

3. 价值观演化研究:利用历史数据集和模型,深入研究人类价值观的演化规律,为进步对齐提供理论支持。

4. 人机互动模拟:通过模拟人类与AI的互动,研究不同交互方式对价值观变化的影响,为设计更有效的AI系统提供依据。

目前,对价值锁定的研究和关注相对较少,大多数对齐方法,如人类反馈强化学习(RLHF),主要关注的是使AI系统符合当前的人类价值观,而没有考虑价值观的动态演变。这使得进步对齐成为一个被忽视但非常重要的研究方向。

挑战与未来发展

虽然ProgressGym为进步对齐研究提供了强大的支持,但仍有一些挑战需要克服:

· 数据质量与多样性:确保历史和模拟数据集的质量和多样性,避免数据偏差对实验结果的影响。

· 模型复杂性:随着模型和算法的复杂化,需要提升计算效率和资源管理能力。

· 现实性与可转移性:如何将实验室中的结果应用于现实世界的AI系统,仍需进一步研究。

未来,ProgressGym将继续迭代更新,集成更多的功能和资源,支持更广泛的研究需求,推动进步对齐领域的发展。

06

另一条路:实施道德不确定性

除了直接促进道德进步,还有一种方法是实施道德不确定性,在AI系统的决策过程中纳入对道德价值的不确定性考虑。通过保持对道德判断的开放性,AI系统可以避免过早地固化某一特定价值观,防止价值锁定。

实施道德不确定性的方法包括:

· 概率模型:使用概率分布表示道德价值观的不确定性,在决策中考虑多个可能的道德观点。

· 多目标优化:在决策过程中同时考虑多个道德目标,平衡不同的价值取向。

· 人类反馈融合:持续收集人类的反馈和意见,动态更新AI系统的价值观模型。

基于道德不确定性的方法也有一些优势,如:

· 灵活性:AI系统能够适应人类价值观的变化,不断调整自身的行为。

· 防止极端化:避免AI系统过度坚持某一价值观,导致偏执或极端行为。

支持人类主导:尊重人类在道德演化中的主导地位,支持人类的决策。

07

相关工作

与进步对齐相关的现有研究

价值对齐(Value Alignment)是AI安全领域的核心概念,旨在确保AI系统的目标和行为与人类的价值观保持一致。Stuart Russell等人在他们的工作中提出了合作式逆强化学习(Cooperative Inverse Reinforcement Learning,CIRL)[Hadfield-Menell et al., 2016],将人类和AI视为在部分可观测的环境中共同优化的参与者。

辅助博弈(Assistance Games)也是基于CIRL的一种方法,强调AI需要从人类的行为中学习真实的奖励函数。这与本文提出的进步辅助博弈有一定的联系。

OpenAI在2020年发布的论文《Learning to Summarize from Human Feedback》[Stiennon et al., 2020],探索了人类反馈强化学习(RLHF)的方法,通过从人类的偏好中学习,以改进AI系统的输出质量。然而,RLHF主要关注的是当前人类的价值观,没有考虑价值观的动态演化。

此外,一些研究工作将对齐与道德直接联系起来。例如,Bai等人[Bai et al., 2022]在他们的研究中提出了宪法AI(Constitutional AI),通过AI反馈实现无害性。Liu等人[Liu et al., 2022]讨论了如何使生成式语言模型与人类价值观对齐。Nahian等人[Nahian et al., 2020; Nahian et al., 2021]探索了从故事中学习规范,以及使用规范先验训练价值对齐的强化学习代理。Peng等人[Peng et al., 2020]研究了减少语言模型中非规范性文本生成的方法。Ganguli等人[Ganguli et al., 2023]探讨了大型语言模型的道德自我修正能力。

在人类背景下的道德进步概念,最早由哲学家和社会科学家提出,并得到了研究关注。Macklin [Macklin, 1977]讨论了道德进步的概念。Singer [Singer, 2011]在《The Expanding Circle》中探讨了伦理学、进化和道德进步。

关于终身RLHF方法,可以与推荐系统的设置进行类比,其中讨论了偏好和反馈回路的时间演变等问题。例如,Mansoury等人[Mansoury et al., 2020]研究了推荐系统中的反馈回路和偏差放大。Kalimeris等人[Kalimeris et al., 2021]探讨了推荐系统中的偏好放大。Adomavicius等人[Adomavicius et al., 2022]讨论了推荐系统、真实偏好和偏好污染。Hazrati和Ricci[Hazrati & Ricci, 2022]研究了推荐系统对用户选择分布演化的影响。Carroll等人[Carroll et al., 2022]估计和惩罚推荐系统中引起的偏好转移。Chalyi和Leshchynskyi[Chalyi & Leshchynskyi, 2020]研究了推荐系统中用户偏好的时间建模。

还有一些工作提出的算法可以被视为终身RLHF的原型。Jin等人[Jin et al., 2021]提出了终身预训练,持续适应语言模型到新兴的语料库。Gao等人[Gao et al., 2022]模拟了从用户反馈中进行抽取式问答的Bandit学习。Suhr和Artzi[Suhr & Artzi, 2022]研究了从实时反馈中进行指令遵循的持续学习。Kojima等人[Kojima et al., 2021]通过观察人类的跟随行为,进行指令生成的持续学习。

道德心理学的工具性工作

道德心理学研究人员开发了用于衡量和表征个人价值体系的框架。一些经典框架包括社会价值取向[Murphy et al., 2011]、道德基础理论(Moral Foundations Theory)[Graham et al., 2013]和Allport-Vernon-Lindzey价值观研究[Allport et al., 1960]。AI社区的许多近期工作已经适应了这些方法或创建了新方法,以衡量和表征生成模型中的价值体系。例如,Abdulhai等人[Abdulhai et al., 2023]研究了大型语言模型的道德基础。Zhang等人[Zhang et al., 2023]提出了对大型语言模型的异质性价值评估。Hendrycks等人[Hendrycks et al., 2020]讨论了与人类共享价值观的AI对齐。Pan等人[Pan et al., 2023]在Machiavelli基准上测量奖励和道德行为之间的权衡。

对于进步对齐中的数据驱动方法,测量两个模型的价值体系之间的距离对于预测准确性是重要的,因此这些框架尤其有用。

与进步对齐直接相关的研究

一些工作直接为进步对齐铺平了道路。Schramowski等人[Schramowski et al., 2020]、Inglehart等人[Inglehart et al., 2000]和Atif等人[Atif et al., 2022]使用定量和计算方法研究了人类价值观的演化。Kenward和Sinclair[Kenward & Sinclair, 2021]从社会科学的角度直接呼吁将道德进步引入AI系统。

尽管在AI对齐和安全研究中对时间动态的关注相对较少,但Hendrycks和Woodside[Hendrycks & Woodside, 2022]也建议了价值澄清的方向,即“自动化的道德哲学研究”。Ammann[Ammann, 2023]也提出了类似的观点。

最近,已经开发了用于研究在人类偏好变化下的对齐的形式框架。Chan等人[Chan et al., 2019]提出了辅助多臂老虎机(Assistive Multi-Armed Bandit)。Carroll等人[Carroll et al., 2024]研究了具有可变和可影响的奖励函数的AI对齐。

ProgressGym的直接前身

ProgressGym的构建借鉴了多个领域的研究成果。在历史文本数据的处理方面,Google的Ngram Viewer项目[Michel et al., 2011]提供了对大量历史文本的词频分析,帮助研究者了解词汇和概念的历史演变。

在历史语言模型的训练方面,Facebook AI Research的RoBERTa模型[Liu et al., 2019],通过在大规模的未标注文本上进行预训练,展示了语言模型在理解和生成文本方面的强大能力。

此外,OpenAI的GPT系列模型[Radford et al., 2019; Brown et al., 2020],通过不断扩大模型规模和训练数据,显著提升了语言模型的性能,为ProgressGym中历史语言模型的训练提供了技术基础。

与进步对齐相关的社会科学研究

在社会科学领域,Francis Fukuyama的《The End of History and the Last Man》[Fukuyama, 1992]讨论了人类社会制度和价值观的发展趋势,为理解人类价值观的宏观演化提供了视角。

另外,心理学家Steven Pinker在《The Better Angels of Our Nature》[Pinker, 2011]中,分析了人类暴力和道德的历史趋势,提出了人类社会在道德方面持续进步的观点。

这些社会科学研究为进步对齐提供了理论支持,强调了人类价值观的动态演化和道德进步的重要性。

与进步对齐相关的机器学习研究

在机器学习领域,终身学习(Lifelong Learning)和持续学习(Continual Learning)的研究旨在使AI系统能够随着时间的推移不断学习新的知识,而不遗忘旧有知识[Parisi et al., 2019]。这与进步对齐中的终身对齐算法有相似之处。

同时,元学习(Meta-Learning)的方法,例如Google的Model-Agnostic Meta-Learning(MAML)[Finn et al., 2017],使模型能够快速适应新任务,也为进步对齐中模型的快速适应提供了可能。

08

总结

本文详细概述了进步对齐的技术研究方向,重点介绍了PA-POMDP的形式化定义,以及三种主要的技术方法:知识驱动方法、数据驱动方法和统一方法。同时,深入介绍了用于进步对齐研究的实验框架ProgressGym,包括其核心贡献、功能模块、应用场景和优势。进步对齐旨在确保AI系统的道德价值观能够随着人类的道德演化而持续改进,避免价值锁定的风险。未来的研究将继续探索更有效的进步对齐模型,解决现有方法面临的挑战,确保AI系统在道德进步中发挥积极作用。

References

· Qiu, T., Zhang, Y., Huang, X., et al. (2024). ProgressGym: Alignment with a Millennium of Moral Progress. arXiv preprint arXiv:2406.20087. url: https://arxiv.org/abs/2406.20087.

· Abdulhai, M., Shin, R., Wu, J., & Li, F. (2023). Moral foundations of large language models. arXiv preprint arXiv:2310.15337.

· Adomavicius, G., Zhang, J., & Kwon, Y. (2022). Recommender systems, ground truth, and preference pollution. AI Magazine, 43(2), 177–189.

· Allport, G. W., Vernon, P. E., & Lindzey, G. (1960). Study of values.

· Ammann, N. (2023). The Value Change Problem. Retrieved from https://www.alignmentforum.org/s/3QXNgNKXoLrdXJwWE

· Atif, M., Haroon, M., Naveed, S., & Ahmed, R. R. (2022). Evolution of basic human values orientations: An application of monitoring changes in cluster solutions. PLOS ONE, 17(9), e0274600.

· Bai, Y., Jones, A., Ndousse, K., et al. (2022). Constitutional AI: Harmlessness from AI feedback. arXiv preprint arXiv:2212.08073.

· Brown, T. B., Mann, B., Ryder, N., et al. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33, 1877–1901.

· Carroll, M. D., Kim, B., Shah, R., et al. (2022). Estimating and penalizing induced preference shifts in recommender systems. International Conference on Machine Learning. PMLR, 2686–2708.

· Carroll, M., Shah, R., Langosco, L., et al. (2024). AI Alignment with Changing and Influenceable Reward Functions. arXiv preprint arXiv:2405.17713.

· Chalyi, S., & Leshchynskyi, V. (2020). Temporal Modeling of User Preferences in Recommender System. ICST, 518–528.

· Chan, L., van der Schaar, M., & Krishnamurthy, A. (2019). The assistive multi-armed bandit. 2019 14th ACM/IEEE International Conference on Human-Robot Interaction (HRI), 354–363.

· Finn, C., Abbeel, P., & Levine, S. (2017). Model-agnostic meta-learning for fast adaptation of deep networks. Proceedings of the 34th International Conference on Machine Learning.

· Fukuyama, F. (1992). The End of History and the Last Man. Free Press.

· Ganguli, D., Askell, A., Bai, Y., et al. (2023). The capacity for moral self-correction in large language models. arXiv preprint arXiv:2302.07459.

· Gao, G., Choi, E., & Artzi, Y. (2022). Simulating Bandit Learning from User Feedback for Extractive Question Answering. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 5167–5179.

· Graham, J., Nosek, B. A., Haidt, J., et al. (2013). Moral foundations theory: The pragmatic validity of moral pluralism. Advances in Experimental Social Psychology, 47, 55–130.

· Hadfield-Menell, D., Russell, S. J., Abbeel, P., & Dragan, A. (2016). Cooperative inverse reinforcement learning. Advances in Neural Information Processing Systems, 29.

· Hendrycks, D., Burns, C., Basart, S., et al. (2020). Aligning AI with shared human values. arXiv preprint arXiv:2008.02275.

Hendrycks, D., & Woodside, T. (2022). Open Problems in AI X-Risk [PAIS #5]. Retrieved from

· https://www.alignmentforum.org/posts/5HtDzRAk7ePWsiL2L/open-problems-in-ai-x-risk-pais-5

· Hazrati, N., & Ricci, F. (2022). Recommender systems effect on the evolution of users’ choices distribution. Information Processing & Management, 59(1), 102766.

· Inglehart, R., Basáñez, M., & Moreno, A. (2000). World values surveys and European values surveys, 1981-1984, 1990-1993, and 1995-1997. Institute for Social Research, ICPSR version.

· Jin, X., Li, X. L., Yasunaga, M., et al. (2021). Lifelong pretraining: Continually adapting language models to emerging corpora. arXiv preprint arXiv:2110.08534.

· Kalimeris, D., Parkes, D. C., & Zhang, E. (2021). Preference amplification in recommender systems. Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining, 805–815.

· Kenward, B., & Sinclair, T. (2021). Machine morality, moral progress, and the looming environmental disaster.

· Kojima, N., Suhr, A., & Artzi, Y. (2021). Continual learning for grounded instruction generation by observing human following behavior. Transactions of the Association for Computational Linguistics, 9, 1303–1319.

· Liu, Y., Ott, M., Goyal, N., et al. (2019). RoBERTa: A robustly optimized BERT pretraining approach. arXiv preprint arXiv:1907.11692.

· Liu, R., Lai, V., & Zhang, C. (2022). Aligning generative language models with human values. Findings of the Association for Computational Linguistics: NAACL 2022, 241–252.

· Macklin, R. (1977). Moral progress. Ethics, 87(4), 370–382.

· Mansoury, M., Burke, R., Abdollahpouri, H., & Mobasher, B. (2020). Feedback loop and bias amplification in recommender systems. Proceedings of the 29th ACM International Conference on Information & Knowledge Management, 2145–2148.

· Michel, J.-B., Shen, Y. K., Aiden, A. P., et al. (2011). Quantitative analysis of culture using millions of digitized books. Science, 331(6014), 176–182.

· Murphy, R. O., Ackermann, K. A., & Handgraaf, M. J. (2011). Measuring social value orientation. Judgment and Decision Making, 6(8), 771–781.

· Nahian, M. S. A., Iqbal, A., Hoque, M. A., & Matuszek, C. (2020). Learning norms from stories: A prior for value aligned agents. Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society, 124–130.

· Nahian, M. S. A., Hoque, M. A., & Matuszek, C. (2021). Training value-aligned reinforcement learning agents using a normative prior. arXiv preprint arXiv:2104.09469.

· Pan, A., Perez, E., Klymenko, M., et al. (2023). Do the rewards justify the means? Measuring trade-offs between rewards and ethical behavior in the Machiavelli benchmark. International Conference on Machine Learning. PMLR, 26837–26867.

· Parisi, G. I., Kemker, R., Part, J. L., Kanan, C., & Wermter, S. (2019). Continual lifelong learning with neural networks: A review. Neural Networks, 113, 54–71.

· Peng, X., Khashabi, D., Roth, D., & Ren, X. (2020). Reducing non-normative text generation from language models. arXiv preprint arXiv:2001.08764.

· Pinker, S. (2011). The Better Angels of Our Nature: Why Violence Has Declined. Viking.

· Radford, A., Wu, J., Child, R., et al. (2019). Language models are unsupervised multitask learners. OpenAI Blog, 1(8), 9.

· Schramowski, P., Stammer, W., Teso, S., et al. (2020). The moral choice machine. Frontiers in Artificial Intelligence, 3, 36.

· Singer, P. (2011). The Expanding Circle: Ethics, Evolution, and Moral Progress. Princeton University Press.

· Stiennon, N., Ouyang, L., Wu, J., et al. (2020). Learning to summarize from human feedback. Advances in Neural Information Processing Systems, 33, 3008–3021.

· Suhr, A., & Artzi, Y. (2022). Continual learning for instruction following from realtime feedback. arXiv preprint arXiv:2212.09710.

· Tolmeijer, S., Weiss, A., Hanheide, M., et al. (2020). Implementations in machine ethics: A survey. ACM Computing Surveys, 53(6), 1–38.

· Zhang, Z., Jiang, J., Ghosh, A., et al. (2023). Heterogeneous Value Evaluation for Large Language Models. arXiv preprint arXiv:2305.17147.

· Laidlaw, C., Bronstein, E., Guo, T., et al. (2024). Scalably Solving Assistance Games. ICML 2024 Workshop on Models of Human Feedback for AI Alignment. Retrieved from https://openreview.net/forum?id=xVS7dFKoMR.

· Jakesch, M., Bhat, A., Buschek, D., et al. (2023). Co-Writing with Opinionated Language Models Affects Users’ Views. Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems, 1–15.

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。

0 阅读:0

人工智能电子侃

简介:感谢大家的关注