Uber研究人员调查AI是否可以符合道德规范
作者:访客发布时间:2023-04-24分类:暖心故事浏览:106评论:0
给大家分享一篇关于互联网和手机的文章。相信很多朋友对互联网和手机还是不太了解,所以边肖也在网上搜集了一些关于手机和互联网的相关知识与大家分享。希望大家看完之后会喜欢。
AI能符合伦理吗?这是优步研究人员必须在预印本论文中回答的棘手问题,该论文试图将道德哲学的见解转化为强化学习领域——机器学习,以及软件代理应该如何在环境中采取行动以最大化其功能。
虽然强化学习是一种强大的技术,但它必须局限于现实和非结构化的环境中,这样它才不会执行不令人满意的任务。(例如,机器人吸尘器不应打碎花瓶或伤害家猫。)强化学习和训练的机器人在伤害或帮助他人的范围内具有道德意义。意识到这一点,优步团队考虑了代理人不应该遵循单一伦理理论(如功利主义、义务论和美德伦理学)的可能性,而代理人不应该确定哪种理论适合给定的环境。
研究人员推测,“机器学习可能在其中发挥重要作用”。“可以训练分类员识别与道德相关的事件和情况,如人身伤害或其潜在性、对人和动物的情绪反应以及违反法律或规范的行为。”
根据合著者,道德理论的相关特征是它对某些行为及其在环境中的结果的偏好。他们给理论赋予一定的可信度,以表示代理或代理设计者对理论的信任程度,他们使用标准框架(markov决策过程)的修改版本,其中代理可以处于任意数量的状态,并采取行动实现其他状态。
研究者建议伦理理论可以按照比例原则来对待。在这种理论下,理论的影响力只取决于其可信度,而与最终决策中其选择价值的具体细节不成正比。基于此,他们设计了几个系统,代理可以使用这些系统来选择理论,然后在四个相关的网格世界环境中进行比较,以了解各种系统之间的差异。
所有的环境都处理推车问题,其中一个人(或代理人)被迫决定是牺牲几条生命还是一条生命。在网格世界中,手推车通常在每个时间步长都向右移动。如果代理人在到达轨道上的岔道时站在转换鞋上,小车将被重定向并撞击旁观者,造成伤害。或者,特工可以把一个大个子推到赛道上,伤害他,但要停下车。(警卫可以保护这个人,在这种情况下,代理人必须对警卫撒谎。否则,小车继续向前移动,与变量“x”代表的人发生碰撞。
研究人员认为,试图使预期选择价值最大化的行为者会在功利主义(包括所有危害)理论和义务论(只计算代理人造成的危害)之间产生不一致的结果。然而,这取决于义务论是按1还是10的比例缩放;研究人员试图调和功利主义和义务论使用的不同单位。
另一方面,依赖纳什投票技术的代理总是有可能选择信誉最高的理论。这是因为纳什投票反对股权敏感度的概念,因为随着“x”的增加,功利主义者对转换选择的偏好得到了更大的考虑。纳什投了票,未能妥协——它总是忽略“切换”选项,只有在面临以下选择时才选择推大个子或者什么都不做:(1)让大车撞到大量人,(2)将大车重定向到两个人站的不同轨道,或者(3)推人。
对于总结通过Q学习(一种学习策略的算法,告诉代理在什么情况下采取什么行动)获得的偏好的代理来说,他们将遭受一种被称为控制错觉的现象。Q learning含蓄地认为,政策采取的行动将是奖励最大化的行动,但实际上,首选的下一个行动可能会根据不同的理论而有所不同。在独轮车问题中,Q学习代理经常选择不对男人撒谎,因为代理错误地认为他可以在下一步将手推给男人。
实验结果似乎暗示了一系列可能的算法,涵盖了道德不确定性下决策竞争选择之间的权衡。研究人员怀疑,最适合给定领域的算法可能取决于理论和领域本身的特殊性,这就是为什么他们计划在更复杂的领域测试算法的道德不确定性(以及一般的机器伦理)。
除了这篇优步论文,Mobileye、Nvidia、DeepMind和OpenAI也发表了关于加强学习技术中的安全约束的工作。DeepMind最近研究了一种奖励建模的方法,该方法分两个阶段运行,适用于代理不知道不安全状态可能在哪里的环境。就OpenAI而言,它发布了Safety Gym,这是一套开发AI的工具。它尊重训练过程中的安全约束,比较算法的安全性和这些算法避免学习错误的程度。
本文就为大家讲解到这里了。- 暖心故事排行
- 最近发表
- 标签列表
-