注册

学界 | SIGIR 2018最佳论文:基于流行度推荐系统有效性的概率分析

紧紧依靠属地党委政府,积极协调工商、安监、城管、商务、市政市容等职能部门和公安派出所开展联合检查、联合执法、综合整治。


来源:机器之心

原标题:学界 | SIGIR 2018最佳论文:基于流行度推荐系统有效性的概率分析 选自SIGIR

原标题:学界 | SIGIR 2018最佳论文:基于流行度推荐系统有效性的概率分析

选自SIGIR 2018

作者Rocio Ca?amares、Pablo Castells

机器之心编译

参与:刘晓坤、思源、李泽南


ACM 国际信息检索研究与发展会议 SIGIR 2018 近日于美国密歇根州 Ann Arbor 举行。昨日,大会公布了最佳论文等奖项,来自马德里自治大学(Universidad Autónoma de Madrid)的学者 Rocio Ca?amares 和 Pablo Castells 的论文《Should I Follow the Crowd? A Probabilistic Analysis of the Effectiveness of Popularity in Recommender Systems》获得了最佳论文奖,微软与马萨诸塞大学阿姆赫斯特分校合作论文《Cross-Domain Regularization for Neural Ranking Models Using Adversarial Learning》获得最佳短论文奖。本文将对最佳论文进行简要介绍。

引言

使用 IR 方法论和指标用于推荐系统的评估在近年来发展迅速,已成为该领域中的常用实践方法,其将理解推荐看成排序任务 [14]。然而 IR 指标已被发现在推荐受欢迎条目(即很多人知道、喜欢、评分或交互的条目 [4,21,35])的奖励算法中有很强的偏见。同时,当前最佳的推荐算法也被发现在推荐多数人喜欢的条目时存在显而易见的偏见 [21]。人们可能自然地对常用的实验设置和最佳算法真实输出的可靠性提出质疑。


这个问题在 IR 方法论并没有得到特别的关注,因为流行度偏见在传统的搜索和 IR 任务中并没有出现,或者没有以如此奇怪的方式出现。推荐系统评估的常用数据集的流行度偏见非常强,即使是纯粹的和简单的流行度排序,相比当前最佳个性化算法 [14],也可能达到次优但不可忽视的推荐准确率。并且,实际上在高评分稀疏性条件下,其差距不一定是微不足道的。因此近期的研究开始着手解决这个问题,目前主要聚焦于证实和测量流行度偏见,并将其移除 [4,21,34,35]。但一个基础的问题仍然未得到回答:流行度偏见真的是必须要避免的吗?如果推荐流行的条目恰好是正确的,那么评估指标和推荐算法不是应该正好支持它们吗?

对产品的主要评价确实对人们而言是很有用的信息,这是一种简单、公平而有用的人类决策大部分时候默认的标准。并且我们实际上经常接受这个标准,例如,在缺乏足够证据来做出个人选择的时候,或作为从零开始的减少决策精力损耗的引导,或作为社会学习机制 [3]。从应用的角度上看,基于很多选择的推荐在很多情形中都是可接受的 [16],并只需要最少的开发技巧和维护成本。它确实是一个使用广泛的方法,很多应用以热门排行榜、最热卖排行榜、平均用户评分等的形式展示它。甚至在充分训练的个性化推荐系统中,热卖产品列表对于新用户而言仍然能提供很好的帮助。

多数人品味的有效性实际上有其统计意义:很多人喜欢的条目(根据观察到的用户活动)很有可能被很多(测试集中的)其他人所喜欢 [19]。然而,从实验的角度上看,如果观察结果有些微偏见,并且该偏见在训练数据和测试数据中一致,则推荐中的多数人偏见可能只是准确地猜测实验者的数据中隐含的用户偏好,而不是真正满足用户口味的产品。此外,多数人信号可能被来自真实用户赞赏的趋势所干扰 [5,29]。近期的研究表明多数人构造涉及某种程度的可能性,凭此不同的输出都有可能成为最流行的产品 [31]。此外,人们知道公众动态经常受到外部、内部信息以及偏见因素的影响 [26,27,29],例如大众媒体 [7]、市场营销、意见管理 [6]、算法偏见 [28],或社会整合 [13]。

因此问题是非常开放的,即流行度到底是不是真正高效的实现准确推荐的要素,它的效用在什么样的程度以及什么样的情况下有效,以及我们是否能恰当地度量它。我们通过考虑、分析和对比 IR 度量的两个方面来解决这个问题,即有偏和无偏 IR 度量。前者表示在一般离线实验中测量的值,其中相关信息并不是随机缺失的(MNAR)[23,24,25,34,35],后者表示在缺失信息可获得的情况下的真实度量值。

Rocio Ca?amares 等研究者在理论和实证层面都做了研究。在分析阶段,他们构建了问题的概率表达式。从修改推荐系统的概率排序原则 [30] 开始,研究者通过对比最佳排序分析了基于流行度的推荐。Rocio Ca?amares 等人发现流行度的有效性或无效性取决于三个主要变量的相互作用:条目相关性、用户对条目的发掘度以及用户决策与发掘条目之间的相互影响。他们确定了决定流行度的因素之间的关键概率依赖性,并且描述了由不同独立性假设定义的一组趋势,其中每个趋势都导致了特定的流行度行为模式。通过使用在众包平台构建的数据集,实证性观察也支持理论发现,其中该众包数据移除了公共数据集一些常见的偏见。

在其它研究结果中,Rocio Ca?amares 等研究者证明并展示了一种定性的矛盾,即在一般离线实验设置所测量的准确率与在无偏观察下估计的真实准确率之间的矛盾。研究者们确定了确保流行度可成为推荐中安全元素的条件,并且他们还描述并说明了这样一种相反情况,即流行度可能完全是一种误导的方向,它会指向比随机推荐更差的效用。研究者们进一步发现平均评分可能比评分的数量更加有效,它作为很多情况下的推荐的趋势,而这与有偏度量值所建议的正好相反。最后,研究者展示了他们的研究成果在个性化协同过滤算法中的意义。

图 1:非个性化流行度推荐的典型离线实验结果与个性化算法在两个公共数据集上的对比。

图 5:分析结果验证。a)栏对应 2 和 3a 的结论;c)对应 2 和 3c 的结论;d)匹配结论 1;b)例证了结论 4 中的一般场景。研究确认了观察到的和真实情况的准确率之间的几个不一致,并且发现了在情景 d 中流行度推荐的低于随机推荐的表现。我们还展示了(oracle)最佳非个性化排名的准确率。非统计学上显着的差异(2-tailed Student』s t-test 在 ?? < ??. ????时)在图中用红色双箭头表示。

论文:Should I Follow the Crowd? A Probabilistic Analysis of the Effectiveness of Popularity in Recommender Systems


论文链接:http://ir.ii.uam.es.zgv7.com/pubs/sigir2018.pdf


摘要:在推荐系统的评估中使用 IR 方法论在近年来已成为惯例。然而,IR 指标在推荐受欢迎条目的奖励算法中被发现有很强的偏见,相同的偏见在当前最佳的推荐算法中也出现了。近期的研究证实并测量了这种偏见,并提出了相应的方法来避免它们。基础问题仍然是开放性的:即流行度是不是一种需要避免的偏见;它在推荐系统中是不是一种有用的和可靠的信号;或者它是否可能由实验偏见带来不公平的奖励。我们通过确定和建模可以决定(关于关键随机变量之间的依赖关系,涉及条目评分、发现和相关性)答案的条件,在形式层次上解决了这个问题。我们发现了保证有效流行度(或恰好相反)的条件,和反映真实有效性的测量指标值的条件,或定量地从中导出。我们通过经验结果例证并证实了理论发现。我们构建了一个完全没有通常公共数据中存在的偏见的众包数据集,其中我们解释了在常见带偏见离线实验设置的准确率,和通过无偏见观察数据测量得到的真实准确率之间的矛盾。

本文为机器之心编译,转载请联系本公众号获得授权

?------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com

  • 好文
  • 钦佩
  • 喜欢
  • 泪奔
  • 可爱
  • 思考

凤凰网科技官方微信

凤凰新闻 天天有料
分享到:
友情链接: 生命之树之新王崛起 锻造成神系统 幽灵刀狂 文艺之我的1990 末世之萌宠召唤系统 世说星语 方外红尘 张平凡的路 唐魄 我的女友重生了 游梦一千年 四域魔皇 阴阳生死变1 苍茫帝主 三国之箭神传说 都市枭雄系统 我的女友是天魔 死神兑换系统 轮回之风云 神奇供销商 末世之最终之城 超神学院之邪恶大BOSS 愿你在我的世界 仙墟世界 这个bug系统要人命 不要背叛,让爱的人受伤害 那年青春20岁 熊出没怨之恋 灵车诡事录 我是要成为食神的男人 王者寂寞 超神的爱情超神的王者 狂浪生 妖遇神智之路 万界地府系统 乾坤道之不入轮回 升维之旅 从林杀手 破星乱雨 剑转之镜天一方 毛延寿传 诺亚之帝凌 道本为天 起个名是真难 神级老师系统 乱世再生 污秽之翼 元素启示录 万界传说之六界之泪 四次元道具口袋 28岁前走遍中国 伊洛兰卡传奇 无上天域之无极圣道 孤浪烟花 极限梦想之王者归来 碧宇情缘仙侠传 叶落深海 三国虎贲 隋唐新说 天凌邪帝 既然命运坎坷,那就要逆风飞翔 反游乐园入侵计划 梦幻西游之黑衣刺客 系统主宰万界 重生造神录 死亡行 银狼养成记 疯笑的年华 骨坟 不负余生,辉煌耀世 长胜歌 解宙组 圣光灵影 天尽头,问世苍茫 巫师之灾 幻世游戏世界 丧尸行走在末日 尘封已久的记忆 情断成道 噬天剑帝 仙道鬼路 魂炼天地 万界教主 极品合成大师 病娇我妻,神尊追妻不归路 没有无缘无故的恨 萧云的穿越传奇 尸复活记 盛唐导航 弃碑 寒心永恒 英雄联盟之轮回宿命 全职兵王之纵横花都 感觉我能火 冰王在世,废材二小姐 恶神卷目录 炤王大陆 未来的黎明 文娱在路上 我想你的霞 穿越之都市之门 噬血魔心 在这个混乱不堪的世界 来世再战 混斗师 启灵之红月传说 恶道善徒 那个令人向往的夏日 猛鬼来了 最后的血猎 在碧蓝航线的伪娘 寻找我的旅途 系统之大道重修 地狱冥司 无限战绩 九星证无 魔法使与黑魔法 贤事 第九次西游 提督的异世之旅 迷雾为你而等 当豪鬼穿越幻想乡 虚幻物质世界下的永恒能量 没有遗憾的回望 九辰之帝 过好 盖世星辰 求己问路 瘦不死的骆驼 未解谜案 夏夜的风 再见依然喜欢你 武戏江湖 新人类战神 第九号典当铺 无敌学生逍遥录 修仙归来当厨神 所爱隔山海山海皆可平 神级绘画系统 晗时未了,春光依旧 网游之灵体传奇 斗元士 三圣榜 门牌3644的风 神帝重生之死亡风暴 云月笙语 篮球的盛宴 最强军神系统 我为傲战 凤翔八观 绝地求生之未来战士 搬云记 末世之翼族 青玉元神 异界之玄龙大陆 我可不想当世界之主 应是三千道论我 直播王者荣耀 暮色舞台 三世重生之王者归来 榆木的食料小店 我意替天 玄灵创世 木衍苍生 望断江湖路 重生之魔兽——风云再起 今生还为遇见你:我不是大家闺秀 废柴男主的二次元摸鱼之行 剑,神 世纪警戒 重生星空至尊 火影之自来也传奇 六国策 雨晨杂谈 炼丹师的日常 四又二分之一的人生 缘起缘灭半生缘 风雨归去 星雨传之旭翰高校 新世纪大门