袁岚峰:大家日常用得最多的,就是推荐系统。当我们打开百度地图,或者淘宝,或者抖音之类的软件的时候,其实就已经在用您的算法了。您在里面用的是什么算法?
熊辉:它不是简单的一种算法或者几种算法。这个推荐系统,本身是一个体系化的,它是一个system,就像一个系统。就好比购物推荐,或者说旅行包推荐,或者是说推荐一部电影、一个音乐,它是一个体系化的工作。中间包括很多,包括你的特征提取,包括模型构建,还有包括个性化的用户分析。中间就会用到我们的聚类技术——我去做客户的画像:他喜欢什么东西?就像婚介所,客户兴趣的分析,然后profile画像。还有你这边的这个产品,如何能够做到一个更好的匹配和对接?
袁岚峰:您在这方面的一个代表作,是IEEE(电气电子工程师学会)上面2024年的一篇文章,就是做冷启动和过滤气泡的,是吧?
熊辉:因为冷启动是推荐系统中一个相对来说比较具有挑战性的问题。所谓的冷启动就是说,这方面我的数据积累不够,我如何才能更快地构建一个推荐系统,让它过了一个很冷的阶段,迅速去提高到性能的一个高度?有些时候我们用transfer learning(迁移学习),通过迁移学习来做到:新的场景中,我数据采集量不够,我在小样本的情况下,然后再基于这个迁移,然后迅速地达到一个相对比较好的性能。
袁岚峰:还有一个是过滤气泡,这个又是什么?
熊辉:Collaborative filtering(协同过滤)。所谓协同过滤,就是说根据你的产品来分类。比如说你新到一个店,我并不知道你在我这个店的行为,但是我知道你在其他店的行为。你在其他店喜欢买什么颜色的衣服、裤子,现在我就可以相应地,根据我对你的其他东西的分析,然后我就可以先从这里开始推荐给你,也是协同过滤可以帮到你。协同过滤是推荐系统中的一个大的算法类型,冷启动是推荐系统中的一个挑战。
袁岚峰:所以协同过滤相当于是来解决冷启动的方案之一,是吧?
熊辉:是一个算法。现在有一个大趋势,就是跟大模型结合在一起。一个是最直接的,用大模型来做推荐。另外一个就是大小模型结合,通过大模型来帮助我更好地去理解整体的数据,然后产生特征,然后这特征和过去的那些模型特征结合在一起,再去做推荐,提升它的效果,还有增加这个推荐过程当中的可解释性。
我去年做的一个总结。我说,过去的流量经济已经转向了现在的注意力经济。过去更加在乎的是什么?更加在乎的是我看到了什么。现在注意力经济实际上是什么?是商家让你看到了什么,就是平台让你看到什么。这是巨大的改变。所以整个商业逻辑都会发生重大改变。以前是竞价排名,但是现在大模型时代是什么?我问一个东西,这个是一个产品,它到底是什么?顺便它就告诉你了,在哪里可以买。但是问题是,它告诉你的,是它想让你看到的。这就叫注意力机制了。