估值18亿美元的美国知乎 如何使用机器学习?
估值18亿美元的美国知乎 如何使用机器学习?
昨天,美国问答网站Quora宣布完成了8500万美元的D轮融资,估值翻倍。这样说来,Quora现在的估值应该是18亿美元,成了一只新的独角兽。
在过去一年里,Quora除了继续扩大用户规模之外,还开始了商业化尝试,机器学习技术在这家公司业务上的应用,也增加了很多,不仅已有的机器学习应用用上了更大更好的模型,机器学习的使用领域也有扩张。
那么,Quora现在是怎样使用机器学习的?其机器学习负责人Nikhil Dandekar前不久发文做了一下介绍,量子位编译如下:
我将介绍Quora产品的不同部分,讨论我们在其中是如何使用机器学习的。
1. 查找信息
Quora知识共享的主要方式是问题和答案。这从用户希望获得一个令其满意的回答开始,或者说从“信息需求”开始。
用户在Quora上提出了一个新的问题后,我们有一套机器学习系统进行问题的理解,即从问题中提取信息,从而使接下来的流程变得更容易。下面,我描述一下这个问题理解系统。
我们关心内容的质量,这一切都以问题的质量开始。我们有一个ML系统可以对问题质量进行分类,帮助我们区分高质量和低质量的问题。除了问题质量,我们还会确定一些不同的问题类型,这会帮助我们确定在接下来的流程中如何处理问题。
最后,我们也做了问题主题标签来确定问题的主题。大多数主题建模应用都可以处理大型文档文本和较少的主题关键词,但我们处理的是一个的简短问题文本和超过一百万个潜在主题,这使得这项工作成为一个更具挑战性的问题。
在所有问题理解模型中,我们从问题本身和它的语境来获得其特征。例如,询问问题的用户,询问问题的地点等等。
满足用户信息需求的另一种方法是让他们在现有问题中找到他们所需的答案。我们有两个主要的搜索系统:问题栏(Ask Bar)搜索,它为Quora主页上的页首搜索栏提供支持;还有一个就是全文搜索,这是一个更深入的搜索系统,您可以通过点击问题栏结果中的“搜索” 选项来获得。这些搜索系统使用不同的排名算法,这些算法在搜索速度、相关性以及返回结果的广度和深度方面有所不同。
2. 获得问题的答案
问题理解系统的输出是问题生命周期中下一个步骤的重要输入:如何从专家那里获得答案。在这里,我们也有机器学习系统,帮助我们更好地解决这个问题。
邀请回答(Request Answers,直译是“请求回答”,以前称为要求回答,Ask to Answers,A2A)是Quora的一项功能:允许用户将请求发送给其他用户,要求他们为特定问题写一个答案。
我们将邀请回答构建成了一个机器学习问题,用这种方法来推荐建议邀请的用户。我们在另一篇博客文章中介绍了这个系统的细节:“请求回答”中的机器学习问题。地址:https://engineering.quora.com/Ask-To-Answer-as-a-Machine-Learning-Problem
在A2A之外,我们将未答复的问题与专业问题回答者进行匹配的主要方式是通过Quora主页信息流。问题排名对我们来说是一个非常重要的问题。我们将上面所述的问题属性、用户属性以及一系列其他原始的和衍生的功能作为这个排名模型的输入,为用户生成具有话题性、相关性的个性化的Feed 。这是几天前我feed的截图:
3. 阅读内容
如上图所示,信息流不仅包括你可以撰写答案的问题,还包括值得阅读的回答。答案内容的信息流排序也是一个对我们来说非常重要的机器学习问题。信息流中的问题排名和答案排名使用类似的底层系统,但二者的目标非常不同,因此在其基础模型中使用了不同的特征集合。
另一个我们使用机器学习来评估值得阅读答案排名的是我们向用户发送的电子邮件摘要。所有这些排名问题都由相当先进的机器学习系统提供支持,这个ML系统使用多种模型和许多不同的功能来实现最终排名。