应用营销

机器学习是对抗作弊的解药?:CTO 谈移动作弊理论 III

机器学习是我们对抗移动广告作弊的解药?

可以肯定的是,机器学习对于我们处理作弊的方式有很大的影响。随着其不断地被开发应用,机器学习开发在业界取得了巨大进展。然而,机器学习并非万无一失的解决方案,就技术层面而言,仍存在着许多未臻完善的缺点。

我们目前仍然处于机器学习使用的早期阶段。因此,放手让它打击作弊是不负责任的行为,并可能导致意想不到的后果。

在接下来的移动作弊理论系列 III 中,我们将探讨机器学习,了解该技术适用于市场的侷限性,以及该如何善用它目前的架构,使其确实达成我们的核心目的。如果您尚未阅读此理论系列,请点击此处从第 1 部分开始阅读,您也跳过第 1 部分,在第 2 部分了解作弊检测和预防作弊之间的差异。

区隔理论与实际应用

从目前的情况来看,机器学习存在根本上的理论问题,随后我们将通过类比进行说明。假设您想要从河中汲水喝,水受到不同来源的严重污染,种种迹象显示有问题发生。因此,您决定先确认水是否安全,然后考虑去除所有潜在污染物的方法。这意味着,您不仅需要明白污染物究竟看起来如何,还需要想出过滤所有污染物的对策。

在克服困难之后,您打造出一台先进的机器。它自学如何检测潜在的问题迹象,还会提示您它发现了哪种污染物。

实践表明,您的机器能够准确分辨出它发现的污染物类型,尤其是随着时间推移,检测的次数越多,其准确率也越高。但是,这是否意味着它能检测出每一种类型的污染物?同时,是否可以用它来阻止污染,并过滤出安全的饮用水?

机器学习存在的隐忧

如果我们尝试将机器学习取代具体的方法来过滤伪造行为,诸多问题可能会随之而生。由于我们必须从真实用户的组合数据集中过滤出虚假用户,在过滤的过程中,会产生大量不明确的边缘案例(edge cases)。

此外,作弊者可以“培养”来自真实设备的数据,伪造合法的用户行为,其中包括 SDK 发送的任何归因。有些作弊者会犯错(例如创建容易被发现的虚假用户交互),每一次被发现他们便学到一些新东西。因此,他们下一次的作弊尝试可能会更加复杂。

我们举个例子来说明机器学习目前所面临的困难。比方说,作弊者使用已知用户的真实设备信息(例如操作系统版本、IDFA 和区域设置)来实施作弊,问题是,在这种设备上就从未被下载的应用进行伪造安装,会导致机器学习算法在提取过去的数据点时,难以正确地为作弊手法作分类。其原因在于,历史数据表明用户是真实的,如此一来,又怎么使算法认为这是作弊呢?

此外,肇因于这些滥用真实设备数据的拙劣伪造行为,日后真正的用户活动可能反而被归类为作弊。本质上而言,机器学习不知道哪个数据点是真实的,哪个数据点又是伪造的,继而造成神经网络训练的困难。我们已经看到,作弊者用“完美”的数据伪造了几乎所有的请求,其中包括客户自身的测量系统。这使得机器学习即便在进行长期跟踪之后,也很难辨识伪造用户。

简而言之,当面对不熟悉的新场景时,机器学习无法有效发挥作用。在下一部分我们将解释,为何机器学习在实际应用中,还不足以作为一个可靠的测量和过滤系统。

在转化中迷失的数据

要作为拒绝假量的判断基础,神经网络需要在安装时便决定何时要为大多数的营销活动付款,然而此时它对用户知之甚少。

为了解决这一问题,同时确定用户的合法性,机器学习会尝试在更大的数据集内检测更复杂的规律模式,包括那些看来混沌不明的特征。

这个时候,如果尝试弄清楚整个专用神经网络的决策过程,您可能被搞得焦头烂额。机器学习会创建出极其复杂的规则集,以奇怪的组合方式识别看似不相关的标识符。

有些供应商销售的反作弊工具十分依赖机器学习作为拒绝的基础,如果受到质疑,这些供应商可能会决定将他们的决策隐藏在黑箱 (black box) 內。也就是说,永远不解释他们在做什么。

这可能成为未来防作弊工具的一大隐忧。

为什么说黑箱不是一个好主意?

黑箱真的有那么糟糕吗?让我们举个例子来说明原因。

假设有个渠道正在就近期营销活动中被拒绝的归因与客户调解纠纷。渠道没有可以复制或解释拒绝的数据,因此不得不依据客户的表述,而客户又依赖于监控作弊的归因服务。虽然小部分争议流量对于渠道来说可能不成问题,但在达到一定的临界值之后,它会变成一个大问题。

一旦供应商失去解释拒绝归因的能力(或者不想解释),客户会提出意见性的主张。我们可以就意见作争辩或提出异议,然而如果沿着这个方向发展,最终会演变成这样的景况:渠道试图把每个过滤器描述成另一种可忽略的意见。

对于有效过滤的构成要素,我们已经清楚地表达了我们的观点。我们想要创建一个合乎逻辑且透明的系统,以回避意见性的争端,也就是说,我们尝试以合乎事实的方式主张我们的拒绝。

正因如此,尽管我们认为机器学习是种优秀的检测手段,但我们不应该用它进行拒绝,至少现在还不能。在目前的状态下,边缘案例会被忽略,且决策背后的逻辑最终可能会因意见而被拒绝,进而引发缺乏透明度的问题。我们应该要做的,是认真研究、在正确的基础上构建过滤器,从而在不拒绝合法来源安装的情况下阻止作弊。

现在让我们回头思考上文有关机器学习的类比,您肯定知道污染是存在的。但这并不意味着用这项逻辑来过滤水源的时机已经成熟。最好的办法是什么?通过研究调查和适当的过滤,您可以追溯上游,找到污染来源,并从根本源头杜绝污染。

扫一扫, 分享本文

关注adjust的公众号