CTR预估评价指标介绍-白红宇的个人博客

CTR预估评价指标介绍

发布日期：2021-08-12 02:36:20 浏览次数：4 分类：技术文章

本文共 1136 字，大约阅读时间需要 3 分钟。

1 离线指标

　　logloss使用KL散度来计算。设样本的真实分布为P，预测分布为Q，则KL散度定义如下：

　　这里可以通俗地把KL散度理解为相同事件空间里两个概率分布的相异情况。KL散度越小，预测分布越接近真实分布。

　　KL散度的物理意义是：使用分布Q来对真实分布为P的事件进行编码，导致平均编码长度增加了多少。具体解释可见百度和知乎。

　　CTR预估中，上面的概率分布为二项分布。设真实的点击率是tctr，预测的点击率是pctr。因此真实的二项分布P是（tctr,1-tctr），预测的二项分布Q是(pctr,1-pctr)。因此KL散度公式可以写成如下：

　　tctr可以通过统计得出，表示为 tctr = click / impression。则KL散度可以变形如下：

因此，计算logloss的伪代码如下：

　　CTR预估是一个二分类问题。二分类问题的评价指标有FP rate，TP rate，准确率accuracy，精确率precision，召回率recall，分别定义如下：

　　其中，precision表示的是预测为阳性的样本中有多少是预测对的，recall表示有多少阳性样本被预测了出来，这二者通常是此消彼长，需要根据具体场合看用哪个指标。

　　accuracy表示预测准确的占所有的样本的比例。

　　Roc图表示的横坐标是Fp rate, 纵坐标是Tp rate。一个分类器的Fp rate越小，Tp rate越大，这个分类器就越好，对应在ROC图中就是靠近左上角。最完美的点是（0，1），最差的点是（1，0）。

　　如上所示，D是最好的，然后是A,B，然后是C，然后是F。AB之间比较就不好说了。

　　由于预测值是一个评分，还要通过选定一个阈值来将它划分成1还是0。我们按照预测值对样本降序排列，并且从上到下以预测值为阈值：

　　可以看出如果阈值选的不同，TP rate和FP rate是不同的。每选一个阈值，就能在ROC图上确定一个点，这样就能得到一条ROC曲线：

　　AUC是ROC曲线与横坐标轴围成的面积。数学上可以证明，AUC值等于一个概率，即在前面已经排序的样本列表中，随机选取一个正样本，再随机选取一个负样本，正样本排在负样本之前的概率。即AUC表征了正样本排在负样本前面的能力，并且与阈值选取无关，而与模型本身有关。

转载于:https://www.cnblogs.com/coldyan/p/6088436.html

转载地址：https://blog.csdn.net/weixin_30642561/article/details/97282297 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：天兔(Lepus)数据库监控系统快速安装部署

下一篇：python,re，正则表达式

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！