TGI的概念解析及其tgi概念的举例说明
1. TGI概念
首先还是先赘述一下TGI的概念,TGI是Target Group Index的缩写,TGI=[目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例]*标准数100。TGI指数等于100表示平均水平,高于100代表该类用户对某类特征的关注程度高于整体水平。举个简单例子,比如某客户端所有用户的男女比是60%和40%,在这些用户中,看过某体育视频的男女比是90%和10%,看过某母婴视频的男女比是20%和80%。那么该体育视频在男性中的TGI是90%/60%*100=150,女性10%/40%*100=25,该母婴视频在男性中的TGI是20%/60%*100=33.33,女性80%/40%*100=200.
概念看似简单,我刚接触TGI时有点绕的问题是,“目标群体”和“某一特征”容易混淆。像刚才体育频道的例子,把看过体育频道的用户作为“目标群体”,男性女性作为“某一特征”,“总体”指的是所有频道的用户。因为我要研究体育频道的用户,所以设置他们为“目标群体”,也就是我想研究什么,就设置哪个群体为“目标群体”,“某一特征”是我为了研究“目标群体”而选择的其中一个分类。换个角度说,假如我想研究男性或者女性用户,我就要设置男性用户为“目标群体”,看不看体育频道反而变成了“某一特征”,“总体”指的是男性用户和女性用户总和。
2. TGI适用范围
TGI的应用范围可以很广,并非仅局限于人群特征偏好度,由于TGI是用户画像中的概念,大家往往关注人群TGI。概念中的群体可以指代很多内容,比如广告点击曝光转化,文章阅读统计,数据日志等等。只要对该群体做两个或两个以上维度的类别划分,就可以计算TGI。例如广告曝光,可以按创意类别分类,也可以按投放广告所在频道分类,两种维度的分类就可以计算某类创意在某频道的TGI,或者某频道在某类创意的TGI。
3. TGI应用
在画像中,TGI的作用是研究特征和目标人群的关联度,TGI的值和100的差距越大区分度越大越有价值。刚才的举例中,25、33.33和150、200一样有很大价值,因为更大的区分度更能描绘人群的特点,也更容易聚类出相应人群。同理,TGI趋近于100的可以认为该特征对区分人群没有什么价值。通过TGI可以清晰看到某种特征的人群的喜好,发掘更多潜在用户和数据的潜在价值,像啤酒和尿不湿的故事,关联度大的特征都可以通过TGI展示出来。而且不同人群的特征关联度可以直观的比较,展示不同人群的区别。
不过TGI也有尴尬之处,它很难验证人群画像准确度,或者说很难计算出评判指标来评判画像的优劣。如果一套画像的TGI都是100,毫无疑问这个画像是很不准的。但是有区分度的画像也很难通过TGI判断它准,这是因为没有整体评价的计算,关于评判画像这一点之后会再研究。再一个比较关键的点,就是分类中数量越少的群体,TGI浮动会越大,相对越不准。假设用户中男女比是99%和1%,在性别上的TGI将没有什么价值,女性TGI会浮动很剧烈,偶然因素影响巨大,也就不具备参考价值了。
4. TGI计算
假定一个TGI应用场景是,我要分析我这个app的所有用户P中,有某种特质的用户群A的tgi。(1)首先确定好要分析哪些特征,比如年龄、性别、职业(2)然后计算出P的各个特征人数,p1、p2、…、pn。这些p值有长期使用价值,可以定时自动计算。(3)计算A的各个特征人数,a1、a2、…、an。(4)A的特征tgi,比如tgi1 = (a1/A) / (p1/P)*100,以此类推进行计算。
计算过程简单,但是有几点是要做好的。首先用户画像是基础,计算人数都是要用画像数据。然后如果要分析一堆目标用户,可以用代码循环计算。