特征工程

1. 数据清洗缺失值处理：1）缺失。2）填充0、均值、中位数无效值：1）只有一个取值。2）无区分度。 2. 特征构建 2.1 单特征处理分类特征：label encoder，oneHot encoder，target encoder 特征衍生：绝对值、平方、对数。对树模型作用不大。特征分箱：等频、等距、卡方时间：年、月、日、时、分； 2.2 特征组合统计特征：计数、...

Jul 7, 2022

累计局部效应图

从PDP优化 M-plots PDP 把当前特征值代入所有样本中，会出现部分样本在实际情况中不可能存在的问题，于是就有 M-plots，计算当前特征值对应的预测期望时，只考虑数据集合中存在的样本。 ALE ALE 取同一区间内，预测值的变化作为特征的影响，不同区间累计，构建特征和预测值之间的关系。与 M-plots 不同的是，ALE取预测值的变化作为特征影响，而不是取预测值的均值。影响：...

Jul 5, 2022

模型解释性-PDP

介绍理想定义 PDP(Partial Dependence Plot) 局部依赖图，定义单特征和目标之间的关系，即函数 $\hat{f}X(x_S)$ $\hat{f}_S(x_S)=E_{X_C}[\hat{f}(x_S,X_C)]=\int{\hat{f}(x_S,X_C)dP(X_C)}$ $x_S$ 标识当前特征 $S$ 的特征值，$X_C$ 表示出了 $S$ 以外的其他特征...

Jun 26, 2022

模型解释性

概览模型解释性作为整个系统的最上层，从模型中提取信息，供人来理解。解释性的作用业务需要，保证结果可归因。提升模型效果。利于达成AGI（通用/强人工智能）总得来说，解释性的作用还是为了提升最终的效果。参考模型解释性：https://christophm.github.io/interpretable-ml-book/ 神经网络解释性：http://cola...

Jun 22, 2022

Web3 入门科普

背景 web1: 网民只能从网络上读内容 web2: 网民可以在网络上写内容 web3: 网民将拥有内容所有权，类似版权。比特币的兴起引发了 web3 的热潮。特点信任利用签名 + 区块链的方式，保证网民的操作是可信的，比如交易场景，可以用程序来替代可信任的第三方公司。去中心化网民创造的内容不再由巨头（平台）拥有，网民有所有权，可以自由创作、修改、删除，获得全部的收益...

Jun 4, 2022

总结 2022.4

整体月度OKR完成 32% 健身：4次博客：1篇 ACM：1场电影：4个早睡早起：10/26=38% 早睡早起没有执行好，白天看手机比较多，主要还是手机的问题。想法为什么人喜欢晚睡晚起？睡觉代表一天的结束，我们都喜欢在结束之前尽量再做些事情，抓住一天结束的尾巴。这种心理源自我们对时间规划的不准确，如果要规划这一天，又好像生活比较机械化，失去了未知的快乐。但”客观”来讲，人做的...

May 31, 2022

孪生网络做 query 相似度任务

起因工作中做一个 query 相似度任务时，偶然看到孪生网络的一片经典论文，《Learning Text Similarity with Siamese Recurrent Networks》，用来做同类文本预料的相似度任务是极好的。介绍这篇文论主介绍孪生网络的基本思想，对于 query 相似度任务（同类型实体的相似度任务，比如图片、语音），可以设计一个网络结构 net，将两个 qu...

May 31, 2022

学习 2022.4

1、dropout 和 cos 组合使用带来的问题孪生网络中，如果 dropout 这一层用于 cos 计算相似度的话，预测阶段的输出值会比训练阶段的值更大，相差一个 dropout 值：$sim_score_{predict} = sim_score_{train} / dropout$ 这是训练和预测阶段 dropout 用法不一致带来的问题。但这个问题包含一个假设：即 dro...

May 31, 2022

Imagen

背景 Imagen 是谷歌做的一个输入文本，自动生成对应图片的工具，突然看到 Imagen 的宣传，感觉 UGC 离现实生活越来越近了。之前 GPT-3 生成的一篇文章登顶 hacknews，引发一波热潮，但总觉得文本的 UGC 落地感觉还比较难，因为文本的理解成本高，审核成本高，但图像，是一个生成成本高、理解成本低的内容，特别是在视频横行的现在，现在生成成本可以让模型自动化来做了，落...

May 31, 2022

DeBERTa

背景微软的发表的一篇文章，主要提出将文本的语义编码和位置编码，在计算 attention 时分别两两计算再求和，是个有趣的思路。复现参考原 bert 参数，A100 机器上跑一轮得3个小时，算力是在顶不住，放弃了。所以就只用 paddle 实现一下 DeBERTa，跑通 demo 锻炼下编码能力，过程中主要是 disentangled attention 实现起来有点复杂。 de...

May 31, 2022

特征工程

累计局部效应图

模型解释性-PDP

模型解释性

Web3 入门科普

总结 2022.4

孪生网络做 query 相似度任务

学习 2022.4

Imagen

DeBERTa

Trending Tags