社区发现算法 - Louvain
概述 图是由节点和节点之间的边构成的一种结构,比如社交网络中人与人之间的关系、全球各个城市的交通连接情况,都可以表达成一个图结构。 社区发现是指图结构中存在聚集的一个节点集合,比如社交网络中的一个个人际圈子会组成一个个社团,在交通的图结构中,每个国家的城市集合就可以表达为一个社团。 社区发现发现算法就是依据图结构数据,来寻找聚集性社区的算法,正确的社区划分对下游业务应用有重要意义。lou...
概述 图是由节点和节点之间的边构成的一种结构,比如社交网络中人与人之间的关系、全球各个城市的交通连接情况,都可以表达成一个图结构。 社区发现是指图结构中存在聚集的一个节点集合,比如社交网络中的一个个人际圈子会组成一个个社团,在交通的图结构中,每个国家的城市集合就可以表达为一个社团。 社区发现发现算法就是依据图结构数据,来寻找聚集性社区的算法,正确的社区划分对下游业务应用有重要意义。lou...
很多事情都很重要,但要抓到重点,重要性排序可能是下面这样: 做自己想做的事儿。1)找自己能做 2)从里面挑想做的 3)挑非常想做的 4)挑最想做的 获得快乐、幸福、意义 获得金钱、别人的认可 大多事情只能短暂影响生活节奏,比如晋升涨薪、工作不顺、感情不和。更要关注的是能长期提升幸福值的事情,比如1 有具体的方法可以帮助提升幸福感 每天记下来让自己快乐的事和不快乐的...
缘由 偶尔听同事提起来这本书,就买来读了读。 物种灭绝的罪魁祸首 读了大概1/4的样子,读到人类才是导致物种灭绝最严重的罪魁祸首,当人类踏足了澳大利亚,美洲,都在同时间内发生了大量的物种灭绝,比如双门齿兽、地懒、长毛象,这一类生物体型庞大,生育周期长,只要定期猎杀就能导致出生率>死亡率,几千年后避免不了物种灭绝。 物竞天择 仔细想想,其实这也是物竞天择、适者生存的结果,当人类和长毛...
缘由 买公路车一个月了,只骑过一次,第一次去了故宫,来回70公里并不觉得特别累,想挑战下妙峰山,就约朋友上路了。 出发 从住的地方到妙峰山单程57公里,但妙峰山路段本身单程21公里,主要是离得太远了。 9.30出发,在公司碰头出发,骑20公里的时候遇到了爬坡,曾一度以为我们已经在上山了,因为那个路段的坡太像爬山了,爬的途中差点中暑,眼前的东西一片模糊,已经看不太清楚了,还产生了掉头回去的想法...
在公司专心工作,面对27寸大屏一顿操作,突然觉得做的事情似曾相识,以前做过类似的事情,但又实在想不起来了,脑子中突然蹦出了黑客帝国电影,如果我们都是机器人,那我此时此刻就是发生了内存泄露类的错误,赶紧记忆下来,防止这段记忆消失。以后会不会有一天,以人类的能力也能创造出类似地球似的一个生态,生态里的”人类”再不断进步、成长,创造出新的地球生态……。 那么,我们所在的世界,可能真的是一个别人普通...
介绍 特征交互是要衡量两组特征之间的相关性,即在特征1 和特征2 分别取某个值时,对模型结果是否有特殊的影响。 基本假设:当两个特征完全独立,即没有任何相关性时,我们认为$PD_{jk}(j,k)=PD_j(j) + PD_k(k)$,特征有一定相关性时,等号不成立。那么就可以用等号前后的两个函数的差异,衡量特征之间的相关性。 那么就可以用一下公式来衡量两个特征的相关性: \(H_{j,...
1. 数据清洗 缺失值处理:1)缺失。2)填充0、均值、中位数 无效值:1)只有一个取值。2)无区分度。 2. 特征构建 2.1 单特征处理 分类特征:label encoder,oneHot encoder,target encoder 特征衍生:绝对值、平方、对数。对树模型作用不大。 特征分箱:等频、等距、卡方 时间:年、月、日、时、分; 2.2 特征组合 统计特征:计数、...
从PDP优化 M-plots PDP 把当前特征值代入所有样本中,会出现部分样本在实际情况中不可能存在的问题,于是就有 M-plots,计算当前特征值对应的预测期望时,只考虑数据集合中存在的样本。 ALE ALE 取同一区间内,预测值的变化作为特征的影响,不同区间累计,构建特征和预测值之间的关系。与 M-plots 不同的是,ALE取预测值的变化作为特征影响,而不是取预测值的均值。 影响:...
介绍 理想定义 PDP(Partial Dependence Plot) 局部依赖图,定义单特征和目标之间的关系,即函数 $\hat{f}X(x_S)$ \(\hat{f}_S(x_S)=E_{X_C}[\hat{f}(x_S,X_C)]=\int{\hat{f}(x_S,X_C)dP(X_C)}\) $x_S$ 标识当前特征 $S$ 的特征值,$X_C$ 表示出了 $S$ 以外的其他特征...
概览 模型解释性作为整个系统的最上层,从模型中提取信息,供人来理解。 解释性的作用 业务需要,保证结果可归因。 提升模型效果。 利于达成AGI(通用/强人工智能) 总得来说,解释性的作用还是为了提升最终的效果。 参考 模型解释性:https://christophm.github.io/interpretable-ml-book/ 神经网络解释性:http://cola...