模型解释性

概览模型解释性作为整个系统的最上层，从模型中提取信息，供人来理解。解释性的作用业务需要，保证结果可归因。提升模型效果。利于达成AGI（通用/强人工智能）总得来说，解释性的作用还是为了提升最终的效果。参考模型解释性：https://christophm.github.io/interpretable-ml-book/ 神经网络解释性：http://cola...

Jun 22, 2022

Web3 入门科普

背景 web1: 网民只能从网络上读内容 web2: 网民可以在网络上写内容 web3: 网民将拥有内容所有权，类似版权。比特币的兴起引发了 web3 的热潮。特点信任利用签名 + 区块链的方式，保证网民的操作是可信的，比如交易场景，可以用程序来替代可信任的第三方公司。去中心化网民创造的内容不再由巨头（平台）拥有，网民有所有权，可以自由创作、修改、删除，获得全部的收益...

Jun 4, 2022

总结 2022.4

整体月度OKR完成 32% 健身：4次博客：1篇 ACM：1场电影：4个早睡早起：10/26=38% 早睡早起没有执行好，白天看手机比较多，主要还是手机的问题。想法为什么人喜欢晚睡晚起？睡觉代表一天的结束，我们都喜欢在结束之前尽量再做些事情，抓住一天结束的尾巴。这种心理源自我们对时间规划的不准确，如果要规划这一天，又好像生活比较机械化，失去了未知的快乐。但”客观”来讲，人做的...

May 31, 2022

孪生网络做 query 相似度任务

起因工作中做一个 query 相似度任务时，偶然看到孪生网络的一片经典论文，《Learning Text Similarity with Siamese Recurrent Networks》，用来做同类文本预料的相似度任务是极好的。介绍这篇文论主介绍孪生网络的基本思想，对于 query 相似度任务（同类型实体的相似度任务，比如图片、语音），可以设计一个网络结构 net，将两个 qu...

May 31, 2022

学习 2022.4

1、dropout 和 cos 组合使用带来的问题孪生网络中，如果 dropout 这一层用于 cos 计算相似度的话，预测阶段的输出值会比训练阶段的值更大，相差一个 dropout 值：$sim_score_{predict} = sim_score_{train} / dropout$ 这是训练和预测阶段 dropout 用法不一致带来的问题。但这个问题包含一个假设：即 dro...

May 31, 2022

Imagen

背景 Imagen 是谷歌做的一个输入文本，自动生成对应图片的工具，突然看到 Imagen 的宣传，感觉 UGC 离现实生活越来越近了。之前 GPT-3 生成的一篇文章登顶 hacknews，引发一波热潮，但总觉得文本的 UGC 落地感觉还比较难，因为文本的理解成本高，审核成本高，但图像，是一个生成成本高、理解成本低的内容，特别是在视频横行的现在，现在生成成本可以让模型自动化来做了，落...

May 31, 2022

DeBERTa

背景微软的发表的一篇文章，主要提出将文本的语义编码和位置编码，在计算 attention 时分别两两计算再求和，是个有趣的思路。复现参考原 bert 参数，A100 机器上跑一轮得3个小时，算力是在顶不住，放弃了。所以就只用 paddle 实现一下 DeBERTa，跑通 demo 锻炼下编码能力，过程中主要是 disentangled attention 实现起来有点复杂。 de...

May 31, 2022

读论文

1、Sentence Representations from Natural Language Inference Data 大意：利用有监督的自然语言推断数据训练句向量，利用句向量的拼接、求差做分类进行训练。求得的句子向量在情感分析等12项任务上进行测试，句向量+dense进行分类。对比了RNN、LSTM、GRU、CNN、self-attention等句向量表征结构，BiLSTM + m...

Apr 3, 2022

用CNN做query相似度任务

背景从公司大佬哪儿得知，CNN在query理解上有难以被超越的效果（当然除了bert类的巨无霸模型），就尝试了下。做法仍然使用上一篇博客中的query相似度任务和数据，同样用孪生网络来做，不过表征query向量的LSTM替换成了CNN，对比CNN和LSTM在query理解上效果的差异，CNN结构参考14年的一篇 paper 来做。 CNN结构先用多个滤波器做卷积，滤波器的某一维与...

Jan 8, 2022

2021年度总结

读书 1、《微观经济学》：一直以为读的是宏观经济学，读完了才发现是微观的。经济学从经济体的角度考虑，怎么让生活变得更加美好，以达到全局最优。印象最深的是关于交易的一个例子，两个经济体 A 和 B，都会制造两种物品 x 和 y，即使 A 对 x 和 y 的产能都落后于 B，如果 A 和 B 之间产生交易的话，也能增加整体的产能。比如 A 的产能是 20x/年（代表 A 拿一年时间都去生产 x ...

Dec 31, 2021

模型解释性

Web3 入门科普

总结 2022.4

孪生网络做 query 相似度任务

学习 2022.4

Imagen

DeBERTa

读论文

用CNN做query相似度任务

2021年度总结

Trending Tags