孪生网络做 query 相似度任务
起因 工作中做一个 query 相似度任务时,偶然看到孪生网络的一片经典论文,《Learning Text Similarity with Siamese Recurrent Networks》,用来做同类文本预料的相似度任务是极好的。 介绍 这篇文论主介绍孪生网络的基本思想,对于 query 相似度任务(同类型实体的相似度任务,比如图片、语音),可以设计一个网络结构 net,将两个 qu...
起因 工作中做一个 query 相似度任务时,偶然看到孪生网络的一片经典论文,《Learning Text Similarity with Siamese Recurrent Networks》,用来做同类文本预料的相似度任务是极好的。 介绍 这篇文论主介绍孪生网络的基本思想,对于 query 相似度任务(同类型实体的相似度任务,比如图片、语音),可以设计一个网络结构 net,将两个 qu...
1、dropout 和 cos 组合使用带来的问题 孪生网络中,如果 dropout 这一层用于 cos 计算相似度的话,预测阶段的输出值会比训练阶段的值更大,相差一个 dropout 值:$sim_score_{predict} = sim_score_{train} / dropout$ 这是训练和预测阶段 dropout 用法不一致带来的问题。 但这个问题包含一个假设:即 dro...
背景 Imagen 是谷歌做的一个输入文本,自动生成对应图片的工具,突然看到 Imagen 的宣传,感觉 UGC 离现实生活越来越近了。 之前 GPT-3 生成的一篇文章登顶 hacknews,引发一波热潮,但总觉得文本的 UGC 落地感觉还比较难,因为文本的理解成本高,审核成本高,但图像,是一个生成成本高、理解成本低的内容,特别是在视频横行的现在,现在生成成本可以让模型自动化来做了,落...
背景 微软的发表的一篇文章,主要提出将文本的语义编码和位置编码,在计算 attention 时分别两两计算再求和,是个有趣的思路。 复现 参考原 bert 参数,A100 机器上跑一轮得3个小时,算力是在顶不住,放弃了。 所以就只用 paddle 实现一下 DeBERTa,跑通 demo 锻炼下编码能力,过程中主要是 disentangled attention 实现起来有点复杂。 de...
1、Sentence Representations from Natural Language Inference Data 大意:利用有监督的自然语言推断数据训练句向量,利用句向量的拼接、求差做分类进行训练。求得的句子向量在情感分析等12项任务上进行测试,句向量+dense进行分类。对比了RNN、LSTM、GRU、CNN、self-attention等句向量表征结构,BiLSTM + m...
背景 从公司大佬哪儿得知,CNN在query理解上有难以被超越的效果(当然除了bert类的巨无霸模型),就尝试了下。 做法 仍然使用 上一篇博客 中的query相似度任务和数据,同样用孪生网络来做,不过表征query向量的LSTM替换成了CNN,对比CNN和LSTM在query理解上效果的差异,CNN结构参考14年的一篇 paper 来做。 CNN结构先用多个滤波器做卷积,滤波器的某一维与...
读书 1、《微观经济学》:一直以为读的是宏观经济学,读完了才发现是微观的。经济学从经济体的角度考虑,怎么让生活变得更加美好,以达到全局最优。印象最深的是关于交易的一个例子,两个经济体 A 和 B,都会制造两种物品 x 和 y,即使 A 对 x 和 y 的产能都落后于 B,如果 A 和 B 之间产生交易的话,也能增加整体的产能。比如 A 的产能是 20x/年(代表 A 拿一年时间都去生产 x ...