DeBERTa
背景 微软的发表的一篇文章,主要提出将文本的语义编码和位置编码,在计算 attention 时分别两两计算再求和,是个有趣的思路。 复现 参考原 bert 参数,A100 机器上跑一轮得3个小时,算力是在顶不住,放弃了。 所以就只用 paddle 实现一下 DeBERTa,跑通 demo 锻炼下编码能力,过程中主要是 disentangled attention 实现起来有点复杂。 de...
背景 微软的发表的一篇文章,主要提出将文本的语义编码和位置编码,在计算 attention 时分别两两计算再求和,是个有趣的思路。 复现 参考原 bert 参数,A100 机器上跑一轮得3个小时,算力是在顶不住,放弃了。 所以就只用 paddle 实现一下 DeBERTa,跑通 demo 锻炼下编码能力,过程中主要是 disentangled attention 实现起来有点复杂。 de...
1、Sentence Representations from Natural Language Inference Data 大意:利用有监督的自然语言推断数据训练句向量,利用句向量的拼接、求差做分类进行训练。求得的句子向量在情感分析等12项任务上进行测试,句向量+dense进行分类。对比了RNN、LSTM、GRU、CNN、self-attention等句向量表征结构,BiLSTM + m...
背景 从公司大佬哪儿得知,CNN在query理解上有难以被超越的效果(当然除了bert类的巨无霸模型),就尝试了下。 做法 仍然使用 上一篇博客 中的query相似度任务和数据,同样用孪生网络来做,不过表征query向量的LSTM替换成了CNN,对比CNN和LSTM在query理解上效果的差异,CNN结构参考14年的一篇 paper 来做。 CNN结构先用多个滤波器做卷积,滤波器的某一维与...
读书 1、《微观经济学》:一直以为读的是宏观经济学,读完了才发现是微观的。经济学从经济体的角度考虑,怎么让生活变得更加美好,以达到全局最优。印象最深的是关于交易的一个例子,两个经济体 A 和 B,都会制造两种物品 x 和 y,即使 A 对 x 和 y 的产能都落后于 B,如果 A 和 B 之间产生交易的话,也能增加整体的产能。比如 A 的产能是 20x/年(代表 A 拿一年时间都去生产 x ...