SGPT论文阅读笔记

在这里插入图片描述

  • 这是篇想要用GPT来提取sentence embedding的工作,提出了两个框架,一个是SGPT-BE,一个是SGPT-CE,分别代表了Bi-Encoder setting和Cross-Encoder setting。
  • CE的意思是在做阅读理解任务时,document和query是一起送进去,中间加个SEP token来做的,典型的是BERT。而GPT一般不是,但作者觉得GPT也可以是。也就是说,如果有k个document和一个新的query,需要把这个query和这k个document分别concate在一起,重新提取信息,走k次。
  • 而BE的意思是,document和query单独提取信息。每段document用pooling来提取一个vector即可,query单独提取一个vector,然后算相似度,就能知道document中是否有query要的信息。
  • BE的模型提出了新的pooling method,用的是position-weighted mean pooling,还有bias-only fine-tuning。
  • position-weighted mean pooling的意思是,前面的token由于mask的存在,注意力的时候看不到后面的token,所以要给低一点的权重,后面的token给高一点的权重,就按1 2 3 4 5这样随位置单调线性递增的权重即可,如下:
    在这里插入图片描述

相关推荐

  1. 论文阅读笔记】清单

    2024-06-19 09:28:01       80 阅读
  2. PointMixer论文阅读笔记

    2024-06-19 09:28:01       62 阅读
  3. BERT 论文阅读笔记

    2024-06-19 09:28:01       66 阅读
  4. Transformer 论文阅读笔记

    2024-06-19 09:28:01       61 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-06-19 09:28:01       110 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-06-19 09:28:01       119 阅读
  3. 在Django里面运行非项目文件

    2024-06-19 09:28:01       98 阅读
  4. Python语言-面向对象

    2024-06-19 09:28:01       106 阅读

热门阅读

  1. Linux 上的 TTY 是什么?

    2024-06-19 09:28:01       30 阅读
  2. USB 端点停止

    2024-06-19 09:28:01       34 阅读
  3. 通信基础知识

    2024-06-19 09:28:01       31 阅读
  4. 如何给vue开发的网站做seo?

    2024-06-19 09:28:01       39 阅读
  5. redis雪崩问题怎么解决

    2024-06-19 09:28:01       38 阅读
  6. Elasticsearch优化

    2024-06-19 09:28:01       33 阅读
  7. HTML5 Web Workers: 异步编程的强大力量

    2024-06-19 09:28:01       40 阅读
  8. Docker:现代软件开发的基石

    2024-06-19 09:28:01       34 阅读
  9. hadoop常见简单基础面试题

    2024-06-19 09:28:01       31 阅读
  10. CSS期末复习速览(一)

    2024-06-19 09:28:01       32 阅读