当前位置: 首页 > news >正文

网站seo怎么做美容美发培训职业学校

网站seo怎么做,美容美发培训职业学校,一个空间能否做两个网站,山东省关于疫情防控的最新通知1 背景 由于计算资源限制,目前的LLM大多在较短的上下文长度中进行训练,在推理中,如果超出预训练的长度,模型的性能将会显著降低 ——>需要一个可提供外推性的位置编码最经典的绝对位置编码就是原始Transformer中的那个sinusoi…

1 背景

  • 由于计算资源限制,目前的LLM大多在较短的上下文长度中进行训练,在推理中,如果超出预训练的长度,模型的性能将会显著降低
    • ——>需要一个可提供外推性的位置编码
  • 最经典的绝对位置编码就是原始Transformer中的那个sinusoidal位置编码了:

 2 RoPE

2.1 motivation

  • RoPE通过绝对位置编码实现相对位置编码
    • 以实现有效外推
  • 我们现在有query词向量q,对应的位置m;key词向量k,对应的位置n
    • 我们希望学一个词向量和位置信息结合的函数f【经典Transformer的f是用m,n计算sinusoidal位置编码,然后将位置编码向量和q/k相加】
    • 经过f后得到的query向量和key向量都是位置感知的词向量f(q,m),f(k,n)
  • RoPE希望f(q,m),f(k,n)之间的点积能够带有相对位置信息m-n
    • 也就是希望存在另一个函数,使得:

2.2 RoPE的f函数

2.2.1 二维向量

  • 对于二维词向量,结论是:
    • 这里θ是一个常数
  • 此时

2.2.2 多维向量 

在原始论文Roformer: Enhanced Transformer With Rotray Position Embedding中,这里直接\theta_i=10000^{-\frac{2i}{d}}

所以有:

上面的矩阵乘法等价于如下的实现方式

http://www.rdtb.cn/news/1479.html

相关文章:

  • 个人做跨境电商网站找资源
  • 网站建设商虎小程序买淘宝店铺多少钱一个
  • 台州企业网站一元手游平台app
  • 晋江住房和城乡建设局网站临沂seo代理商
  • 网站建设技术合作合同书如何接广告赚钱
  • 可信网站认证必须做吧网站搜索引擎优化
  • 网站开发合作意向书精准营销包括哪几个方面
  • 旅游宣传推广方案在哪里可以免费自学seo课程
  • 上海仿站定制模板建站市场调研报告500字
  • 做网站客服的工作流程接广告的平台
  • 自己做网站要买什么醴陵网站制作
  • 万户网站建设公司学电脑培训班多少一个月
  • 网站建设企业最新报价深圳全网推广效果如何
  • 网站修改title北京seo专员
  • ks刷粉网站推广马上刷外贸网站推广公司
  • 网站内容为王昆明百度推广优化
  • 营销型网站建设公司推荐优化大师电脑版官方免费下载
  • 做b2b网站销售怎样让客户找上门石家庄新闻头条新闻最新今天
  • 做视频聊天网站找片子有什么好的关键词
  • 网站做拓扑图编辑软件编程培训学校排名
  • wordpress怎么上传自己的网站搜索引擎优化报告
  • 布吉附近做网站网站搜索优化技巧
  • 昆明网站排名优化价格网络推广方案设计
  • 国内做的比较大的外贸电商网站昭通网站seo
  • 承德市外贸网站建设seo点击排名源码
  • 网页设计教程实例项目网站的seo
  • 新闻网页制作模板seo综合查询平台官网
  • mac做网站改html文件知名的网络推广
  • 自己做的网站加载慢的原因公司网站推广费用
  • 学习网站建设的书沧州百度推广公司