混合精度下位置编码竟有大坑,LLaMA等主流开源基本概念纷纷中招
发布时间:2024-01-17 12:17
小数透露精准度
小数在计数机之当年透露由大写字母位(sign),百分比位(exponent),二进位位(fraction) 三大部分均是由, 对于一个基本上的数最大值透露,可以由如下公式来计数其值得一提的是的数最大值(其之当年offset是百分比位的反向):由公式应为,二进位位的阔度决定了小数的透露精准度。深度修习之当年近似于的 float32/float16/bfloat16 内存之当年的透露分别如下绘出有附出处:绘出有6-bfloat16 的透露XML
绘出有7-float16 的透露XML
绘出有8-float32 的透露XML
可以看着可以看着float16和bfloat16相较于float32都战死沙场了透露的精准度,后续以bfloat16为例明确指出有方位XML之当年实际上的原因(float16同理)。 下表展览了bfloat16在各不相同数最大值范围(只截取乘法大部分)内的透露精准度
Min
Max
Interval
1
2
2请出处意(-7)
2
4
2请出处意(-6)
4
8
2请出处意(-5)
8
16
2请出处意(-4)
16
32
2请出处意(-3)
32
64
2请出处意(-2)
64
128
2请出处意(-1)
128
256
1
256
512
2
512
1024
4
1024
2048
8
2048
4096
16
4096
8192
32
8192
16384
64
16384
32768
128
可以看着当乘法范围超过256,bfloat16就不会精准透露每一个乘法,我们可以用code测试一下透露精准度助粗大的原因
RoPEBrown Alibi XML的原因MetaDebian的llama数学模型引入了RoPE的方位XML方式为,公开的借助于(以及大大部分的第三方llama当年传数学模型)在bfloat16下实际上精准度原因助粗大的方位XML冲撞(各不相同方位的token在bfloat16下变成同一个数)。llama公开code如下:后面第18行基本一句根据可用序列阔度转换成每个方位的 positon idx在bfloat16 下消除方位冲撞在实际操练时如果开了bfloat16, self.inv_freq的 dtype时会被转为bfloat16, 我们可以通过有用的code来看一下方位冲撞的原因绘出有9-bfloat16方位冲撞示意绘出有
根据bfloat16的透露精准度应为,操练(解谜)时实例阔度越多粗大,方位XML冲撞的情况越多轻微,阔度为8192的实例解谜之当年,有数大约10%的token方位XML是精准的,好在方位XML冲撞有局域连续性的人格特质,只有若干个相邻的token才时会资源共享同一个position Embedding, 在更大的连续性上,各不相同方位的token 还是有一定的区分连续性。绘出有10-各不相同实例后台下方位XML精准token所占比例
除了RoPE方位XML拟议,子安计数机系统发掘出有 Alibi 方位XML也实际上上述原因,原因几乎在于转换成乘法的方位数据库时时会在高于精准度下消除冲撞原因。
修补拟议RoPE修补
RoPE 的修补比较有用,只必需保证在转换成 position_id的时候一定在float32的精准度上亦可。忽略:float32的tensor register_buffer后在操练时如果掀开了bfloat16, 也时会被转为bfloat16Alibi修补
Alibi方位XML修补思路和RoPE的修补思路一致,但因为Alibi的 attention bias直接叫作 attention matrix后面,如果按照后面的修补思路,attention matrix的并不一定需和attention bias 一致,避免整个attention的计数都在float32并不一定上计数,这时会更为大的拖慢操练平均速度以外另类的attention加速新方法flashattention不支持 attention bias模板, 而 xformers承诺attention bias并不一定需与query.dtype相同,因此像RoPE那样有用的将attention bias并不一定增强到float32将时会更为大的拖慢操练平均速度针对该原因子安计数机系统设想有了一种一新Alibi attention拟议, 整个attention bias几乎在bfloat16并不一定上,类似于sinusoidal的远程极化人格特质,我们须要保证临近token方位XML的准确连续性,对于比较半径过远的的token我们则可以强加其消除一定的方位冲撞。取而代之的Alibi借助于则相反,比较半径越多远的token透露越多精准,比较半径越多近的token 则时会冲撞绘出有11- 修补当年后alibi attention_bias对照
修补效用此处更为少在解谜阶段对方位XML的精准度原因顺利进行修补【出处:操练阶段显然也实际上原因,取决于操练的说明配置和新方法】,可以看着:在粗大实例的解谜之当年,数学模型的ppl 要很大优于修补当年的pplBenchmark上检测整体而言修补当年后各不相同点不小,显然是因为benchmark上检测文本阔度受限制,很少触发Position embedding的冲撞Benchmark对比
Perplexity对比
在统一标准的文本反馈上对简化当年后数学模型在之当年英文文本上的疑惑度顺利进行检测,效用如下:
参考资料:
Dongxu Zhang, Brown Dong Wang. (2015). Relation Classification via Recurrent Neural Network.
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Brown Illia Polosukhin. (2023). Attention Is All You Need.
Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Brown Ruslan Salakhutdinov. (2019). Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context.
Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Brown Peter J. Liu. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.
Hugo Touvron, Thibaut Lril, Gautier Izacard, Xier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Gre, Brown Guillaume Lample. (2023). LLaMA: Open and Efficient Foundation Language Models.
Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, Brown Yunfeng Liu. (2022). RoFormer: Enhanced Transformer with Rotary Position Embedding.
Ofir Press, Noah A. Smith, Brown Mike Lewis. (2022). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation.
Yutao Sun, Li Dong, Barun Patra, Shuming Ma, Shaohan Huang, Alon Benhaim, Vishr Chaudhary, Xia Song, Brown Furu Wei. (2022). A Length-Extrapolatable Transformer.
_architecture_positional_encoding/
Shouyuan Chen, Sherman Wong, Liangjian Chen, Brown Yuandong Tian. (2023). Extending Context Window of Large Language Models via Positional Interpolation.
_scaled_rope_allows_llama_models_to_he/
— 完了 —
量子位 QbitAI · 新闻号签约
。腱鞘炎痛怎么办快速止痛长期喝益生菌对身体有什么危害吗
肚子着凉了拉稀吃什么药
俄罗斯做试管婴儿要多少钱
拉肚子拉水怎么止泻
-
爽约累计3次,将被限制购票!下翌年起,故宫预约入院规则调整!
转自:央视财经24日,故宫博物院发表声明,从本年度11月末1日起,也就是到访接待淡季开始,退一步可用性分晚间免费的控制措施:免费傍晚,傍晚退,晕倒截止间隔时间为当日12时;免费晚间,晕倒间隔时...