facebook官网下安卓手游,facebook官网下载知乎

2022-09-26 22:18:27 财富观察

　　来源|深度门户(ID: deep_deliver) 　　

　　脸书团队考虑到嵌入的存储瓶颈，提出了一种新的方法，通过使用类别集的互补划分为每个类别生成唯一的嵌入向量，以端到端的方式减少嵌入的大小，而无需显式定义。通过基于每个互补分区存储多个较小的嵌入表并组合来自每个表的嵌入，以较小的存储成本为每个类别定义唯一的嵌入。这种方法可以解释为使用特定的固定码本来确保每个类别表示的唯一性。　　

　　实验结果表明，该方法比hash技术更有效，并且可以减少参数、模型损失和精度，减小嵌入表的大小。　　

　　问题　　

　　现有的推荐系统一般将类别特征表示为嵌入，对于那些几千万维的特征，映射成100维的嵌入向量。这需要大量的存储空间。　　

　　一个常见的方案是hash，它将类别散列到一个嵌入索引中。这种方法会造成很多类别共用一个嵌入，会失去准确性。因此，提出了一种方法，使得特征值的每一个值都有一个唯一的嵌入与之对应，这样也可以减少整个嵌入的存储大小。　　

　　型号　　

　　2.1 .商余数技巧(商余数技巧) 　　

　　让我们回顾一下嵌入和定义特性的所有值的实践：　　

　　具有如下嵌入矩阵，其中D是嵌入维数：　　

　　一个热编码功能：　　

　　然后映射到对应的低维嵌入：　　

　　这种通用做法所需的空间复杂度为(在一般工业场景中s特别大，导致整体空间复杂度很高): 　　

　　为了解决S过大导致的空间复杂度过高的问题，一般可以使用哈希技巧。首先给出最大嵌入行数m，其中m远小于s，因此嵌入矩阵为：　　

　　那你怎么把某个特征值映射到嵌入向量呢？首先定义一个散列矩阵：　　

　　的值为：　　

　　此映射过程是：　　

　　具体算法如下：　　

　　实际上是取特征的值I来评价预定义的m。　　

取模（整除取余），然后用这个余数作为这个特征值的embedding索引。这样空间复杂度就变为了：

这样很容易导致的不同的特征取值映射到相同的embedding，然后就损失信息了。因此提出了quotient-remainder trick方法，使用两个互补函数（整数商和余数函数），可以生成两个单独的embedding table，并以某种方式为每个类别生成唯一的嵌入的方式来组合embedding。具体见下面算法2，/为整除。

给定两个embedding tables，一个为m*D维，一个是（S/m）*D维。对于特征x的取值i，计算两个索引：一个是 i 对m取模，一个是整除（i/m）。然后emebdding look up出来两个embedding，两个embedding逐个元素相乘，获得最后的embedding。这样做，空间复杂度为：

整体的空间复杂度要比常规的那种hash trick要大一些，但是可以获得独一无二的embedding。

2.2.COMPLEMENTARY PARTITIONS（互补分区）

在商余技巧中，每个操作（商或余数）将类别集合划分为多个“存储桶”，通过将商和余数的embedding组合在一起，可以为每个索引生成一个独一无二的向量，同样，可以划分多个embedding，使用基本集理论集成多个embedding作为一个索引的表示，将此概念形式化为一个概念，称之为互补分区。

定义1：

给定集合S的k个分区 P1,P2….PK，这些分区是互补的。即对于集合S中任意两个元素a和b，总是存在一个分区，在这个分区关系下的a和b的等价类集合不同。关于等价类可以参考知乎：离散数学中的等价类是什么意思？- laogan的回答 - 知乎

举个例子：

（我理解就是对于每两个不同元素比如1和4，总有一种分区关系，让1和4存在两个子集中，像1和4在第二种分区关系下，它们就在两个分区子集里）

给定分区的每个等价类都指定一个映射到embedding向量的“bucket”。因此，每个分区P对应于一个embedding table。在互补分区下，在每个分区产生的每个嵌入通过某种操作组合之后，每个索引被映射到一个不同的embedding向量。（上面那个例子就是三个embedding table，第一个embedding table 有三行，后两个embedding table是两行）

2.3.互补分区的例子

a.朴素互补分区

b.商余互补分区