light_ea

`LightEAFrameEncoder`

Bases: RelationFrameEncoder

Use LightEA algorithm to encode frame.

depth: int: Number of hops
mini_dim:int: Mini batching size
rel_dim:int: relation embedding dimensions (same as ent_dim if None)
attribute_encoder: HintOrType[TokenizedFrameEncoder]: Attribute encoder class
attribute_encoder_kwargs: OptionalKwargs: Keyword arguments for initializing attribute encoder class

Reference

Mao et. al.,"LightEA: A Scalable, Robust, and Interpretable Entity Alignment Framework via Three-view Label Propagation", EMNLP 2022 https://aclanthology.org/2022.emnlp-main.52.pdf

Source code in klinker/encoders/light_ea.py

class LightEAFrameEncoder(RelationFrameEncoder):
    """Use LightEA algorithm to encode frame.

    Args:
    ----
        depth: int: Number of hops
        mini_dim:int: Mini batching size
        rel_dim:int: relation embedding dimensions (same as ent_dim if None)
        attribute_encoder: HintOrType[TokenizedFrameEncoder]: Attribute encoder class
        attribute_encoder_kwargs: OptionalKwargs: Keyword arguments for initializing attribute encoder class

    Quote: Reference
        Mao et. al.,"LightEA: A Scalable, Robust, and Interpretable Entity Alignment Framework via Three-view Label Propagation", EMNLP 2022 <https://aclanthology.org/2022.emnlp-main.52.pdf>
    """

    def __init__(
        self,
        depth: int = 2,
        mini_dim: int = 16,
        rel_dim: Optional[int] = None,
        attribute_encoder: HintOrType[TokenizedFrameEncoder] = None,
        attribute_encoder_kwargs: OptionalKwargs = None,
        only_use_neighbor_info: bool = False,
    ):
        self.depth = depth
        self.device = resolve_device()
        self.mini_dim = mini_dim
        self.rel_dim = rel_dim
        self.attribute_encoder = tokenized_frame_encoder_resolver.make(
            attribute_encoder, attribute_encoder_kwargs
        )
        self.only_use_neighbor_info = only_use_neighbor_info

    def _encode_rel(
        self,
        rel_triples_left: np.ndarray,
        rel_triples_right: np.ndarray,
        ent_features: NamedVector,
    ) -> GeneralVector:
        print("Started LightEA")
        (
            node_size,
            rel_size,
            ent_tuple,
            triples_idx,
            ent_ent,
            ent_ent_val,
            rel_ent,
            ent_rel,
        ) = self._transform_graph(rel_triples_left, rel_triples_right)
        return self._get_features(
            node_size,
            rel_size,
            ent_tuple,
            triples_idx,
            ent_ent,
            ent_ent_val,
            rel_ent,
            ent_rel,
            ent_features.vectors,
        )

    def _transform_graph(
        self, rel_triples_left: np.ndarray, rel_triples_right: np.ndarray
    ):
        triples = []
        rel_size = 0
        for line in rel_triples_left:
            h, r, t = line
            triples.append([h, t, 2 * r])
            triples.append([t, h, 2 * r + 1])
            rel_size = max(rel_size, 2 * r + 1)
        for line in rel_triples_right:
            h, r, t = line
            triples.append([h, t, 2 * r])
            triples.append([t, h, 2 * r + 1])
            rel_size = max(rel_size, 2 * r + 1)
        triples = np.unique(triples, axis=0)
        node_size, rel_size = np.max(triples) + 1, np.max(triples[:, 2]) + 1  # type: ignore
        ent_tuple, triples_idx = [], []
        ent_ent_s, rel_ent_s, ent_rel_s = {}, set(), set()
        last, index = (-1, -1), -1

        for i in range(node_size):
            ent_ent_s[(i, i)] = 0

        for h, t, r in triples:
            ent_ent_s[(h, h)] += 1
            ent_ent_s[(t, t)] += 1

            if (h, t) != last:
                last = (h, t)
                index += 1
                ent_tuple.append([h, t])
                ent_ent_s[(h, t)] = 0

            triples_idx.append([index, r])
            ent_ent_s[(h, t)] += 1
            rel_ent_s.add((r, h))
            ent_rel_s.add((t, r))

        ent_tuple = np.array(ent_tuple)  # type: ignore
        triples_idx = np.unique(np.array(triples_idx), axis=0)  # type: ignore

        ent_ent = np.unique(np.array(list(ent_ent_s.keys())), axis=0)
        ent_ent_val = np.array([ent_ent_s[(x, y)] for x, y in ent_ent]).astype(
            "float32"
        )
        rel_ent = np.unique(np.array(list(rel_ent_s)), axis=0)
        ent_rel = np.unique(np.array(list(ent_rel_s)), axis=0)
        return (
            node_size,
            rel_size,
            ent_tuple,
            triples_idx,
            ent_ent,
            ent_ent_val,
            rel_ent,
            ent_rel,
        )

    @torch.no_grad()
    def _get_features(
        self,
        node_size,
        rel_size,
        ent_tuple,
        triples_idx,
        ent_ent,
        ent_ent_val,
        rel_ent,
        ent_rel,
        ent_feature,
    ):
        ent_feature = ent_feature.to(self.device)
        if self.rel_dim is None:
            self.rel_dim = ent_feature.shape[1]
        print(f"ent_feature.shape={ent_feature.shape}")
        rel_feature = torch.zeros((rel_size, ent_feature.shape[-1])).to(self.device)
        print(f"rel_feature.shape={rel_feature.shape}")

        ent_ent, ent_rel, rel_ent, ent_ent_val, triples_idx, ent_tuple = map(
            torch.tensor,
            [ent_ent, ent_rel, rel_ent, ent_ent_val, triples_idx, ent_tuple],
        )

        ent_ent = ent_ent.t()
        ent_rel = ent_rel.t()
        rel_ent = rel_ent.t()
        triples_idx = triples_idx.t()
        ent_tuple = ent_tuple.t()

        ent_ent_graph = torch.sparse_coo_tensor(
            indices=ent_ent, values=ent_ent_val, size=(node_size, node_size)
        ).to(self.device)
        rel_ent_graph = torch.sparse_coo_tensor(
            indices=rel_ent,
            values=torch.ones(rel_ent.shape[1]),
            size=(rel_size, node_size),
        ).to(self.device)
        ent_rel_graph = torch.sparse_coo_tensor(
            indices=ent_rel,
            values=torch.ones(ent_rel.shape[1]),
            size=(node_size, rel_size),
        ).to(self.device)

        # ent_list, rel_list = [ent_feature], [rel_feature]
        ent_list = [ent_feature]
        if self.only_use_neighbor_info:
            ent_list = []
        for dep in trange(self.depth):
            new_rel_feature = torch.from_numpy(
                _batch_sparse_matmul(rel_ent_graph, ent_feature, self.device)
            ).to(self.device)
            new_rel_feature = _my_norm(new_rel_feature)

            new_ent_feature = torch.from_numpy(
                _batch_sparse_matmul(ent_ent_graph, ent_feature, self.device)
            ).to(self.device)
            new_ent_feature += torch.from_numpy(
                _batch_sparse_matmul(ent_rel_graph, rel_feature, self.device)
            ).to(self.device)
            new_ent_feature = _my_norm(new_ent_feature)

            ent_feature = new_ent_feature
            rel_feature = new_rel_feature
            ent_list.append(ent_feature)
            # rel_list.append(rel_feature)
            print(f"dep={dep}, ent_feature.shape={ent_feature.shape}")
            print(f"dep={dep}, rel_feature.shape={rel_feature.shape}")

        ent_feature = torch.cat(ent_list, dim=1)
        print(f"ent_feature.shape={ent_feature.shape}")
        return F.normalize(ent_feature)