NetCatTest

Anonimato & OPSEC

GAT-LA: pesquisadores propõem modelo com Graph Attention Network para simular topologias dinâmicas do I2P

Um artigo publicado na MDPI apresenta o GAT-LA, uma abordagem baseada em Graph Attention Network para modelar a evolução dinâmica de topologias de roteamento do I2P em cyber ranges.

10/05/2026 15 min leitura

Pesquisadores publicaram na revista Technologies, da MDPI, o artigo “GAT-LA: Graph Attention-Based Locality-Aware Sampling for Modeling the Dynamic Evolution of I2P Routing Topologies”. O trabalho propõe uma metodologia para criar modelos dinâmicos de topologias do Invisible Internet Project, mais conhecido como I2P, usando Graph Attention Network, ou GAT. O artigo é open access sob licença Creative Commons Attribution CC BY, foi recebido em 20 de janeiro de 2026, aceito em 24 de fevereiro de 2026 e publicado em 26 de fevereiro de 2026.

A ideia central é resolver um problema recorrente em pesquisas com redes anônimas: como testar, medir e validar ataques, defesas, protocolos ou otimizações sem usar diretamente a rede real e sem coletar dados de usuários reais?

A resposta proposta pelos autores é criar um cyber range do I2P: um ambiente controlado, reduzido e reproduzível, mas com comportamento próximo da rede real. Para isso, o paper apresenta duas peças principais:

Checklist
  • RCI, ou Region-Centric Initialization, para escolher um ponto inicial representativo da região observada
  • GAT-LA, ou GAT-based Locality-Aware Sampling, para selecionar dinamicamente nós representativos ao longo do tempo

Segundo a página oficial do artigo na MDPI, o método usa uma estratégia de inicialização regional e um mecanismo de amostragem baseado em GAT para tratar a seleção de nós representativos como uma tarefa dinâmica de aprendizado.

Por que modelar o I2P é difícil?

O I2P é uma rede anônima diferente do Tor. Ele usa túneis unidirecionais, uma base distribuída chamada netDb e mecanismos próprios de descoberta de nós. A documentação oficial do I2P explica que a netDb é uma base distribuída especializada que armazena dois tipos principais de dados: RouterInfos, com informações de contato de roteadores, e LeaseSets, com informações de destinos. Esses dados são assinados e verificados por quem os usa ou armazena.

Essa arquitetura dificulta a criação de uma fotografia global da rede. Diferente de redes com diretórios mais centralizados, no I2P cada roteador enxerga apenas parte do ambiente. O próprio artigo reforça que a modelagem global do I2P é tecnicamente complexa, gera alto custo de recursos e pode trazer riscos éticos pela coleta em larga escala de dados sensíveis.

Essa escolha é importante. Em redes anônimas, tentar medir tudo pode ser invasivo, caro e difícil de reproduzir. Já uma modelagem local permite criar um ambiente de teste mais controlado, com menor risco de afetar usuários reais.

Como funciona o roteamento no I2P

O artigo inclui, na página 5, um diagrama explicando o mecanismo de roteamento do I2P. A comunicação é feita por túneis criptografados e unidirecionais. Para uma comunicação bidirecional completa, normalmente são usados túneis separados de entrada e saída para cada lado da comunicação.

De forma simplificada:

Código
Alice → túnel outbound de Alice → túnel inbound de Bob → Bob
Bob → túnel outbound de Bob → túnel inbound de Alice → Alice

Esse modelo separa identidade e roteamento. Alice e Bob não precisam conhecer diretamente os endereços reais um do outro. Eles interagem por gateways, endpoints e participantes intermediários.

O paper destaca que a descoberta e seleção de nós é o que impulsiona a evolução dinâmica do I2P. Novos nós obtêm uma visão inicial da rede por reseed servers e sincronizam informações com nós Floodfill, que mantêm partes importantes da netDb. Quando o roteador precisa de mais informação, ele usa consultas à netDb e também descobre novos vizinhos durante a construção de túneis.

O problema: simulações estáticas não representam bem uma rede dinâmica

Um cyber range precisa simular uma rede de forma realista. Se a simulação não se parece com a rede real, os resultados de testes também perdem valor.

O problema é que o I2P muda o tempo todo:

Checklist
  • Nós entram e saem da rede
  • O desempenho dos roteadores varia
  • A capacidade de túnel muda
  • O throughput oscila
  • A latência muda conforme carga e roteamento
  • A visão local da netDb evolui ao longo do tempo

Métodos simples, como criar uma topologia fixa ou selecionar nós uma única vez, tendem a degradar com o tempo. O artigo critica justamente esse tipo de modelagem estática, porque ela não acompanha churn, variação de performance e mudanças locais da rede.

O que é o GAT-LA?

O GAT-LA é uma estratégia de amostragem que usa Graph Attention Network para escolher quais nós reais observados devem ser representados dentro de uma simulação reduzida.

Em vez de escolher nós de forma aleatória ou apenas por uma pontuação fixa, o GAT-LA aprende a importância dos nós levando em conta:

Checklist
  • métricas individuais do nó
  • posição do nó na vizinhança observada
  • estabilidade temporal
  • papel estrutural dentro da região modelada
  • desempenho recente
  • conexões com outros nós relevantes

A lógica de alto nível é:

Código
rede I2P observada → grafo local → features dos nós → GAT → pontuação de importância → seleção de K nós → cyber range I2P

No artigo, a página 6 traz o diagrama geral do método: primeiro há preparação de dados a partir do I2P real; depois entra o núcleo de modelagem dinâmica GAT-LA; por fim, a topologia modelada é mapeada para o I2P Range.

O que é RCI: Region-Centric Initialization

Antes de usar o GAT-LA, o método precisa definir uma região de observação e um ponto de referência. É aí que entra o RCI, ou Region-Centric Initialization.

O RCI escolhe um nó âncora dentro da região observada. Esse nó funciona como centro de referência para o modelo. A escolha pode ser feita de duas formas:

Checklist
  • modo automático, usando uma pontuação de importância
  • modo manual, quando o pesquisador quer focar em um objetivo específico

No modo automático, o paper calcula uma pontuação levando em conta fatores como:

Checklist
  • tempo de criação de túnel
  • capacidade
  • velocidade
  • integração
  • classe de largura de banda do roteador
  • se o nó é Floodfill
  • frequência de alcance ou estabilidade

A ideia é escolher um nó que seja representativo e útil como âncora para acompanhar a evolução local da rede.

Quais métricas o modelo usa?

O artigo usa métricas extraídas da visão local do I2P e do perfil dos nós. A tabela da página 8 lista cinco métricas críticas para nós I2P: router_bandwidth, tunnel_create_time, capacity, speed e integration.

Essas métricas significam, em termos práticos:

Métrica O que representa
router_bandwidth Capacidade compartilhada de banda do nó
tunnel_create_time Tempo médio de resposta para criação de túnel
capacity Quantos túneis o nó consegue participar em determinado período
speed Pico sustentado de throughput recente
integration Quantidade de peers novos descobertos ou reportados recentemente

O paper também descreve a fórmula de capacidade usada no I2P, ponderando janelas de 10 minutos, 30 minutos, 60 minutos e 24 horas. A ideia é que a seleção de nós no I2P é influenciada por desempenho recente e histórico, o que gera evolução não homogênea da topologia.

Como o GAT entra no processo

Graph Attention Networks são modelos de aprendizado profundo para dados em grafo. A diferença principal é que o mecanismo de atenção permite que o modelo aprenda quais vizinhos são mais importantes para cada nó, em vez de tratar todos os vizinhos da mesma forma.

No GAT-LA, cada nó recebe um vetor de atributos. O modelo passa por camadas de atenção, agrega informações de vizinhança e produz uma pontuação de importância para cada nó.

Fluxo técnico simplificado:

Código
nó + features locais + vizinhos → camada GAT → embedding → MLP → score de eficácia → probabilidade de seleção

O artigo implementa uma rede GAT de duas camadas com dimensão oculta 64 e usa uma MLP leve para transformar o embedding do nó em uma pontuação entre 0 e 1. Essa pontuação representa a eficácia prevista daquele nó dentro da janela de simulação atual.

A documentação do DGL explica que GATs usam atenção para aprender como agregar informações da vizinhança em grafos, o que é exatamente o tipo de problema envolvido quando uma rede muda ao longo do tempo e os nós têm papéis diferentes.

Penalidade de estabilidade: por que ela é importante?

Um ponto interessante do artigo é o uso de uma penalidade de estabilidade. Sem esse mecanismo, o modelo poderia trocar nós demais a cada ciclo, criando uma simulação artificialmente instável.

Em outras palavras:

Código
sem estabilidade → seleciona os melhores nós do momento → topologia muda demais
com estabilidade → preserva continuidade → simulação fica mais realista

O paper usa um coeficiente λ para controlar esse equilíbrio. Nos experimentos, λ = 0.2 apresentou melhor estabilidade que λ = 0. Segundo a tabela da página 16, com λ = 0.2 o GAT-LA obteve Selection Stability Score de 0.78 e PTSR de 65.1% ± 8.2, enquanto λ = 0 teve SS de 0.42 e PTSR de 52.8% ± 11.5.

Experimento: como os autores testaram o GAT-LA

Os autores instanciaram o modelo em um cyber range no ambiente do Pengcheng Laboratory. Para comparar simulação e rede real, eles implantaram três nós controlados na rede I2P real como probes de desempenho. Esses probes faziam downloads contínuos e seriais de um arquivo estático de 5 MB hospedado em um eepsite dedicado.

No ambiente simulado, eles replicaram a estratégia usando:

Checklist
  • containers Docker baseados em Alpine 3.17.1
  • roteadores I2P virtualizados
  • três probes virtuais
  • um eepsite servidor com o mesmo payload de 5 MB
  • janela de modelagem de 24 horas
  • período de aquecimento de 30 minutos
  • observação total de 7 dias

O experimento comparou três abordagens:

Checklist
  • GAT-LA, a proposta dinâmica com Graph Attention Network
  • Static GAT-LA, inicializada no primeiro dia e mantida fixa
  • Heuristic-Dynamic, com reamostragem diária baseada em heurística, sem GAT

Métricas de avaliação

O paper usa métricas de desempenho coletadas pelos probes. A tabela da página 12 define métricas como:

Métrica Significado
PTTFB Tempo até receber o primeiro byte
PTTLB Tempo até concluir o download de 5 MB
PPLT Tempo total de carregamento da página e recursos
PSR Percentual de requisições concluídas com sucesso
PTSR Taxa de criação bem-sucedida de túneis internos
PTH Taxa média de transferência no ciclo

Além disso, os autores avaliam:

Checklist
  • Performance Deviation, para medir distância numérica entre simulação e rede real
  • Trend Consistency, para medir se a simulação acompanha a tendência temporal da rede real
  • Selection Stability Score, para medir continuidade entre ciclos de seleção

Resultados principais

Durante os sete dias de observação, os autores identificaram 13.807 nós observados. Desses, 2.993 foram nós transitórios, com vida de apenas um dia, e 5.937 permaneceram ativos durante todo o período de sete dias.

O resultado principal: o GAT-LA acompanhou melhor a evolução da rede real do que as alternativas.

Segundo o artigo, o GAT-LA alcançou Trend Consistency de 0.81 no acompanhamento da métrica PTTLB, superando os baselines. A página 14 mostra dois gráficos: no primeiro, o GAT-LA acompanha a curva da rede real ao longo de sete dias; no segundo, a curva CDF do GAT-LA fica mais próxima da curva de referência do que as outras abordagens.

A tabela da página 15 mostra desvios menores para o GAT-LA em várias métricas:

Grupo PDTTFB PDTTLB PDSR PDTH
GAT-LA 0.15 s 0.22 s 2.10% 14.2 KB/s
Baseline I 0.65 s 1.24 s 14.20% 88.5 KB/s
Baseline II 0.32 s 0.48 s 5.80% 35.6 KB/s

Esses números indicam que a abordagem com atenção em grafo conseguiu gerar uma simulação mais próxima do comportamento real observado.

Escala ideal do experimento: por que K = 200?

O método precisa escolher quantos nós serão instanciados no cyber range. Esse número é chamado de K.

O artigo testa diferentes valores de K e mostra que, conforme K aumenta, o erro diminui. Porém, depois de certo ponto, os ganhos ficam pequenos. Na tabela da página 15, o desvio PDTTLB cai de 0.85 com K = 50 para 0.24 com K = 200. Depois disso, melhora pouco: 0.22 com K = 250, 0.21 com K = 300 e 0.20 com K = 350.

Isso levou os autores a escolherem K = 200 como equilíbrio entre fidelidade e custo computacional.

O que o estudo entrega na prática

O trabalho não é uma ferramenta ofensiva. Ele é mais útil como metodologia para pesquisa, simulação e avaliação defensiva.

Aplicações práticas:

Checklist
  • Criar ambientes I2P reduzidos, mas realistas
  • Testar protocolos sem afetar usuários reais
  • Avaliar mecanismos de seleção de caminho
  • Estudar churn e instabilidade de nós
  • Simular desempenho de eepsites
  • Comparar estratégias de roteamento
  • Criar baseline para pesquisas de segurança em redes anônimas
  • Executar experimentos reprodutíveis em laboratório

Limitações do paper

O próprio artigo reconhece limitações importantes.

Primeiro, o estudo foca na evolução topológica e ainda não integra modelagem em nível de fluxo de tráfego. Isso significa que ele aproxima estrutura e performance, mas não reproduz todo o comportamento detalhado de tráfego.

Segundo, a precisão depende da qualidade das medições iniciais da netDb. Se a visão local estiver incompleta, enviesada ou ruidosa, o modelo também herda essas limitações.

Terceiro, o modelo usa inicialização com centro único por padrão. Os autores apontam que trabalhos futuros podem explorar inicialização multicentro para representar regiões mais amplas da rede.

Por que isso importa para segurança e privacidade

Pesquisas em redes anônimas enfrentam um dilema: testar diretamente na rede real pode ser antiético, intrusivo e pouco reproduzível; testar em laboratório com topologia artificial demais pode gerar conclusões fracas.

O GAT-LA tenta ocupar o meio-termo:

Código
rede real → medição local passiva → modelo dinâmico → cyber range controlado → experimentos mais seguros

Isso é especialmente importante para temas como:

Checklist
  • avaliação de DoS
  • testes de desempenho
  • experimentos com seleção de túneis
  • simulação de churn
  • avaliação de resiliência
  • validação de novas defesas
  • estudo de comportamento de eepsites

Para pesquisadores de segurança, o estudo oferece um caminho mais ético e controlado para testar hipóteses sem depender de experimentação direta em larga escala contra a rede real.

Conclusão

O artigo GAT-LA apresenta uma abordagem interessante para um problema difícil: criar simulações realistas do I2P sem depender de mapeamento global, coleta invasiva ou topologias artificiais demais. Ao combinar Region-Centric Initialization, Graph Attention Network, métricas de desempenho e penalidade de estabilidade, os autores conseguem selecionar dinamicamente nós representativos e manter uma simulação mais próxima da rede real ao longo do tempo.

Os resultados indicam que o GAT-LA superou abordagens estáticas e heurísticas, especialmente no acompanhamento da métrica PTTLB, com Trend Consistency de 0.81 e menor desvio em múltiplas métricas.

O estudo não resolve todos os desafios de simulação do I2P. Ainda falta integrar tráfego em nível de fluxo, explorar múltiplos centros regionais e validar o modelo em cenários mais diversos. Mesmo assim, ele oferece uma base técnica útil para cyber ranges de redes anônimas e para pesquisas que precisam equilibrar realismo, ética e custo computacional.

Fontes consultadas
Escrito por

Daniel Felipe é criador do NetCatTest e produz conteúdos sobre cibersegurança, privacidade digital, OSINT, laboratórios autorizados e ferramentas para estudo técnico responsável.

Compartilhar

Enviar este artigo