Dados tabulares vs JSONL
Tabela → agregação → JSONL → embedding → FAISS → retrieval
1. Dados em tabela = estrutura para máquinas tradicionais
Dados tabulares são organizados em linhas e colunas.
Cada linha representa um registro.
Cada coluna representa um atributo.
Exemplo simples:
| municipio | semana | febre | mialgia | casos |
|---|---|---|---|---|
| Campinas | 12 | 51 | 47 | 80 |
Aqui:
- linha = um registro
- coluna = significado fixo
Isso é excelente para:
✅ SQL
✅ filtros
✅ agregações
✅ estatística
✅ joins
✅ processamento analítico
Ou seja:
tabelas são ótimas para cálculo.
2. Problema: LLM não "pensa" naturalmente em colunas
Para um modelo de linguagem, isso:
Campinas | 12 | 51 | 47 | 80
não é naturalmente interpretável.
Porque o embedding funciona melhor quando existe contexto linguístico.
A LLM entende melhor frases como:
"No município de Campinas, na semana epidemiológica 12, foram observados 80 casos, com febre em 51 registros e mialgia em 47."
✅ aqui existe semântica explícita
3. JSONL = cada linha vira um pequeno documento
JSONL significa:
JSON Lines
Cada linha é um JSON independente.
Exemplo:
{"text":"No município de Campinas, na semana epidemiológica 12, foram observados 80 casos, com febre em 51 registros e mialgia em 47.","metadata":{"municipio":"Campinas","semana":12,"tipo_documento":"perfil_clinico"}}
Cada linha = um documento independente.
5. Por que JSONL funciona melhor para embeddings
Embedding transforma texto em vetor.
E embeddings funcionam melhor quando há:
✅ contexto
✅ relação semântica
✅ frases completas
Porque o embedding captura significado.
Exemplo:
A frase:
"febre e mialgia aparecem juntas"
gera vetor semanticamente rico.
Já:
51 | 47
gera pouco significado.
6. Exemplo fácil de comparar
Tabela
| aluno | nota | disciplina |
|---|---|---|
| Ana | 8 | Matemática |
JSONL
{
"text":"A aluna Ana obteve nota 8 em Matemática.",
"metadata":{"aluno":"Ana","disciplina":"Matemática"}
}Embedding entende melhor:
- desempenho escolar
- aluno
- avaliação
porque há linguagem natural.
7. Então tabela é ruim?
Não.
Tabela continua essencial. ✅
Porque primeiro você precisa:
- limpar
- agrupar
- calcular
- agregar
Só depois transformar em documento.
Pipeline ideal:
tabela → agregação → documento JSONL → embedding
Esse é exatamente o caminho mais moderno em RAG científico. 🚀
8. No seu caso do SINAN
Você faz:
tabela original
| municipio | semana | febre | mialgia |
↓
agregação
contagens por município e semana
↓
documento
{
"text":"No município de Campinas...",
"metadata":{...}
}↓
embedding
↓
FAISS
↓
retrieval
↓
LLM responde
9. Por que isso é forte cientificamente
Porque você está criando:
documentos semanticamente interpretáveis
Isso aproxima seu trabalho de:
Knowledge Representation
+
Information Retrieval
+
Natural Language ProcessingOu seja:
você não está apenas indexando dados.
Você está transformando dados em unidades semânticas recuperáveis.
Isso é muito forte para tese. 🎯
10. Regra prática: quando usar tabela e
quando usar JSONL
Use tabela para:
✅ cálculo
✅ estatística
✅ joins
✅ validaçãoUse JSONL para:
✅ embeddings
✅ retrieval
✅ RAG
✅ explicabilidade textual
11. Uma analogia muito simples
tabela = planilha
JSONL = pequenos parágrafos inteligentes
Planilha:
ingredientes separados
Documento:
receita pronta
LLM prefere receita. 🍽️
12. No seu caso existe um detalhe ainda
mais avançado
Seus documentos já estão em nível muito interessante porque incluem:
✅ texto interpretativo
✅ metadata estruturada
✅ explicabilidadeExemplo:
- causal_semantico
- confianca_dado
- coocorrencia_sintomas
- comparativo_espacial
Isso já se aproxima de knowledge-ready documents.
13. Em linguagem de tese, você pode dizer:
"Tabular epidemiological data were transformed into semantically enriched JSONL
documents, preserving structured metadata while introducing linguistic context to
improve embedding quality and retrieval interpretability."
✨ isso é linguagem forte de doutorado.
Comentários
Postar um comentário