Building commonsense knowledge graphs to aid product recommendation
Dois artigos interessantes sobre senso comum :
https://www.amazon.science/blog/building-commonsense-knowledge-graphs-to-aid-product-recommendation
COSMO: A large-scale e-commerce common sense knowledge generation and serving system at Amazon
https://www.amazon.science/publications/cosmo-a-large-scale-e-commerce-common-sense-knowledge-generation-and-serving-system-at-amazon
Post no linkedin de Dirlei Dionísio: https://www.linkedin.com/posts/dirlei_se-voc%C3%AA-pesquisar-na-amazon-americana-shoes-ugcPost-7457021270195425281-Tocr?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAQooYoBiO6MjINiIumiwZCA_yPABO6gTWE
Se você pesquisar na
Amazon americana "shoes for pregnant women" (calçados pra mulheres
grávidas), os primeiros resultados vão trazer calçados largos,
ajustáveis e antiderrapantes.
O curioso
é que a palavra “pregnant” não aparece nos detalhes desses produtos.
Como a Amazon sabe que grávidas precisam de estabilidade e ajuste fácil
pra pés que incham ao longo do dia?
Isso
acontece graças a um sistema interno chamado COSMO, que usa um
commonsense knowledge graph construído com LLMs pra conectar a intenção
da busca com os produtos certos.
Repare
que eu disse “intenção”, não as palavras usadas pra busca. Isso porque
há um gap entre o que o usuário busca e como produtos são descritos no
catálogo.
O catálogo descreve o objeto: "tênis casual feminino antiderrapante". O usuário descreve a dor: "calçado pra grávida".
São
línguas diferentes. Em e-commerce isso significa mais fricção pro
usuário encontrar o que quer. E mais fricção significa menos vendas.
Alguma camada de inferência precisa conectar os dois mundos.
A
solução da Amazon é sofisticada, mas cara e de reprodução inviável em
99% dos negócios. A pergunta não é como construir um COSMO, é:
“Onde
o gap entre intenção do usuário e linguagem do catálogo está custando
mais e qual a solução mais simples pra reduzir esse gap?”
Existem várias abordagens, da mais barata pra mais cara:
A) Estruturar o catálogo melhor. Taxonomia limpa, descrições enriquecidas, sinônimos. Barato e muito subestimado.
B)
Busca semântica via embeddings. Usar modelos pré-treinados pra entender
que “sapato pra trabalhar em pé o dia todo” e “calçado confortável pra
professora” significam a mesma coisa. Custo médio.
C)
Query expansion e reranking neural. Reescrever a busca antes do índice e
reordenar os resultados depois com modelos mais sofisticados. Custo
médio.
D) COSMO-style. Commonsense knowledge graph gerado por LLM. Caro. Pra quem tem escala de Amazon, Mercado Livre, Shopee etc.
Cabeça de engenheiro faz a gente ir direto pra D, mas as anteriores podem entregar 80% do valor, com 20% do custo.
No
fim, liderar engenharia, produto ou growth é menos sobre implementar o
estado da arte e mais sobre escolher a abordagem que faz sentido pro
tamanho do problema, do time e do orçamento.



Comentários
Postar um comentário