Building commonsense knowledge graphs to aid product recommendation

 Dois artigos interessantes sobre senso comum :

https://www.amazon.science/blog/building-commonsense-knowledge-graphs-to-aid-product-recommendation 

 COSMO: A large-scale e-commerce common sense knowledge generation and serving system at Amazon

https://www.amazon.science/publications/cosmo-a-large-scale-e-commerce-common-sense-knowledge-generation-and-serving-system-at-amazon

 

Post no linkedin de Dirlei Dionísio: https://www.linkedin.com/posts/dirlei_se-voc%C3%AA-pesquisar-na-amazon-americana-shoes-ugcPost-7457021270195425281-Tocr?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAQooYoBiO6MjINiIumiwZCA_yPABO6gTWE 

 

Se você pesquisar na Amazon americana "shoes for pregnant women" (calçados pra mulheres grávidas), os primeiros resultados vão trazer calçados largos, ajustáveis e antiderrapantes.

O curioso é que a palavra “pregnant” não aparece nos detalhes desses produtos. Como a Amazon sabe que grávidas precisam de estabilidade e ajuste fácil pra pés que incham ao longo do dia?

Isso acontece graças a um sistema interno chamado COSMO, que usa um commonsense knowledge graph construído com LLMs pra conectar a intenção da busca com os produtos certos.

Repare que eu disse “intenção”, não as palavras usadas pra busca. Isso porque há um gap entre o que o usuário busca e como produtos são descritos no catálogo.

O catálogo descreve o objeto: "tênis casual feminino antiderrapante". O usuário descreve a dor: "calçado pra grávida".

São línguas diferentes. Em e-commerce isso significa mais fricção pro usuário encontrar o que quer. E mais fricção significa menos vendas. Alguma camada de inferência precisa conectar os dois mundos.

A solução da Amazon é sofisticada, mas cara e de reprodução inviável em 99% dos negócios. A pergunta não é como construir um COSMO, é:

“Onde o gap entre intenção do usuário e linguagem do catálogo está custando mais e qual a solução mais simples pra reduzir esse gap?”

Existem várias abordagens, da mais barata pra mais cara:

A) Estruturar o catálogo melhor. Taxonomia limpa, descrições enriquecidas, sinônimos. Barato e muito subestimado.

B) Busca semântica via embeddings. Usar modelos pré-treinados pra entender que “sapato pra trabalhar em pé o dia todo” e “calçado confortável pra professora” significam a mesma coisa. Custo médio.

C) Query expansion e reranking neural. Reescrever a busca antes do índice e reordenar os resultados depois com modelos mais sofisticados. Custo médio.

D) COSMO-style. Commonsense knowledge graph gerado por LLM. Caro. Pra quem tem escala de Amazon, Mercado Livre, Shopee etc.

Cabeça de engenheiro faz a gente ir direto pra D, mas as anteriores podem entregar 80% do valor, com 20% do custo.

No fim, liderar engenharia, produto ou growth é menos sobre implementar o estado da arte e mais sobre escolher a abordagem que faz sentido pro tamanho do problema, do time e do orçamento.




  

 

 

 

Comentários

Postagens mais visitadas deste blog

Dados tabulares vs JSONL

Moltbook: rede social que só inteligências artificiais podem usar já reúne milhões de 'perfis'

Podcast nerdologia: RAG, Yann Lecun, etc