Ir para o conteúdo

Serviço de Inferência

Foi criado um serviço de inferência a parte da Stack. A Stack apenas repassa para este serviço o pedido de inferência (RaG). Este serviço já possui um gitlab-ci que faz a publicação no ambiente D a cada push na branch Desenvolvimento. A fazer:

  • Incluir no processo de Release no Publicador
  • Fazer o refresh do módulo de inferência no Integrador, pois, depende de uma regra de saída do módulo

Trata-se de um serviço totalmente Stateless. Ele recebe todas as configurações através da requisição e executa cada passo definido lá. Lembrando: ESTE SERVIÇO SERÁ DESATIVADO. O Serprobots utilizará o ConversAI para realizar as inferências, tornando esse serviço obsoleto. Não é necessário ter tanto cuidado com este serviço, já que será descontinuado ainda em 2024.

Importante

Qualquer problema que aconteça nas inferências do componente IA Generativa, deve-se checar esse serviço. Este serviço faz:

  • Conexão ao Serpro LLM Embeddings para geração dos vetores
  • Conexão ao LLM para gerar as transformações na pergunta (correção ortográfica)
  • Conexão ao Elasticsearch para obter os chunks
  • Conexão ao ReRanker para o rerankeamento dos chunks
  • Conexão ao LLM para gerar a resposta

IMPORTANTE

  • É necessário alterar os infra-* para criar as regras de acesso dos módulos da Stack para o Inferencer, além da variável de ambiente INFERENCER_URL
  • É necessário alterar o integrador para fazer o REFRESH no módulo do Inferencer!