Serviço de Inferência

Foi criado um serviço de inferência a parte da Stack. A Stack apenas repassa para este serviço o pedido de inferência (RaG). Este serviço já possui um gitlab-ci que faz a publicação no ambiente D a cada push na branch Desenvolvimento. A fazer:

Incluir no processo de Release no Publicador
Fazer o refresh do módulo de inferência no Integrador, pois, depende de uma regra de saída do módulo

Trata-se de um serviço totalmente Stateless. Ele recebe todas as configurações através da requisição e executa cada passo definido lá. Lembrando: ESTE SERVIÇO SERÁ DESATIVADO. O Serprobots utilizará o ConversAI para realizar as inferências, tornando esse serviço obsoleto. Não é necessário ter tanto cuidado com este serviço, já que será descontinuado ainda em 2024.

Importante

Qualquer problema que aconteça nas inferências do componente IA Generativa, deve-se checar esse serviço. Este serviço faz:

Conexão ao Serpro LLM Embeddings para geração dos vetores
Conexão ao LLM para gerar as transformações na pergunta (correção ortográfica)
Conexão ao Elasticsearch para obter os chunks
Conexão ao ReRanker para o rerankeamento dos chunks
Conexão ao LLM para gerar a resposta

IMPORTANTE

É necessário alterar os infra-* para criar as regras de acesso dos módulos da Stack para o Inferencer, além da variável de ambiente INFERENCER_URL
É necessário alterar o integrador para fazer o REFRESH no módulo do Inferencer!