CVS è un motore RAG ibrido costruito per le aziende che non possono tollerare una risposta sbagliata data con sicurezza. Ogni fase — ingestione, routing, retrieval e astensione — è progettata per produrre evidenze verificabili, non prosa di cui fidarsi.
CVS si collega direttamente dove la vostra conoscenza già risiede — SharePoint, Google Drive, Confluence, S3 e file server on-premise — e analizza ogni formato attraverso triplo OCR e vision: PDF, scansioni, DOCX, PPTX, XLSX e immagini. Tabelle, figure e ancore di pagina sopravvivono intatte al parsing, così l'evidenza originale può essere restituita in seguito, non parafrasata.
Lo smart chunking produce frammenti semanticamente coerenti anziché suddivisioni cieche a larghezza fissa. Ogni chunk viene arricchito con entità, metadati, diff dei documenti e fatti temporali, quindi scritto simultaneamente in un indice multilivello: uno store pgvector per il recall semantico, un indice full-text BM25F per i termini esatti, un knowledge graph temporale Neo4j per le relazioni, oltre a indici di metadati e temporali. Una sola passata, cinque superfici di retrieval.
Non ogni domanda merita un'esecuzione completa di ragionamento. Un router degli intenti centrale classifica ogni query e la indirizza in una di quattro corsie: un cache hit istantaneo a zero token; una ricerca ibrida standard e veloce; una sintesi profonda multi-documento; oppure un percorso di ragionamento ultra che scompone la domanda in un grafo aciclico diretto di sotto-query.
Questa cascata di risparmio token significa che le domande semplici non risvegliano mai un LLM costoso, mentre le domande genuinamente difficili e multi-documento ricevono il trattamento completo di scomposizione. Il risultato è una latenza prevedibile, un costo prevedibile e nessuna sorpresa sui token per query — la sola cascata riduce la spesa in LLM dell'85-95 % rispetto al RAG ingenuo.
CVS esegue cinque retriever contemporaneamente — ricerca vettoriale, traversal del knowledge graph, full text BM25F, retrieval temporale e filtraggio per metadati. Ciascuno vede il corpus in modo diverso, perciò intercettano evidenze diverse: semantica, relazioni, termini esatti, validità temporale e attributi strutturati. Nessun singolo retriever deve essere perfetto.
I loro output ordinati si fondono tramite Reciprocal Rank Fusion (k=60), quindi un cross-encoder riordina i candidati fusi per assemblare un insieme di evidenze ristretto destinato al costruttore della risposta. È per questo che CVS raggiunge il 94,7 % di accuratezza nelle risposte rispetto al 67-73 % tipico dei sistemi a singolo retriever come il RAG di base o Copilot.
Dopo il retrieval, CVS si pone una domanda prima di rispondere: l'evidenza è sufficiente? In caso affermativo, risponde con citazioni inline e scrive l'interazione in un audit log a prova di manomissione. In caso negativo, si astiene chiaramente invece di fabbricare una risposta dall'aria plausibile — il singolo comportamento che fa fallire la maggior parte dei progetti pilota RAG aziendali.
Un'astensione non è un vicolo cieco. La domanda senza risposta viene instradata all'esperto di materia designato, la sua risposta verificata viene catturata e la knowledge base viene aggiornata con una patch, così la persona successiva ottiene una risposta immediata. In produzione questo porta le allucinazioni sotto il 2 % contro circa il 19 % del RAG ordinario.
Portate la vostra specifica più oscura o la vostra query soggetta a più frequenti escalation. Vi mostreremo il percorso dell'evidenza dall'inizio alla fine — ed esattamente cosa accade quando la base non sa.