Tecnologia CVS — RAG ibrido, 5 retriever paralleli, RRF Fusion e astensione

Ingestione

Una pipeline di ingestione a cinque fasi trasforma un documento in evidenza ricercabile.

CVS si collega direttamente dove la vostra conoscenza già risiede — SharePoint, Google Drive, Confluence, S3 e file server on-premise — e analizza ogni formato attraverso triplo OCR e vision: PDF, scansioni, DOCX, PPTX, XLSX e immagini. Tabelle, figure e ancore di pagina sopravvivono intatte al parsing, così l'evidenza originale può essere restituita in seguito, non parafrasata.

Lo smart chunking produce frammenti semanticamente coerenti anziché suddivisioni cieche a larghezza fissa. Ogni chunk viene arricchito con entità, metadati, diff dei documenti e fatti temporali, quindi scritto simultaneamente in un indice multilivello: uno store pgvector per il recall semantico, un indice full-text BM25F per i termini esatti, un knowledge graph temporale Neo4j per le relazioni, oltre a indici di metadati e temporali. Una sola passata, cinque superfici di retrieval.

Connettori per SharePoint, Google Drive, Confluence, S3 e file share locali — nessuna migrazione copia-incolla
Triplo OCR più arricchimento vision su PDF, PDF scansionati, DOCX, PPTX, XLSX e immagini
Chunking semantico che preserva tabelle, figure e ancore di pagina come evidenza di prima classe
Indicizzazione multilivello su pgvector, BM25F, knowledge graph temporale Neo4j, store di metadati e temporali

**Una pipeline di ingestione a cinque fasi trasforma un documento in evidenza ricercabile..** CVS si collega direttamente dove la vostra conoscenza già risiede — SharePoint, Google Drive, Confluence, S3 e file server on-premise — e analizza ogni formato attraverso triplo OCR e vision: PDF, scansioni, DOCX, PPTX, XLSX e immagini. Tabelle, figure e ancore di pagina sopravvivono intatte al parsing, così l'evidenza originale può essere restituita in seguito, non parafrasata.

Routing

Un router degli intenti instrada ogni query lungo il percorso più economico in grado di rispondere.

Non ogni domanda merita un'esecuzione completa di ragionamento. Un router degli intenti centrale classifica ogni query e la indirizza in una di quattro corsie: un cache hit istantaneo a zero token; una ricerca ibrida standard e veloce; una sintesi profonda multi-documento; oppure un percorso di ragionamento ultra che scompone la domanda in un grafo aciclico diretto di sotto-query.

Questa cascata di risparmio token significa che le domande semplici non risvegliano mai un LLM costoso, mentre le domande genuinamente difficili e multi-documento ricevono il trattamento completo di scomposizione. Il risultato è una latenza prevedibile, un costo prevedibile e nessuna sorpresa sui token per query — la sola cascata riduce la spesa in LLM dell'85-95 % rispetto al RAG ingenuo.

Corsia istantanea: cache a zero token per query ripetute e banalmente risolvibili
Corsia standard: ricerca ibrida veloce per la maggior parte delle domande quotidiane
Corsia profonda: sintesi multi-documento quando una sola fonte non basta
Corsia ultra: DAG di scomposizione che spezza le domande complesse in sotto-passi verificabili

**Un router degli intenti instrada ogni query lungo il percorso più economico in grado di rispondere..** Non ogni domanda merita un'esecuzione completa di ragionamento. Un router degli intenti centrale classifica ogni query e la indirizza in una di quattro corsie: un cache hit istantaneo a zero token; una ricerca ibrida standard e veloce; una sintesi profonda multi-documento; oppure un percorso di ragionamento ultra che scompone la domanda in un grafo aciclico diretto di sotto-query.

Retrieval

5 retriever paralleli, fusi tramite RRF, riordinati da un cross-encoder.

CVS esegue cinque retriever contemporaneamente — ricerca vettoriale, traversal del knowledge graph, full text BM25F, retrieval temporale e filtraggio per metadati. Ciascuno vede il corpus in modo diverso, perciò intercettano evidenze diverse: semantica, relazioni, termini esatti, validità temporale e attributi strutturati. Nessun singolo retriever deve essere perfetto.

I loro output ordinati si fondono tramite Reciprocal Rank Fusion (k=60), quindi un cross-encoder riordina i candidati fusi per assemblare un insieme di evidenze ristretto destinato al costruttore della risposta. È per questo che CVS raggiunge il 94,7 % di accuratezza nelle risposte rispetto al 67-73 % tipico dei sistemi a singolo retriever come il RAG di base o Copilot.

Vettoriale (pgvector) + knowledge graph Neo4j + BM25F + temporale + metadati, tutti in parallelo
Reciprocal Rank Fusion (k=60) fonde cinque ranking indipendenti in un unico consenso
Il cross-encoder reranking affina l'insieme finale di evidenze prima della generazione della risposta
94,7 % di accuratezza nelle risposte contro il 67-73 % dei sistemi a singolo retriever

**5 retriever paralleli, fusi tramite RRF, riordinati da un cross-encoder..** CVS esegue cinque retriever contemporaneamente — ricerca vettoriale, traversal del knowledge graph, full text BM25F, retrieval temporale e filtraggio per metadati. Ciascuno vede il corpus in modo diverso, perciò intercettano evidenze diverse: semantica, relazioni, termini esatti, validità temporale e attributi strutturati. Nessun singolo retriever deve essere perfetto.

Astensione

Astensione adversarial: il sistema sa quando non sa.

Dopo il retrieval, CVS si pone una domanda prima di rispondere: l'evidenza è sufficiente? In caso affermativo, risponde con citazioni inline e scrive l'interazione in un audit log a prova di manomissione. In caso negativo, si astiene chiaramente invece di fabbricare una risposta dall'aria plausibile — il singolo comportamento che fa fallire la maggior parte dei progetti pilota RAG aziendali.

Un'astensione non è un vicolo cieco. La domanda senza risposta viene instradata all'esperto di materia designato, la sua risposta verificata viene catturata e la knowledge base viene aggiornata con una patch, così la persona successiva ottiene una risposta immediata. In produzione questo porta le allucinazioni sotto il 2 % contro circa il 19 % del RAG ordinario.

Un confidence gate valuta la sufficienza dell'evidenza prima che venga generata qualsiasi risposta
Evidenza sufficiente → risposta citata più una voce completa nell'audit log
Evidenza insufficiente → astensione chiara, poi escalation all'esperto
Le risposte degli esperti catturate aggiornano la base — sotto il 2 % di allucinazioni contro circa il 19 % del RAG ordinario

**Astensione adversarial: il sistema sa quando non sa..** Dopo il retrieval, CVS si pone una domanda prima di rispondere: l'evidenza è sufficiente? In caso affermativo, risponde con citazioni inline e scrive l'interazione in un audit log a prova di manomissione. In caso negativo, si astiene chiaramente invece di fabbricare una risposta dall'aria plausibile — il singolo comportamento che fa fallire la maggior parte dei progetti pilota RAG aziendali.

Come un documento diventa una risposta verificata e citabile.

Una pipeline di ingestione a cinque fasi trasforma un documento in evidenza ricercabile.

Un router degli intenti instrada ogni query lungo il percorso più economico in grado di rispondere.

5 retriever paralleli, fusi tramite RRF, riordinati da un cross-encoder.

Astensione adversarial: il sistema sa quando non sa.

Mettete CVS alla prova con la vostra domanda più difficile.