Home / Come un documento diventa una risposta verificata e citabile.
Tecnologia

Come un documento diventa una risposta verificata e citabile.

CVS è un motore RAG ibrido costruito per le aziende che non possono tollerare una risposta sbagliata data con sicurezza. Ogni fase — ingestione, routing, retrieval e astensione — è progettata per produrre evidenze verificabili, non prosa di cui fidarsi.

Ingestione

Una pipeline di ingestione a cinque fasi trasforma un documento in evidenza ricercabile.

CVS si collega direttamente dove la vostra conoscenza già risiede — SharePoint, Google Drive, Confluence, S3 e file server on-premise — e analizza ogni formato attraverso triplo OCR e vision: PDF, scansioni, DOCX, PPTX, XLSX e immagini. Tabelle, figure e ancore di pagina sopravvivono intatte al parsing, così l'evidenza originale può essere restituita in seguito, non parafrasata.

Lo smart chunking produce frammenti semanticamente coerenti anziché suddivisioni cieche a larghezza fissa. Ogni chunk viene arricchito con entità, metadati, diff dei documenti e fatti temporali, quindi scritto simultaneamente in un indice multilivello: uno store pgvector per il recall semantico, un indice full-text BM25F per i termini esatti, un knowledge graph temporale Neo4j per le relazioni, oltre a indici di metadati e temporali. Una sola passata, cinque superfici di retrieval.

  • Connettori per SharePoint, Google Drive, Confluence, S3 e file share locali — nessuna migrazione copia-incolla
  • Triplo OCR più arricchimento vision su PDF, PDF scansionati, DOCX, PPTX, XLSX e immagini
  • Chunking semantico che preserva tabelle, figure e ancore di pagina come evidenza di prima classe
  • Indicizzazione multilivello su pgvector, BM25F, knowledge graph temporale Neo4j, store di metadati e temporali
Una pipeline di ingestione a cinque fasi trasforma un documento in evidenza ricercabile.. CVS si collega direttamente dove la vostra conoscenza già risiede — SharePoint, Google Drive, Confluence, S3 e file server on-premise — e analizza ogni formato attraverso triplo OCR e vision: PDF, scansioni, DOCX, PPTX, XLSX e immagini. Tabelle, figure e ancore di pagina sopravvivono intatte al parsing, così l'evidenza originale può essere restituita in seguito, non parafrasata.
Routing

Un router degli intenti instrada ogni query lungo il percorso più economico in grado di rispondere.

Non ogni domanda merita un'esecuzione completa di ragionamento. Un router degli intenti centrale classifica ogni query e la indirizza in una di quattro corsie: un cache hit istantaneo a zero token; una ricerca ibrida standard e veloce; una sintesi profonda multi-documento; oppure un percorso di ragionamento ultra che scompone la domanda in un grafo aciclico diretto di sotto-query.

Questa cascata di risparmio token significa che le domande semplici non risvegliano mai un LLM costoso, mentre le domande genuinamente difficili e multi-documento ricevono il trattamento completo di scomposizione. Il risultato è una latenza prevedibile, un costo prevedibile e nessuna sorpresa sui token per query — la sola cascata riduce la spesa in LLM dell'85-95 % rispetto al RAG ingenuo.

  • Corsia istantanea: cache a zero token per query ripetute e banalmente risolvibili
  • Corsia standard: ricerca ibrida veloce per la maggior parte delle domande quotidiane
  • Corsia profonda: sintesi multi-documento quando una sola fonte non basta
  • Corsia ultra: DAG di scomposizione che spezza le domande complesse in sotto-passi verificabili
Un router degli intenti instrada ogni query lungo il percorso più economico in grado di rispondere.. Non ogni domanda merita un'esecuzione completa di ragionamento. Un router degli intenti centrale classifica ogni query e la indirizza in una di quattro corsie: un cache hit istantaneo a zero token; una ricerca ibrida standard e veloce; una sintesi profonda multi-documento; oppure un percorso di ragionamento ultra che scompone la domanda in un grafo aciclico diretto di sotto-query.
Retrieval

5 retriever paralleli, fusi tramite RRF, riordinati da un cross-encoder.

CVS esegue cinque retriever contemporaneamente — ricerca vettoriale, traversal del knowledge graph, full text BM25F, retrieval temporale e filtraggio per metadati. Ciascuno vede il corpus in modo diverso, perciò intercettano evidenze diverse: semantica, relazioni, termini esatti, validità temporale e attributi strutturati. Nessun singolo retriever deve essere perfetto.

I loro output ordinati si fondono tramite Reciprocal Rank Fusion (k=60), quindi un cross-encoder riordina i candidati fusi per assemblare un insieme di evidenze ristretto destinato al costruttore della risposta. È per questo che CVS raggiunge il 94,7 % di accuratezza nelle risposte rispetto al 67-73 % tipico dei sistemi a singolo retriever come il RAG di base o Copilot.

  • Vettoriale (pgvector) + knowledge graph Neo4j + BM25F + temporale + metadati, tutti in parallelo
  • Reciprocal Rank Fusion (k=60) fonde cinque ranking indipendenti in un unico consenso
  • Il cross-encoder reranking affina l'insieme finale di evidenze prima della generazione della risposta
  • 94,7 % di accuratezza nelle risposte contro il 67-73 % dei sistemi a singolo retriever
5 retriever paralleli, fusi tramite RRF, riordinati da un cross-encoder.. CVS esegue cinque retriever contemporaneamente — ricerca vettoriale, traversal del knowledge graph, full text BM25F, retrieval temporale e filtraggio per metadati. Ciascuno vede il corpus in modo diverso, perciò intercettano evidenze diverse: semantica, relazioni, termini esatti, validità temporale e attributi strutturati. Nessun singolo retriever deve essere perfetto.
Astensione

Astensione adversarial: il sistema sa quando non sa.

Dopo il retrieval, CVS si pone una domanda prima di rispondere: l'evidenza è sufficiente? In caso affermativo, risponde con citazioni inline e scrive l'interazione in un audit log a prova di manomissione. In caso negativo, si astiene chiaramente invece di fabbricare una risposta dall'aria plausibile — il singolo comportamento che fa fallire la maggior parte dei progetti pilota RAG aziendali.

Un'astensione non è un vicolo cieco. La domanda senza risposta viene instradata all'esperto di materia designato, la sua risposta verificata viene catturata e la knowledge base viene aggiornata con una patch, così la persona successiva ottiene una risposta immediata. In produzione questo porta le allucinazioni sotto il 2 % contro circa il 19 % del RAG ordinario.

  • Un confidence gate valuta la sufficienza dell'evidenza prima che venga generata qualsiasi risposta
  • Evidenza sufficiente → risposta citata più una voce completa nell'audit log
  • Evidenza insufficiente → astensione chiara, poi escalation all'esperto
  • Le risposte degli esperti catturate aggiornano la base — sotto il 2 % di allucinazioni contro circa il 19 % del RAG ordinario
Astensione adversarial: il sistema sa quando non sa.. Dopo il retrieval, CVS si pone una domanda prima di rispondere: l'evidenza è sufficiente? In caso affermativo, risponde con citazioni inline e scrive l'interazione in un audit log a prova di manomissione. In caso negativo, si astiene chiaramente invece di fabbricare una risposta dall'aria plausibile — il singolo comportamento che fa fallire la maggior parte dei progetti pilota RAG aziendali.

Mettete CVS alla prova con la vostra domanda più difficile.

Portate la vostra specifica più oscura o la vostra query soggetta a più frequenti escalation. Vi mostreremo il percorso dell'evidenza dall'inizio alla fine — ed esattamente cosa accade quando la base non sa.