benty-fields - Search paper

Online video web content is richly multimodal: a single video blends vision, speech, ambient audio, and on-screen text. Retrieval systems typically treat these modalities as independent retrieval sources, which can lead to noisy and subpar retrieval. We explore multimodal video content retrieval, where relevance can be scored from one particular modality or jointly across multiple modalities simultaneously. Consequently, an effective retriever must dynamically choose which modality (or set of modalities) best addresses the query. We introduce CLaMR, a multimodal, late-interaction retriever that jointly indexes 4 modalities: video frames, transcribed speech, on-screen text, and metadata. CLaMR jointly encodes all modalities with a unified multimodal backbone for improved contextualization and is trained to enhance dynamic modality selection via two key innovations. First, given the lack of training data for multimodal retrieval, we introduce MultiVENT 2.0++, a large-scale synthetic training dataset built on MultiVENT 2.0 (event-centric videos in various languages paired with queries) with modality-targeted queries. Next, we propose a modality-aware loss that jointly trains according to a standard contrastive objective alongside an objective for learning correct modality usage. On the test sets of MultiVENT 2.0++ and MSRVTT, conventional aggregation strategies, such as averaging similarities for baseline retrievers, degrade performance by introducing noise from irrelevant modalities. In contrast, CLaMR consistently outperforms existing retrievers: on MultiVENT 2.0++, CLaMR improves nDCG@10 by 25.6 over the best single-modality retriever and by 35.4 over the best multi-modality retriever. We illustrate CLaMR's downstream utility on long-video QA, retrieving relevant frames and obtaining a 3.50% boost over LanguageBind on Video-MME and 1.42% over dense sampling on LongVideoBench.
Authors' comments: 18 pages. Code and data: https://github.com/meetdavidwan/clamr

Vote

Add to Library

Recommend

4969. GenIR: Generative Visual Feedback for Mental Image Retrieval

Diji Yang, Minghao Liu, Chung-Hsiang Lo, Yi Zhang, James Davis

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.06220v1

Vote

Add to Library

Recommend

4970. Uniqueness of phase retrieval from offset linear canonical transform

Jing Liu, Haiye Huo

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.03944v1

Vote

Add to Library

Recommend

4971. A Retrieval-Augmented Multi-Agent Framework for Psychiatry Diagnosis

Mengxi Xiao, Mang Ye, Ben Liu, Xiaofen Zong, He Li, Jimin Huang, Qianqian Xie, Min Peng

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.03750v1

Vote

Add to Library

Recommend

4972. RAGOps: Operating and Managing Retrieval-Augmented Generation Pipelines

Xiwei Xu, Hans Weytjens, Dawen Zhang, Qinghua Lu, Ingo Weber, Liming Zhu

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.03401v1

Vote

Add to Library

Recommend

4973. Literary Evidence Retrieval via Long-Context Language Models

Katherine Thai, Mohit Iyyer

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.03090v1

Vote

Add to Library

Recommend

4974. LayoutRAG: Retrieval-Augmented Model for Content-agnostic Conditional Layout Generation

Yuxuan Wu, Le Wang, Sanping Zhou, Mengnan Liu, Gang Hua, Haoxiang Li

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.02697v1

Vote

Add to Library

Recommend

4975. Multilingual Information Retrieval with a Monolingual Knowledge Base

Yingying Zhuang, Aman Gupta, Anurag Beniwal

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.02527v1

Vote

Add to Library

Recommend

4976. Entity Image and Mixed-Modal Image Retrieval Datasets

Cristian-Ioan Blaga, Paul Suganthan, Sahil Dua, Krishna Srinivasan, Enrique Alfonseca, Peter Dornbach, Tom Duerig, Imed Zitouni et al.

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.02291v1

Vote

Add to Library

Recommend

4977. Engram Memory Encoding and Retrieval: A Neurocomputational Perspective

Daniel Szelogowski

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.01659v1

Vote

Add to Library

Recommend

4978. RATFM: Retrieval-augmented Time Series Foundation Model for Anomaly Detection

Chihiro Maru, Shoetsu Sato

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.02081v1

Vote

Add to Library

Recommend

4979. Retrieval-Augmented Generation of Ontologies from Relational Databases

Mojtaba Nayyeri, Athish A Yogi, Nadeen Fathallah, Ratan Bahadur Thapa, Hans-Michael Tautenhahn, Anton Schnurpel, Steffen Staab

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.01232v1

Vote

Add to Library

Recommend

4980. Latent Structured Hopfield Network for Semantic Association and Retrieval

Chong Li, Xiangyang Xue, Jianfeng Feng, Taiping Zeng

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.01303v1

Vote

Add to Library

Recommend

Benty-search

4961. CAIRe: Cultural Attribution of Images by Retrieval-Augmented Evaluation

Show abstract | Show figures | Show BibTeX | Show discussion 0 | View PDF | 2506.09109v1

4962. Multimodal Representation Alignment for Cross-modal Information Retrieval

Show abstract | Show figures | Show BibTeX | Show discussion 0 | View PDF | 2506.08774v1

4963. XGraphRAG: Interactive Visual Analysis for Graph-based Retrieval-Augmented Generation

Show abstract | Show figures | Show BibTeX | Show discussion 0 | View PDF | 2506.13782v1

4964. Short note on phase retrievable weaving fusion frames

Show abstract | Show figures | Show BibTeX | Show discussion 0 | View PDF | 2506.08478v1

4965. Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval

Show abstract | Show figures | Show BibTeX | Show discussion 0 | View PDF | 2506.08074v1

4966. A General Coding Framework for Adaptive Private Information Retrieval

Show abstract | Show figures | Show BibTeX | Show discussion 0 | View PDF | 2506.07787v1

4967. AR-RAG: Autoregressive Retrieval Augmentation for Image Generation

Show abstract | Show figures | Show BibTeX | Show discussion 0 | View PDF | 2506.06962v2

4968. CLaMR: Contextualized Late-Interaction for Multimodal Content Retrieval

Show abstract | Show figures | Show BibTeX | Show discussion 0 | View PDF | 2506.06144v1

4969. GenIR: Generative Visual Feedback for Mental Image Retrieval

Show abstract | Show figures | Show BibTeX | Show discussion 0 | View PDF | 2506.06220v1

4970. Uniqueness of phase retrieval from offset linear canonical transform

Show abstract | Show figures | Show BibTeX | Show discussion 0 | View PDF | 2506.03944v1

4971. A Retrieval-Augmented Multi-Agent Framework for Psychiatry Diagnosis

Show abstract | Show figures | Show BibTeX | Show discussion 0 | View PDF | 2506.03750v1

4972. RAGOps: Operating and Managing Retrieval-Augmented Generation Pipelines

Show abstract | Show figures | Show BibTeX | Show discussion 0 | View PDF | 2506.03401v1

4973. Literary Evidence Retrieval via Long-Context Language Models

Show abstract | Show figures | Show BibTeX | Show discussion 0 | View PDF | 2506.03090v1

4974. LayoutRAG: Retrieval-Augmented Model for Content-agnostic Conditional Layout Generation

Show abstract | Show figures | Show BibTeX | Show discussion 0 | View PDF | 2506.02697v1

4975. Multilingual Information Retrieval with a Monolingual Knowledge Base

Show abstract | Show figures | Show BibTeX | Show discussion 0 | View PDF | 2506.02527v1

4976. Entity Image and Mixed-Modal Image Retrieval Datasets

Show abstract | Show figures | Show BibTeX | Show discussion 0 | View PDF | 2506.02291v1

4977. Engram Memory Encoding and Retrieval: A Neurocomputational Perspective

Show abstract | Show figures | Show BibTeX | Show discussion 0 | View PDF | 2506.01659v1

4978. RATFM: Retrieval-augmented Time Series Foundation Model for Anomaly Detection

Show abstract | Show figures | Show BibTeX | Show discussion 0 | View PDF | 2506.02081v1

4979. Retrieval-Augmented Generation of Ontologies from Relational Databases

Show abstract | Show figures | Show BibTeX | Show discussion 0 | View PDF | 2506.01232v1

4980. Latent Structured Hopfield Network for Semantic Association and Retrieval

Show abstract | Show figures | Show BibTeX | Show discussion 0 | View PDF | 2506.01303v1

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.09109v1

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.08774v1

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.13782v1

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.08478v1

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.08074v1

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.07787v1

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.06962v2

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.06144v1

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.06220v1

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.03944v1

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.03750v1

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.03401v1

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.03090v1

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.02697v1

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.02527v1

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.02291v1

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.01659v1

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.02081v1

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.01232v1

Show abstract | Show figures | Show BibTeX | Show discussion | View PDF | 2506.01303v1