AI-POWERED NLP FOR COMPREHENSIVE IBD PHENOTYPING ENTITY AND RELATIONSHIP EXTRACTION OF CLINICAL FEATURES AND BIOMARKERS FROM EHR

Author(s)

Vikash Kumar Verma, MBA, PharmD¹, Louis Brooks Jr, MS², Marissa Seligman, PharmD³, Abhimanyu Roy, MBA⁴, Abhinav Nayyar, MBA, MBBS⁵, Ankitkumar Arora, MPharm⁶, Anuj Gupta, Msc⁷, Vishan Khatavkar, MBA⁸, Mahainn Somani, BTech⁹, Riddhi Markan, BA, MSc¹⁰, Sudhanshu Chawla, Other⁸, Ram Kumar Mishra, PhD¹¹.
¹Optum Lifesciences, Boston, MA, USA, ²Optum, Bloomsbury, NJ, USA, ³Optum, Winchester, MA, USA, ⁴Optum, Gurgaon, India, ⁵Optum Life Sciences, Gurugram, India, ⁶Optum Global Solutions, Gurgaon, India, ⁷Optum Lifesciences, Noida, India, ⁸Optum Lifesciences, Gurugram, India, ⁹Optum, Gurugram, India, ¹⁰OPTUM Global Solutions, Gurugram, India, ¹¹Optum Global Solution, Gurugram, India.

Presentation Documents

ISPOR26_Roy_MSR51_POSTER.pdf

OBJECTIVES: Real‑world evidence (RWE) studies require granular clinical features and biomarkers embedded in unstructured electronic health records (EHR), limiting scalability and timeliness. We aimed to develop and validate an AI‑powered natural language processing (NLP) pipeline, combining Named Entity Recognition (NER) and relationship extraction to automate phenotyping across Inflammatory Bowel Disease (IBD) and Chronic Kidney Disease (CKD) by capturing clinically relevant entities and contextual relationships.
METHODS: Retrospective analyses used EHR corpora for IBD (2007-2024) and CKD (2014-2025). Character‑level Convolutional-Neural-Networks - Bidirectional Long Short‑Term Memory-networks with a Conditional Random-Field layer (CharCNN-biLSTM-CRF) based NER models extracted diagnosis, disease characteristics/events, severity, procedures, and biomarkers (C‑reactive protein [CRP], fecal calprotectin, albumin, hemoglobin [Hb]). Relationship extraction linked entities (e.g., diagnosis-stage/severity, biomarker-result). Performance was evaluated using precision, recall, and F1‑score; operational impact was assessed via clinical notes manual review effort reduction.
RESULTS: In the IBD cohort, NER model demonstrated F1‑scores of 86% for diagnosis, 78% for clinical features, 78% for disease events/severity, and 82% for biomarkers, while the relationship‑extraction component achieved an accuracy of 85-92% across link types. The pipeline processed approximately 6 million patient notes, enabling automated cohort curation, severity and event mapping, and biomarker trend analysis; the operational assessment indicated a reduction in manual abstraction effort exceeding 85%. In the CKD cohort, NER achieved F1‑scores of 95% for diagnosis, 95% for feature severity, 88% for microscopic features and renal biopsy, 81% for disease severity; relationship extraction accuracy was 90-95%. The CKD pipeline processed ~20 million notes, reducing manual effort by >75%.
CONCLUSIONS: A unified NER-relationship‑extraction pipeline enables scalable, context‑awareness from unstructured EHR across IBD and CKD, accelerating RWE generation and improving inputs for outcomes research and precision medicine.

Conference/Value in Health Info

2026-05, ISPOR 2026, Philadelphia, PA, USA

Value in Health, Volume 29, Issue S6

Code

MSR51

Topic

Methodological & Statistical Research

Topic Subcategory

Artificial Intelligence, Machine Learning, Predictive Analytics

Disease

SDC: Gastrointestinal Disorders

Presentation (CTI)