0% Complete
فارسی
Home
/
دومین کنفرانس ملی عصر انفجار تکنولوژی؛ هوش مصنوعی، تحولی در صنعت، تجارت و زنجیره تامین و دومین کنفرانس ملی علم داده در کاربردهای مهندسی
Document Clustering Using Deep Pre-trained Language Model Embeddings for Information Retrieval
Authors :
Mahdi Mohammadiha
1
Mohammad Hassan Sadreddini
2
Morteza Mohammadi Zanjireh
3
1- International University of Imam Khomeini
2- International University of Imam Khomeini
3- International University of Imam Khomeini
Keywords :
Document Clustering،Information Retrieval،SBERT،UMAP،HDBSCAN
Abstract :
Document clustering is critical to information retrieval (IR) as it enhances user navigation, semantic organization, and exploration of large text collections. Current clustering techniques, though, are marred by poor accuracy and semantic inconsistency, with many misclassifying relevant documents as noise and using superficial textual representations. This study aims to develop a clustering pipeline that produces semantically meaningful and structurally coherent groups of documents to support more effective IR. We propose a method that combines SBERT embeddings for deep semantic representation, UMAP for structure-preserving dimensionality reduction, and HDBSCAN for flexible, density-based clustering without needing to predefine the number of clusters. Experimental evaluations on the 20 Newsgroups dataset reveal that our optimal setting with the paraphrase-mpnet-base-v2 model obtains a Silhouette Score of 0.6853, ARI of 0.7865, and NMI of 0.8186. These results illustrate the promise of embedding-based clustering methods to greatly improve the interpretability and effectiveness of IR systems on real-world text collections.
Papers List
List of archived papers
ایجاد پوشش کامپوزیتی HA-TiO₂ بر روی آلیاژ زیستتخریبپذیر منیزیم به روش رسوبدهی الکتروفورتیک
سید محمد مکی - حسن جعفری - فاطمه سادات پیشبین - سلیمان خوشرو
TransFuse++: A Hybrid CNN-Transformer Architecture with Cross-Attention, Temporal Modeling, and Uncertainty Estimation for Medical Image Segmentation
Masoud Noroozi - Sayna Jamaati - Hamed Aghapanah - Ali Saeeidi Rad - Mahsa Asadi Anar - Ali Darzi - Mahla Shokouhfar - Helia Sadat Kazemi - Mohammadreza Ghahari - Mohammad Saeed Soleimani Meigoli - Jafar Majidpour - Hossein Arabi - Ali Reza Karimian
A Comparative Analysis of CNN Architectures for Histopathology Image Classification: Performance, Efficiency, and Adversarial Robustness
Moein Akbari Shahpar - Mohsen Akbari-Shahpar
مروری بر ترجمه زبان های ناشناخته یا باستانی با استفاده از یادگیری عمیق
علی عبدالعظیمی - سید حسن مرتضوی
تحلیل نقش هوش مصنوعی در تحول بازرگانی و مدیریت زنجیره تأمین: مطالعهی موردی گروه صنعتی مپنا
حسین بوذری
بررسی عوامل موثر و پیامدهای افشاگری تقلب در میان شاغلین حسابداری
زهره عارف منش - زهرا سادات خاشعی
واحد میکروپلاسما قابلحمل برای بازیافت ضایعات نفتی و تولید انرژی
سید جواد روده چی تبریزی - ثمر گلدوز
کاربردهای پیشرفته هوش مصنوعی در تحول تجارت الکترونیک: از شخصیسازی تا تصمیمگیری شناختی
علی غلامنتاج - محمد عرفان رحمانیان کوشککی - امیدرضا حمیدی نیا - عباسعلی میرزایی فرد
Quantum Computing for AI: Current Status and Future Roadmap
Nayereh Majd
مروری بر روشهای پیشبینی رفتار کاربران در فضای مجازی
امیرحسین شعیبی - مجید عبدالرزاق نژاد
more
Samin Hamayesh - Version 42.4.1