0% Complete
English
صفحه اصلی
/
دومین کنفرانس ملی عصر انفجار تکنولوژی؛ هوش مصنوعی، تحولی در صنعت، تجارت و زنجیره تامین و دومین کنفرانس ملی علم داده در کاربردهای مهندسی
Document Clustering Using Deep Pre-trained Language Model Embeddings for Information Retrieval
نویسندگان :
Mahdi Mohammadiha
1
Mohammad Hassan Sadreddini
2
Morteza Mohammadi Zanjireh
3
1- International University of Imam Khomeini
2- International University of Imam Khomeini
3- International University of Imam Khomeini
کلمات کلیدی :
Document Clustering،Information Retrieval،SBERT،UMAP،HDBSCAN
چکیده :
Document clustering is critical to information retrieval (IR) as it enhances user navigation, semantic organization, and exploration of large text collections. Current clustering techniques, though, are marred by poor accuracy and semantic inconsistency, with many misclassifying relevant documents as noise and using superficial textual representations. This study aims to develop a clustering pipeline that produces semantically meaningful and structurally coherent groups of documents to support more effective IR. We propose a method that combines SBERT embeddings for deep semantic representation, UMAP for structure-preserving dimensionality reduction, and HDBSCAN for flexible, density-based clustering without needing to predefine the number of clusters. Experimental evaluations on the 20 Newsgroups dataset reveal that our optimal setting with the paraphrase-mpnet-base-v2 model obtains a Silhouette Score of 0.6853, ARI of 0.7865, and NMI of 0.8186. These results illustrate the promise of embedding-based clustering methods to greatly improve the interpretability and effectiveness of IR systems on real-world text collections.
لیست مقالات
لیست مقالات بایگانی شده
شیوه های حسابداری مدیریت استراتژیک: بررسی ادبیات و فرصتی برای تحقیقات آینده
رعنا شهداور - موسی ابراهیم زاده - فاطمه خانی پور
BiLSTM-Transformer: A Novel Hybrid Model for Accurate Prediction of Hand Joint Angles from sEMG Signals
Anita Sadat Sadati Rostami - Alireza Nazari - Mohammadreza Nayeri
Investigation of the presence of movement intention during sequential hand movements using neurophysiological analyses of EEG signals
Elnaz Eilbeigi
علیت بین توسعه مالی و نوع ابزارهای مالی از نظر مدیریت پرتفولیو
فاطمه خسروی
تاثیر هوش مصنوعی در کیفیت خدمات آنلاین بانکی
بهارک یادگار جمشیدی - زهرا شرقی
مدل یادگیری ماشین برای امنیت سایبری شهر هوشمند
علیرضا فولاد - محمد امین مقدادی - علی عبدلی - شایان مسگر
Transforming Sentiment Analysis with a New LLM Architecture
Hossein Gholamalinejad - Tahoora Ramezanimoghaddam
منطق و هوش مصنوعی
سید محمد امین خاتمی
Design and Biomechanical Comparison of a Patient-Specific Anatomical Plate Versus Conventional Plate for Distal Humerus Fractures: A Finite Element Analysis
Fahime Rezazade - Azadeh Ghouchani - Maryam Amoochi
Modeling Customer Behavior in Online Stores Based on the RFM Model and Random Forest and SVM Algorithms
Somayeh Ebrahimi Emamchai - Nayere Zaghari
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 42.4.1