0% Complete
English
صفحه اصلی
/
دومین کنفرانس ملی عصر انفجار تکنولوژی؛ هوش مصنوعی، تحولی در صنعت، تجارت و زنجیره تامین و دومین کنفرانس ملی علم داده در کاربردهای مهندسی
Document Clustering Using Deep Pre-trained Language Model Embeddings for Information Retrieval
نویسندگان :
Mahdi Mohammadiha
1
Mohammad Hassan Sadreddini
2
Morteza Mohammadi Zanjireh
3
1- International University of Imam Khomeini
2- International University of Imam Khomeini
3- International University of Imam Khomeini
کلمات کلیدی :
Document Clustering،Information Retrieval،SBERT،UMAP،HDBSCAN
چکیده :
Document clustering is critical to information retrieval (IR) as it enhances user navigation, semantic organization, and exploration of large text collections. Current clustering techniques, though, are marred by poor accuracy and semantic inconsistency, with many misclassifying relevant documents as noise and using superficial textual representations. This study aims to develop a clustering pipeline that produces semantically meaningful and structurally coherent groups of documents to support more effective IR. We propose a method that combines SBERT embeddings for deep semantic representation, UMAP for structure-preserving dimensionality reduction, and HDBSCAN for flexible, density-based clustering without needing to predefine the number of clusters. Experimental evaluations on the 20 Newsgroups dataset reveal that our optimal setting with the paraphrase-mpnet-base-v2 model obtains a Silhouette Score of 0.6853, ARI of 0.7865, and NMI of 0.8186. These results illustrate the promise of embedding-based clustering methods to greatly improve the interpretability and effectiveness of IR systems on real-world text collections.
لیست مقالات
لیست مقالات بایگانی شده
بررسی عددی اثر همزمانی آریتمی قلبی و کلسترول بالا بر تشکیل و رشد پلاگ چربی در آئورت انسان
پیمان دوکوهکی - بهار فیروزآبادی
The Adaptive Approach of Ensemble Deep Learning Model in OCT Image Classification
Hamed Aghapanah Roudsari - Ali Ghaderian - Mrteza Choubin
Freeze-Dried Oxidized Alginate–Gelatin Scaffold Coated with Reduced Graphene Oxide for Bone Tissue Engineering
Mohsen Aghababaei Tafreshi - Sameereh Hashemi-Najafabadi - Nafiseh Baheiraei
تاثیر تمرین با تردمیل آبی بر کینماتیک پرش- فرود فوتسالیست های حرفه ای
صفورا قاسمی - مسعود گلپایگانی - امیرحسین نجیمی
بررسی نقش میانجی هوش مصنوعی در تاثیر استراتژی های شرکت و استراتژی های رقابتی بر عملکرد شرکت (مطالعه موردی: شرکتهای دانش بنیان فناوری مالی در پارک فناوری پردیس تهران)
نادیاالسادات حسینی
بررسی تأثیر ابعاد سه گانه سرمایه فکری بر عملکرد مالی سازمان منطقه آزاد تجاری و صنعتی ماکو
فرشید میابی - المیرا گوهری بوکت
بهینهسازی تنظیمات کاساندرا برای بهرهوری بیشتر در یادگیری ماشین
فاطمه قرشی پور - عباس میرزائی ثمرین - بابک نوری مقدم
ارائه مدل ترکیبی کشف نفوذ مبتنی بر تحلیل دادههای بزرگ و یادگیری عمیق در محیطهای توزیعشده
شاهین سمیع عادل
مروری بر ترجمه زبان های ناشناخته یا باستانی با استفاده از یادگیری عمیق
علی عبدالعظیمی - سید حسن مرتضوی
نظریه پایداری و ذینفعان: دیدگاه فرآیندی
رعنا شهداور - لیلا مهدیوند - مریم حسن پور
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 42.5.2