0% Complete
فارسی
Home
/
دومین کنفرانس ملی عصر انفجار تکنولوژی؛ هوش مصنوعی، تحولی در صنعت، تجارت و زنجیره تامین و دومین کنفرانس ملی علم داده در کاربردهای مهندسی
Document Clustering Using Deep Pre-trained Language Model Embeddings for Information Retrieval
Authors :
Mahdi Mohammadiha
1
Mohammad Hassan Sadreddini
2
Morteza Mohammadi Zanjireh
3
1- International University of Imam Khomeini
2- International University of Imam Khomeini
3- International University of Imam Khomeini
Keywords :
Document Clustering،Information Retrieval،SBERT،UMAP،HDBSCAN
Abstract :
Document clustering is critical to information retrieval (IR) as it enhances user navigation, semantic organization, and exploration of large text collections. Current clustering techniques, though, are marred by poor accuracy and semantic inconsistency, with many misclassifying relevant documents as noise and using superficial textual representations. This study aims to develop a clustering pipeline that produces semantically meaningful and structurally coherent groups of documents to support more effective IR. We propose a method that combines SBERT embeddings for deep semantic representation, UMAP for structure-preserving dimensionality reduction, and HDBSCAN for flexible, density-based clustering without needing to predefine the number of clusters. Experimental evaluations on the 20 Newsgroups dataset reveal that our optimal setting with the paraphrase-mpnet-base-v2 model obtains a Silhouette Score of 0.6853, ARI of 0.7865, and NMI of 0.8186. These results illustrate the promise of embedding-based clustering methods to greatly improve the interpretability and effectiveness of IR systems on real-world text collections.
Papers List
List of archived papers
تاثیر هوش مصنوعی بر عملکرد سازمانی: نقش واسطه ای بهره وری کارکنان(مطالعه موردی: اداره مالیاتی شهر تبریز)
نیما صدری نوبرزاده - پریسا صدری نوبرزاده
تاثیر کیفیت گزارشگری مالی بر مالی سازی شرکت با تاکید بر هزینه های نمایندگی
حیدر محمدزاده سالطه - محمد احسانی - سید علی موسوی
مروری جامع بر اجتماعی شدن مالی
علیرضا هوشمندی - امید پورحیدری - امیرحسین تائبی نقندری
بررسی ارتباط بین ریسک پذیری شرکت و ضریب واکنش سود در شرکت های پذیرفته شده در بورس اوراق بهادار تهران
حسین بوداقی خواجهءنوبر - مینا محمدی
ساخت ومشخصه یابی هیدروژل بر پایه ژلاتین/صمغ عربی حاوی مقادیر مختلف آگارز به منظور کاربرد در ترمیم زخم
زهرا قاسمی - مهشید خرازیها
نظریه بازی در کارآفرینی: مروری بر ادبیات
رعنا شهدآور - فاطمه اصدقی - فائزه فتحی
قوانین و مقررات مربوط به هوش مصنوعی: چالشها و فرصتها
محمد جعفری
طراحی بهینهی پلاکهای ارتوپدی برای ترمیم شکستگی ساب تروکانتریک استخوان ران بر پایهی مدلسازی آماری و روشهای یادگیری ماشین
ماجده رضائی - مسعود شریعت پناهی - مراد کریم پور - هادی قطان کاشانی
کاربرد هوش مصنوعی در حسابداری
پریسا عابدی - حسین بوداقی خواجه نوبر
Non-Invasive Detection of Atherosclerosis and Aneurysm via Electrical Impedance Spectroscopy: A Finite Element Simulation Study
Shaghayegh Shokri - Rasool Baghbani - Masoomeh Ashoorirad
more
Samin Hamayesh - Version 42.5.2