بهبود عملکرد مدل های زبانی کوچک با انتقال دانش و RAG

امینی, ژیلا; میرحسینی, هلیا

doi:20.1001.1.23223146.1403.11.2.5.3

بهبود عملکرد مدل های زبانی کوچک با انتقال دانش و RAG

نوع مقاله : مقاله پژوهشی

نویسندگان

ژیلا امینی

هلیا میرحسینی

دانشگاه الزهرا

20.1001.1.23223146.1403.11.2.5.3

چکیده

مدل‌های زبانی بزرگ (LLMs) مانند CodeGen توانسته‌ عملکرد چشمگیری در تولید خودکار کدهای برنامه‌نویسی ارائه دهند ولیکن حجم بالا و نیاز به منابع سخت‌افزاری پرهزینه، کاربرد عملی این مدل‌ها را محدود می‌سازد. هدف این پژوهش، کوچک‌سازی مدل در کنار حفظ کیفیت خروجی و کاهش وابستگی به منابع محاسباتی سنگین است. در این راستا، از مدل CodeGen-6B به‌عنوان معلم و مدل CodeGen-350M به‌عنوان دانش‌آموز استفاده شده است.
روش پیشنهادی شامل یک خط لوله سه‌مرحله‌ای است که ابتدا مدل دانش‌آموز با استفاده از داده‌های متنی - کدی تحت آموزش نظارت‌شده قرار می‌گیرد تا توانایی پایه‌ای در تولید کد کسب کند. سپس، با به ‌کارگیری انتقال دانش ، رفتار و توزیع احتمالات خروجی مدل معلم به مدل دانش‌آموز منتقل می‌شود. در نهایت، برای جبران محدودیت ظرفیت پارامتری مدل کوچک، یک سیستم بازیابی همراه با تولید مبتنی بر ایندکس FAISS و امبدینگ‌های کدی، طراحی و به مدل افزوده می‌شود.
نتایج نشان می‌دهد که ترکیب انتقال دانش و بازیابی همراه با تولید منجر به بهبود کیفیت خروجی مدل کوچک شده و امتیاز حل مسائل کدنویسی در نمونه‌های ارزیابی‌شده از 0.5 در حالت مدل پایه به 1.5 در نسخه مجهز به RAG افزایش یافته است. همچنین، تحلیل صحت نحوی کدها با استفاده از ساختار AST و کاهش فاصله توزیعی خروجی‌ها بر اساس معیار KL Divergence نشان می‌دهد که مدل دانش‌آموز توانسته رفتاری نزدیک به مدل معلم ارائه دهد. نتایج بیانگر آن است که مدل 350 میلیون پارامتری پیشنهادی، بدون افزایش اندازه مدل، قادر به دستیابی کیفیتی قابل رقابت با مدل‌های بزرگ‌تر در تولید کد می‌باشد.

کلیدواژه‌ها

انتقال دانش

مدل‌های زبانی کوچک

تولید کد

بازیابی همراه با تولید

مدل CodeGen

20.1001.1.23223146.1403.11.2.5.3

موضوعات

مهندسی کامپیوتر

[1] L. Ouyang et al., “Training language models to follow instructions with human feedback,” Advances in Neural Information Processing Systems (NeurIPS), vol. 35, pp. 27730–27744, 2022.

[2] Y. Wang, Y. Kordi, S. Mishra, P. Liu, N. A. Smith, and A. Ettinger, “Self-Instruct: Aligning language models with instructions without human labels,” arXiv preprint, arXiv:2212.10560, 2022.

[3] R. Taori et al., “Stanford Alpaca: An instruction-following LLaMA model,” Stanford Center for Research on Foundation Models, Tech. Rep., 2023.

[4] T. Wolf et al., “Transformers: State-of-the-art natural language processing,” in Proc. Conf. Empirical Methods in Natural Language Processing (EMNLP): System Demonstrations, 2020, pp. 38–45.

[5] P. Lewis et al., “Retrieval-augmented generation for knowledge-intensive NLP tasks,” Advances in Neural Information Processing Systems (NeurIPS), vol. 33, pp. 9459–9474, 2020.

[6] E. Nijkamp et al., “CodeGen: An open large language model for code with multi-turn program synthesis,” arXiv preprint, arXiv:2203.13474, 2022.

[7] C. Raffel et al., “Exploring the limits of transfer learning with a unified text-to-text transformer,” Journal of Machine Learning Research, vol. 21, no. 140, pp. 1–67, 2020.

[8] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of deep bidirectional transformers for language understanding,” in Proc. North American Chapter of the Association for Computational Linguistics (NAACL), 2019, pp. 4171–4186.

[9] J. Austin et al., “Program synthesis with large language models,” arXiv preprint, arXiv:2108.07732, 2021.

[10] J. Johnson, M. Douze, and H. Jégou, “Billion-scale similarity search with GPUs,” IEEE Transactions on Big Data, vol. 7, no. 3, pp. 535–547, 2019.

[11] M. Chen et al., “Evaluating large language models trained on code,” arXiv preprint, arXiv:2107.03374, 2021.

[12] J. Dodge, S. Gururangan, D. Card, R. Schwartz, and N. A. Smith, “Show your work: Improved reporting of experimental results,” in Proc. Empirical Methods in Natural Language Processing (EMNLP), 2019.

[13] A. Radford et al., “Language models are unsupervised multitask learners,” OpenAI, Tech. Rep., 2019.

[14] I. Loshchilov and F. Hutter, “Decoupled weight decay regularization,” in Proc. Int. Conf. on Learning Representations (ICLR), 2019.

[15] Y. You et al., “Large batch optimization for deep learning: Training BERT in 76 minutes,” in Proc. Int. Conf. on Learning Representations (ICLR), 2020.

دوره 11، شماره 2 - شماره پیاپی 19
اسفند 1403
صفحه 73-91

XML

اصل مقاله 762.94 K

تاریخ دریافت 02 آذر 1404
تاریخ بازنگری 12 بهمن 1404
تاریخ پذیرش 12 بهمن 1404
تاریخ اولین انتشار 12 بهمن 1404
تاریخ انتشار 01 اسفند 1403

تعداد مشاهده مقاله 77
تعداد دریافت فایل اصل مقاله 60

سامانه ‏های غیرخطی در مهندسی برق

بهبود عملکرد مدل های زبانی کوچک با انتقال دانش و RAG

دوره 11، شماره 2 - شماره پیاپی 19اسفند 1403صفحه 73-91

فایل ها

سابقه مقاله

هم رسانی

ارجاع به این مقاله

آمار

دوره 11، شماره 2 - شماره پیاپی 19
اسفند 1403
صفحه 73-91