+98 21 8609-3065 h.veisi@ut.ac.ir
Machine Learning Methods in Natural Language Processing

روش‌های یادگیری ماشین در پردازش زبان طبیعی

نيم‌سال اول 1403-1402

مدرس: دکتر هادی ویسی

دانشکده علوم و فنون نوین، دانشگاه تهران

آدرس ایمیل: h.veisi@ut.ac.ir

3
i

پیش‌ نیاز: پیش نیاز آشنايي با زبان‌شناسي رايانشي

e

تعداد واحد: ۳

}

زمان و محل برگزاری

  • شنبه و دوشنبه، ساعت ۸ تا ۱۰
  • حضوری، در دانشکده علوم و فنون نوین

دستیاران آموزشی

امیرمحمد کویش‌پور : a.m.kouyeshpour@ut.ac.ir

سیاوش حسین‌پور صفاریان : siavash.saffaria@ut.ac.ir

درباره درس

در درس روش‌های یادگیری ماشین در پردازش زبان طبیعی به مرور مبانی و روش‌های مختلف یادگیری ماشین در پردازش زبان طبیعی پرداخته می‌شود. در این درس ابتدا مفاهیم پایه یادگیری ماشین و آمار و احتمال (شامل نظریه اطلاعات و روش‌های تخمین) بررسی شده، سپس روش‌های سنتی یادگیری ماشین شامل بیز ساده، نزدیک‌‌‌‌ترین همسایه و رگرسیون، درخت تصمیم، ماشین بردار پشتیبان مرور می‌شوند. پس از آن، استخراج ویژگی از متن در بستر مروری بر بازیابی اطلاعات و تشابه‌یابی در متن تشریح می‌شود. سپس، مرور انواع شبکه‌های عصبی به ویژه شبکه‌های عمیق رایج در حوزه پردازش زبان مانند شبکه‌های GAN، CNN، LSTM و Transformer ارائه می‌شوند. در ادامه، مدل مخفی مارکوف (HMM) و کاربرد آن در پردازش زبان به همراه روش‌های خوشه‌بندی بیان می‌شود.
در این درس، مطالب پوشش داده شده در قالب تمرین‌های متناسب که عموماً به صورت عملی و پیاده‌سازی است، ارزیابی می‌شوند.

منابع

  1. هادي ويسي، كبري مفاخري، سعيد باقري شورکي، مباني شبكه هاي عصبي: معماري، الگوريتم‌ها و كاربردها، انتشارات نص، پاييز 1388 (ترجمه Laurene Fausette, Fundamentals of neural networks, architecture, algorithms and application, Prentice Hall, 1994)
  2. Ian Goodfellow, Yoshua Bengio, Aaron Courville, Deep Learning, MIT Press, 2016.
  3. محمد صنيعي آباده، زهره جبل‌عامليان، الگوريتم‌هاي تكاملي و محاسبات زيستي، انتشارات نياز دانش، 1402.
  4. David E. Goldberg, Genetic Algorithms in Search, Optimization, and Machine Learning, Addison-Wesley, 1989.
  5. George J. Klir, Bo Yuan, Fuzzy Sets and Fuzzy Logic: Theory and Applications, Prentice Hall, 1995.
  6. Karray, C. De Silva, Soft Computing and Intelligent Systems Design: Theory, Tools, and Applications, Addison-Wesley Publishing, 2004.
  7.  J yh-Shing Roger Jang, Chuen-Tsai Sun, Eiji Mizutani, Neuro-Fuzzy and Soft Computing: A Computational Approach to Learning and Machine Intelligence, Prentice Hall, 1997.

اسلایدها و لینک‌ها

i

معرفی درس

i

مقدمه و معرفی

i

مروری بر آمار و تخمین

i

بیز ساده، نزدیک‌ترین همسایه، رگرسیون، درخت تصمیم، ماشین بردار پشتیبان

i

تشابه‌یابی و بازیابی اطلاعات

i

شبکه عصبی مصنوعی (جلورو)

i

شبکه عصبی مصنوعی (بازگشتی)

نمره‌دهی

توضیح

وزن

عنوان

بعد از هر موضوع (وزن تمرین‌ها برابر نیست) 50% تمرین

ممکن است بدون اعلام قبلی باشد

5%

آزمونک (کویز)

دوشنبه 29/08/1402 ساعت 10:00 (حضوری) 20% آزمون میان‌ترم
از کل مطالب درس، مطابق برنامه دانشگاه 20% آزمون پایان‌ترم

ارائه کلاسی از یک موضوع به‌روز

5%

ارائه

موضوع اختیاری، مرتبط با مطالب درس
(آخرین مهلت انتخاب موضوع: 01/09/1402)
تحویل پروژه: اولین هفته بعد از آخرین امتحان پایان‌ترم
10% (نمره اضافی)پروژه

همان‌طور که مشخص است، بخش عمده نمره به تمرین‌ها و انجام پیاده‌سازی‌ها (کارهای عملی) اختصاص داده شده است، لذا جهت موفقیت، همراهی دانشجو در طول ترم و یادگیری مستمر با انجام به موقع تمرین‌ها، لازم است.

سیاست‌های درس

1. تمرین: برای هر بخش (موضوع)، تعدادی تمرین در نظر گرفته شده است که باید در مهلت‌های مقرر شده تحویل شود. همفکری و همکاری در یافتن پاسخ سوال‌ها نه تنها بلامانع است، بلکه مورد حمایت نیز است، اما پاسخ هر دانشجو باید توسط خودش و به صورت مستقل نوشته شود و در صورتی که کپی بودن یکی یا چند مورد از پاسخ سوال‌های یک تمرین مشخص شود، کل نمره آن تمرین در نظر گرفته نمی‌شود. تمرین‌های دارای پیاده‌سازی، باید هم شامل کدها و هم شامل گزارش مربوطه باشد، ارسال گزارش یا کد به تنهایی، شامل نمره نمی‌شود.

ارسال پاسخ تمرین‌ها: تنها به صورت الکترونیکی و به ایمیل استاد درس است. تحویل کاغذی نیاز نیست و در صورت نوشتن پاسخ تمرین‌های حل شدنی روی کاغذ، تصویر آن را ارسال کنید. همه مطالب و فایل‌های مرتبط با یک تمرین را در یک فایل فشرده شده ارسال کنید. فرمت نام‌گذاری فایل ارسالی به صورت زیر است (لطفا از ارسال فایل با اسم‌هایی مانند New Folder.rar یا HW.rar خودداری کنید):

ML4NLP_Family_StNo_HW#.rar

که در آن Family بیانگر نام‌خانودگی دانشجو (به لاتین)، StNo شماره دانشجویی و # شماره تمرین است. مثلا پاسخ تمرین شماره 1 توسط آقای/خانم احمدی با شماره دانشجویی 830496001 به صورت ML4NLP_Ahmadi_830496001_HW1.rar است.

دیرکرد در تحویل: تحویل به موقع پاسخ تمرین‌ها از موارد ضرروی است و پاسخ‌ها باید حداکثر تا ساعت 23:59 تاریخ تعیین شده ارسال شود. در صورت داشتن تاخیر در ارسال پاسخ‌ها، به ازای هر یک ساعت دیرکرد (از یک ثانیه تا 60 دقیقه!) به میزان 1% از نمره آن کسر می‌شود. هر دانشجو در انتهای نیمسال می‌تواند از امکان بخشودگی یک مورد دیرکرد (برای یک تمرین)، حداکثر به اندازه یک روز (24 ساعت)، به انتخاب خودش برخوردار شود.

2. آزمونک (کویز): از مطالب هر بخش، یکی یا دو سوال به صورت امتحان کوتاه (کویز) برگزار می‌شود که برگزاری آن ممکن است بدون اطلاع قبلی باشد. این آزمون‌ها در کلاس و به صورت حضوری است.

3. امتحان میان‌ترم و پایان‌ترم: امتحان میان‌ترم در تاریخ بیان شده و شامل کلیه مطالب تدریس شده تا آن تاریخ است و به صورت حضوری برگزار می‌شود. امتحان پایان‌ترم شامل کلیه مطالب تدریس شده (از جمله مطالب پوشش داده شده در میان ترم) است.

4. ارائه: هر دانشجو یک موضوع مرتبط با مطالب درس را انتخاب کرده و بعد از مطالعه منابع لازم، یک ارائه کوتاه از آن در کلاس خواهد داشت. هدف این بخش آشنایی با مطالب به‌روز در حوزه درس هست لذا باید منابع اصلی متعلق به سه سال اخیر باشند. زمان هر ارائه 20 تا 25 دقیقه است. موضوع ارائه با هماهنگی استاد درس تعیین شده و می‌تواند (و نه محدود به) شامل موضوعات زیر باشد:

• هوش مصنوعی اعتمادپذیر و لزوم آن در پردازش زبان طبیعی

• مدل‌های زبانی بزرگ (LLM): روش ساخت و کاربردها

• مروری بر Bard و ChatGPT و نحوه ساخت آنها

• مروری بر کتابخانه‌ها و ابزارهای مدرن در پردازش گفتار

5. پروژه: برای درس، هر دانشجو می‌تواند (به صورت اختیاری) یک پروژه کاربردی جهت پیاده‌سازی انتخاب کرده و آن را در MATLAB/Python (یا سایر زبان‌های برنامه‌نویسی) پیاده کند. پروژه حتما باید دارای پیاده‌سازی باشد و کار مطالعاتی به تنهایی پروژه محسوب نمی‌شود. در پروژه نیاز به نوآوری نیست و انجام یک کار مشابه آنچه که قبلا در یک مقاله یا پایان‌نامه انجام شده است، مورد قبول است. دانشجویانی که علاقمند به انجام پروژه هستند باید تا تاریخ اعلام شده موضوع پروژه خود را اعلام کرده باشند؛ اعلام موضوع پس از آن مورد پذیرش نخواهد بود و به معنای عدم انجام پروژه است.
در زمان تحویل پروژه، موارد زیر باید تحویل شود:
1. کلیه کدهای پروژه
2. گزارش مکتوب (به صورت تایپ شده) شامل توضیح روش و جزئیات پیاده‌سازی و نتایج بدست آمده و تحلیل‌های مربوطه
3. داده‌های مورد استفاده در پروژه
4. مقاله‌ها و منابع مورد استفاده
نمره پروژه به صورت نمره مازاد در نظر گرفته می‌شود. بارم بندی نمرات به صورت زیر است:
• انجام درست پیاده‌سازی و مرتب بودن کدها: 50%
• کامل بودن گزارش (شامل نحوه استفاده از کد و مبانی علمی کار) و رعایت اصول نگارشی در آن: 25%
• ارائه نتایج و تحلیل آن (در گزارش): 25%
هر دانشجو می‌تواند با هماهنگی استاد موضوع خود را انتخاب کرده و در طول ترم اعلام نماید. موضوع پروژه الزاما باید مرتبط با مطالب درس باشد. موضوع پروژه الزاما باید در راستای بحث یادگیری ماشین و پردازش زبان باشد. برخی از موضوع‌های پیشنهادی برای پروژه در زیر آورده شده است. الزامی نیست موضوع پروژه حتما از عنوان‌های زیر باشد:
• تشابه‌یابی متن با استفاده از نمایش‌های مبتنی بر یادگیری عمیق (مانند Bert)
• تشخیص احساس در متن با استفاده از یادگیری عمیق
• دسته‌بندی/خوشه‌بندی معنایی کلمات در یادگیری عمیق
• تشخیص گفتار برای تعداد کلمات محدود
• تبدیل متن به گفتار با استفاده از شبکه‌های عمیق مانند مبدل‌ها یا GAN
• تولید خودکار متن (مانند متن یا شعر) با شبکه‌های عصبی عمیق
• درک معنایی با استفاده از مدل‌های زبانی بزرگ (LLM)

6. بازنگری نمره‌ها و برگه‌ها: دانشجویانی که درخواست دارند هر کدام از نمرات آنها بازنگری شود و یا برگه‌های آزمون‌های خود را ببینند، در تاریخی که برای تحویل پروژه درس اعلام می‌شود (هفته بعد از آخرین امتحان پایان‌ترم)، می‌توانند این کار را انجام دهند. رسیدگی به همه موارد فقط در این تاریخ انجام می‌شود.

7. تقلب و کپی‌بردای: هدف درس تمرین و یادگیری مطالب موردنظر توسط دانشجو در طول ترم است و لازم است تمام مطالب مربوط به تمرین‌ها و پاسخ‌دهی به آزمون‌ها توسط خود دانشجو انجام شود. هرچند همکاری و همفکری دانشجویان در حل مسائل درس در مواردی مانند حل تمرین‌ها اکیدا توصیه می‌شود، اما پاسخ نهایی سوال‌ها باید توسط هر دانشجو به صورت مستقل نوشته شود. در صورتی که در هر شرایطی مشخص شود که تمام یا بخشی از مطالب توسط دانشجو آماده نشده و کپی‌برداری مستقیم و بدون مرجع بوده است، تقلب تلقی شده و مطابق قوانین انضباطی دانشگاه با آن رفتار می‌شود.

نمره‌ها

Dear students, by having your student number, you can see the grades related to your homework and midterm exam.
Attempts have been made to calculate the scores with the utmost accuracy and fairness.
To view each section, click on its title, then Download.

All

Download

Final

Download

Project

Download

Midterm

Download

Quiz 1
Homework 4

Download

Homework 3

Download

Homework 2

Download

Homework 1

Download