+98 21 8609-3065 h.veisi@ut.ac.ir
Introduction to Computational Linguistics

آشنايي با زبان‌شناسی رايانشی

نيم‌سال دوم 1402-1401

معرفی

تعداد واحد: 3                                      پیش‌نیاز: برنامه‌سازي رايانه‌اي، رياضيات عمومي و آمار

نوع : نظری

زمان و محل کلاس: ‌ ‌شنبه و دوشنبه، ساعت 10:00 الی 12:00، دانشکده علوم و فنون نوین

مدرس: دکتر هادی ویسی، دانشکده علوم و فنون نوین، دانشگاه تهران (پست الکترونیکی: h.veisi@ut.ac.ir)

دستیار آموزشی: امیرمحمد کویش‌پور (a.m.kouyeshpour@ut.ac.ir)

شرح درس

درس آشنايي با زبان‌شناسی رايانشی شامل مروری بر مفاهیم پایه زبان‌شناسی رایانشی مانند پردازش و پالایش متن (واحدسازی و نرمال‌سازي)، تحلیل ساخت‌واژی (مورفولوژي)، مدل‌سازي زباني، گرامر و تجزيه نحوي، برچسپ‌زنی اجرای کلام، مبانی پردازش سیگنال، و نمونه کاربردهای این حوزه مانند بازیابی اطلاعات، تشخیص گفتار، سنتز گفتار و ترجمه ماشینی است.
در این درس، اصول و روش‌های زبان‌شناسی رايانشی پوشش داده می‌شوند و به همراه آن، تمرین‌های متناسب که عموماً به صورت عملی و پیاده‌سازی است، صورت می‌گیرد.

منابع

1- هادی ویسی، مصطفی صالحی، وحید رنجبر بافقی، الما جعفری صدر، فرناز صادقی، محمد بحرانی، پردازش زبان و گفتـار: مقدمه‌ای بر پردازش زبان طبیعی، زبان‌شناسی رایانشی و پردازش گفتار، نویسه پارسی، 1400

2- Daniel Jurafsky, James Martin, Speech and Language Processing, 2nd Edition, Prentice Hall, 2009.

3- هادی ویسی، مصطفی صالحی، وحید رنجبر بافقی، الما جعفری صدر، فرناز صادقی، محمد بحرانی، پردازش زبان و گفتـار: مقدمه‌ای بر پردازش زبان طبیعی، زبان‌شناسی رایانشی و پردازش گفتار، نویسه پارسی، 1400

4- Ruslan Mitkov, The Oxford Handbook of Computational Linguistics, 2003.

5- Igor Bolshakov, Alexander Gelbukh, Computational Linguistics, Models, Resources, Applications, 2004.

Slides Download Links

i

معرفی درس

i

مقدمه و معرفی

i

واحدسازی و نرمال‌سازی

i

ساخت‌واژه (مورفولوژی)

i

مدل‌سازی زبانی

i

برچسب‌زنی اجزای کلام

i

تجزیه نحوی

i

آواشناسی و پردازش سیگنال

Scores

Dear students, by having your student number, you can see the grades related to your homework and midterm exam.
Attempts have been made to calculate the scores with the utmost accuracy and fairness.
To view each section, click on its title, then Download.

All Grades
Final
Midterm
Quiz 1
Project
Homework 4
Homework 3
Homework 2
Homework 1

نمره‌دهی

توضیح

وزن

عنوان

بعد از هر موضوع (وزن تمرین‌ها برابر نیست) 50% تمرین

دو تا سه سوال کوتاه

10%

آزمونک (کویز)

دوشنبه 1402/01/28 ساعت 10:00 20% امتحان میان‌ترم
از کل مطالب درس، مطابق برنامه دانشگاه 20% امتحان پایان‌ترم
موضوع اختیاری، تعیین موضوع تا دوشنبه 1402/01/28
تحویل پروژه: اولین دوشنبه بعد از آخرین امتحان پایان‌ترم (1402/04/12)
10% پروژه
(نمره اضافی)

همان‌طور که مشخص است، بخش عمده نمره به تمرین‌ها و پروژه اختصاص داده شده است، لذا جهت موفقیت، همراهی دانشجو در طول ترم و یادگیری مستمر با انجام به موقع تمرین‌ها، لازم است.

سیاست‌های درس

1. تمرین: برای هر بخش (موضوع)، تعدادی تمرین در نظر گرفته شده است که باید در مهلت‌های مقرر شده تحویل شود. همفکری و همکاری در یافتن پاسخ سوال‌ها نه تنها بلامانع است، بلکه مورد حمایت نیز است، اما پاسخ هر دانشجو باید توسط خودش و به صورت مستقل نوشته شود و در صورتی که کپی بودن یکی یا چند مورد از پاسخ سوال‌های یک تمرین مشخص شود، کل نمره آن تمرین در نظر گرفته نمی‌شود. تمرین‌های دارای پیاده‌سازی، باید هم شامل کدها و هم شامل گزارش مربوطه باشد (ارسال گزارش یا کد به تنهایی، شامل نمره نمی‌شود).

ارسال پاسخ تمرین‌ها: تنها به صورت الکترونیکی و به ایمیل استاد درس است. تحویل کاغذی نیاز نیست و در صورت نوشتن پاسخ تمرین‌های حل شدنی روی کاغذ، تصویر آن را ارسال کنید. همه مطالب و فایل‌های مرتبط با یک تمرین را در یک فایل فشرده شده ارسال کنید. فرمت نام‌گذاری فایل ارسالی به صورت زیر است (لطفا از ارسال فایل با اسم‌هایی مانند New Folder.rar یا HW.rar خودداری کنید):

CL_YourFamilyName_YourStNo_HW#

که در آن Family بیانگر نام‌خانودگی دانشجو، StNo شماره دانشجویی و # شماره تمرین است. مثلا پاسخ تمرین شماره 1 توسط آقای/خانم احمدی با شماره دانشجویی 830496001 به صورت CL_Ahmadi_830496001_HW1.rar است.

تاخیر در تحویل: تحویل به موقع پاسخ تمرین‌ها از موارد ضرروی است و پاسخ‌ها باید حداکثر تا ساعت 23:59 تاریخ تعیین شده ارسال شود. در صورت داشتن تاخیر در ارسال پاسخ‌ها، به ازای هر یک ساعت تاخیر (از یک ثانیه تا 60 دقیقه!) به میزان 1% از نمره آن کسر می‌شود.

2. آزمونک (کویز): در شرایط غیرحضوری بودن کلاس‌ها آزمونک نداریم اما برای شرایط حضوری آزمونک در برخی از کلاس‌ها خواهیم داشت که در این صورت از نمره امتحان پایان‌ترم برای نمره این آزمون کم می‌شود.

3. امتحان میان‌ترم: آزمون میان‌ترم شامل مطالب تدریس شده تا زمان آزمون خواهد بود. در صورت غیرحضوری بودن آزمون، سیاست‌ها و روال‌های برگزاری آزمون به اطلاع رسانده می‌شود.

4. امتحان پایان ترم: این آزمون شامل کلیه مطالب تدریس شده (از جمله مطالب پوشش داده شده در آزمون میان‌ترم) است. در صورت غیرحضوری بودن، جزئیات روال برگزاری آزمون پایان‌ترم قبل از این آزمون اعلام می‌شود.

5. پروژه: برای این درس، هر دانشجو می‌تواند یک پروژه کاربردی جهت پیاده‌سازی انتخاب کرده و آن را در Python یا سایر زبان‌های برنامه‌نویسی، پیاده کند. در انجام پروژه نیاز به نوآوری نبوده و کافیست پیاده‌سازی از یک پژوهش (مقاله، پایان‌نامه و …) موجود صورت پذیرد. علاوه‌بر کد برنامه، داده‌ها و یک گزارش مکتوب (به صورت تایپ شده) از دانشجویان تحویل گرفته می‌شود که باید شامل نتایج بدست آمده و تحلیل‌های مربوطه باشد. تحویل پروژه‌ها به صورت حضوری است.

هر دانشجو می‌تواند با هماهنگی استاد موضوع خود را انتخاب کرده و اعلام نماید. آخرین زمان تعیین موضوع پروژه در جدول نمره‌دهی تعیین شده است. برخی موضوعات پیشنهادی عبارتنداز:

  • پیاده‌سازی یک ریشه‌یاب برای فارسی
  • برچسب‌زنی اجزای کلام فارسی با روش‌های یادگیری ماشین
  • تحلیل احساس در متون فارسی

     

6. مقاله: برای آن دسته از دانشجویانی که در موضوع‌های مرتبط با درس، به ویژه در پروژه، کار علمی مناسبی انجام داده و به نتایج قابل انتشاری دست یافته‌اند، می‌توانند آن را در قالب یک مقاله منتشر کنند. این درس، شما را به نوشتن مقاله تشویق نمی‌کند! و نمره آن فقط به منظور ارج نهادن به تلاش افرادی است که بیشتر از بقیه کوشش داشته و دستاورد بهتری داشته‌اند. بنابراین، در این درس نه تنها اجباری در نوشتن مقاله نیست و نمره آن مازاد بر نمره درس است، بلکه در هیچ شرایطی (در طول عمرتان!) نباید مقاله را به عنوان یک هدف در نظر بگیرید. مقاله باید محصول جانبی یک کار پژوهشی خوب باشد. لذا از نظر سیاست‌های این درس، ننوشتن مقاله، بسیار پسندیده‌تر از نوشتن آن به هر قیمتی است! نمره مقاله تنها به دانشجویانی تعلق می‌گیرد که قبل از ارسال نمرات درس به آموزش، مقاله خود را به مجله/کنفرانس ارسال کرده باشند. بدیهی است قبل از ارسال هر مقاله‌ای نیاز به بررسی و تایید استاد درس وجود دارد. یادآوری می‌شود دانشجویانی که استاد راهنمای آنها مشخص شده است، لازم است همکاری با این درس در نوشتن مقاله را به اطلاع استاد خود برسانند.

7. بازنگری نمره‌ها و برگه‌ها: دانشجویانی که درخواست دارند هر کدام از نمرات آنها بازنگری شود و یا برگه‌های خود را ببینند، در زمان تحویل پروژه درس این کار را انجام دهند.

8. تقلب و کپی‌بردای: هدف درس تمرین و یادگیری مطالب موردنظر توسط دانشجو در طول ترم است و لازم است تمام مطالب مربوط به تمرین‌ها توسط خود دانشجو انجام شود. هرچند همکاری دانشجویان در حل مسائل درس توصیه می‌شود اما پاسخ نهایی سوال‌ها باید توسط هر دانشجو به صورت مستقل نوشته شود. در صورتی که در هر شرایطی مشخص شود که تمام یا بخشی از مطالب توسط دانشجو آماده نشده و کپی‌برداری مستقیم و بدون مرجع بوده است، تقلب تلقی شده و مطابق قوانین انضباطی دانشگاه با آن رفتار می‌شود.

سیلابس درس

معرفی زبان‌شناسی رایانشی و نمونه‌هایی از کاربردهای پردازش زبان طبیعی

  • واحدسازی (Tokenization)
  • نرمال‌سازي (Normalization)
    • مشکلات زبان فارسي و راه‌حل‌ها
  • تحلیل ساخت‌واژی (مورفولوژي) (Morphological Analysis)
    • انواع مورفولوژی
    • عبارت باقاعده (Regular Expression)
    • اتوماتای محدود (FSA: Finite State Automata)
    • ریشه‏یابی بدون واژگان (Porter Stemmer)
    • خطا‏یاب املایی و روش Minimum Edit Distance
  • مدل‌سازي زباني (Language Modeling)
    • شمارش كلمات و قانون Zipf
    • مدل n-gram
    • هموارسازي (Smoothing)
    • ارزيابي مدل‌هاي زباني
  • برچسپ‌زنی اجزای کلام (POS: Part-of-Speech tagging)
    • کاربردها
    • روش‌ها
      • مبتنی بر قاعده
      • آماری و مبتنی بر مدل مخفی مارکوف (HMM)
    • گرامر و تجزيه نحوي (Parsing)
      • انواع گرامر
      • الگوریتم‌های تجزیه
        • تجزیه CKY
        • تجزیه Earley
      • آواشناسی و مبانی پردازش سیگنال
      • مروری بر بازشناسی گفتار
        • پيچيدگي‌ها
          • انطباق زماني پويا (DTW)
          • شبکه عصبي مصنوعي (ANN)
          • مدل مخفي مارکوف (HMM)
          • مروری بر تبدیل متن به گفتار (سنتز گفتار)
            • روش‌ها و مسائل پردازش متن
            • روش‌های تولید گفتار
          • مروری بر ترجمه ماشینی