【107-2】語料分析工具與數位人文應用

Application: Digital Humanities Techniques for Chinese Studies

曾若涵 (國立中正大學)

 本計畫立基於數位人文的發展趨勢以及開課教師本身的漢語語言學專業,擬於此次課程計畫中,將數位人文結合語言學,提供學生基礎的數位知識,以理解自然語言處理的相關問題,拓展未來職涯發展的可能。

Ch 1. w01_課程導讀與任務說明 /  曾若涵
Ch 3. w03_曾經,語言學家失業的故事/上學期專題論文說明 /  曾若涵
Ch 4. w04_如何讓AI聽懂你點的餐/現代漢語構句與電腦斷詞 /  曾若涵
Ch 5. w05_程式語言基礎及python介紹、python與結巴斷詞系統 /  曾若涵
Ch 6. w06_練習jieba自建詞庫、詞性定義、詞頻統計/python與圖像視覺化-1/期中報告... /  曾若涵
Ch 8. w08_AI發展的可能/python迴圈設計、函式圖繪製 /  曾若涵
Ch 9. w09_從詞組到句子,從題目到蒐集資料/期中考或專題提案報告 /  曾若涵
Ch 10. w10_專題演講,主題「江振國/王羲之跨越時空到現代-AI機器人寫書法」 /  曾若涵、江振國
Ch 11. w11_期末專題論文進度指引/數位工具應用、文本分析及量化研究法 /  曾若涵
Ch 12. w12_語法及語意與自然語言處理的關係/範文介紹/如何撰寫前言 /  曾若涵
Ch 13. w13_自然語言處理-2 主題:自然語言的線性邏輯與n-gram方法應用、如何前人研究的基... /  曾若涵
Ch 14. w14_自然語言處理-3 主題:中文的語意、中研院詞庫小組成果介紹、如何在量化的基礎上分析... /  曾若涵
Ch 15. w15_總整理:自然語言及數位人文語料處理的重要概念:標記、結構樹、統計學 /  曾若涵
Ch 16. w16_期末成果1小組專題論文或大數據計畫:分組報告數位人文應用成果-1 /  曾若涵
Ch 17. w17_期末成果2小組專題論文或大數據計畫:分組報告數位人文應用成果-2 /  曾若涵
Ch 18. w18_課程總結+期末成果3小組專題論文或大數據計畫:分組報告數位人文應用成果-3 /  曾若涵

計畫主持人資訊

姓 名 曾若涵
電子信箱 hannahegg@gmail.com
電 話 (05)2720411轉分機31103
服務學校 國立中正大學
系所單位 中國文學系
職 稱 助理教授

教師簡介 (更多資訊)

姓 名 曾若涵
現 職 助理教授
E-Mail hannahegg@gmail.com
連絡電話 (05)2720411轉分機31103

最高學歷

國立中山大學文學博士

研究專長

聲韻學、語言學概論、華語語音學、日本江戶韻學

近年研究主題

聲韻學、語言學概論、華語語音學、日本江戶韻學

中文課程名稱: 【107-2】語料分析工具與數位人文應用
英文課程名稱: Application: Digital Humanities Techniques for Chinese Studies
教師姓名: 曾若涵
開課學校/系所: 國立中正大學
開課學期: 1072
學分數: 3 學分
課程關鍵字: 數位人文
語料分析工具
漢語語言學
中文文本分析
文本量化分析
課程領域: 人文學
課程階層: 基礎
應用數位技術/工具:

中研院斷詞系統

哈工大斷詞系統

Python

jieba斷詞系統

庫博斷詞系統

 

先備課程: 語言學概論
華語語法學
詞彙學
延伸及相關課程: Python程式語言
參考網站: 語料分析與數位人文概論
Python程式語言
數位工具及漢語語言學研究方法

課程概述

 本計畫立基於數位人文的發展趨勢以及開課教師本身的漢語語言學專業,擬於此次課程計畫中,將數位人文結合語言學,提供學生基礎的數位知識,以理解自然語言處理的相關問題,拓展未來職涯發展的可能。
進行各領域文本研究時,文本分析或語料處理乃是必備能力,然而整理文本往往成為最耗費心力的過程。引導學生具備數位人文的知識與技能,善用數位工具,能增進對既有知識之理解,且能爭取更多深入思考的時間。據此理念,本課程分三個部分執行:第一部分為中文斷詞系統與中文語料分析工具選介及探索(將複習上學期「概論」課程之部分內容並依實際狀況深化)。第二部分,手把手學習python程式語言基礎並接觸自然語言處理的基礎演算法(安排18-20小時),演練機器學習最基本的程式語言句式,並探討如何應用於文本解析。第三部分著重於前述數位工具的綜合應用,如何適應不同類型的文本進行資料收集、語境分析、視覺應用等等面向。以上各部分之比例與難度將依實際情形進行調整,以提供適切的條件供學生實際應用。課程最後將綜合上述三部分,讓學生進行分組專題實作,並於期末發表成果。
107學年度第1學期曾開設過「語料分析工具與數位人文概論」,並於該課程中嘗試安排4週(共4*3=12小時),學生反應良好,故於107-2「語料分析工具與數位人文應用」中進一步增加「程式設計及邏輯運算」專業授課之時數,師生將一同於課程中挑戰人文與科技的跨領域專題。

教學目標

1. 接觸數位語料分析工具,認識數位人文的發展及未來可能趨勢。
2. 能夠利用語料分析工具來處理各種類型的中文文本材料。
3. 對Python語言程式或者數位人文相關議題有基礎認識。

修課條件

 以下四者具備任一項即可,不以修過「語料分析工具與數位人文概論」者為限:
1.有語言學概論之基礎為宜,或者修習過任何一門語言學相關課程。
2.願意挑戰語料庫、語料處理系統、程式語言,有解決跨語言問題的信心與勇氣。
3.中文系主修、雙主修、輔系生。
4.願意小組合作,參與專題式課程;本課程非單純講授式課程,須小組完成任務。

授課方式

課堂教學

成績評量方式

■上課態度及互動20%:包含出席、課堂提問、小組討論、團體活動成績
■小考及實作練習30%
■期中考或專題提案報告20%
■期末小組專題報告30%
■加分機制(研擬中)

教學進度

-第1週-
02/21 課程導讀及任務說明
-第2週-
02/28 228停課
-第3週-
03/07 曾經,語言學家失業的故事/上學期專題論文說明
python的概論性介紹、包括功能及應用;基礎演算法
-第4週-
03/14 如何讓AI聽懂你點的餐/現代漢語構句與電腦斷詞
-第5週-
03/21 程式語言基礎及python介紹、python與結巴斷詞系統
-第6週-
03/28 練習jieba自建詞庫、詞性定義、詞頻統計/python與圖像視覺化-1/期中報告說明及準備
-第7週-
04/04 兒童節停課 -
-第8週 -
04/11 AI發展的可能/python迴圈設計、函式圖繪製
-第9週-
04/18 期中報告 期中考或專題提案報告、篇章介紹
-第10週-
04/25 專題演講 主題:江振國:王羲之跨越時空到現代-AI機器人寫書法
-第11週-
05/02 數位工具應用、文本分析及量化研究法/各組研究文本確認/如何撰寫大綱、關鍵詞、引用資料
-第12週-
05/09 語法及語意與自然語言處理的關係/範文介紹/如何撰寫前言
-第13週-
05/16 自然語言處理-2 主題:自然語言的線性邏輯與n-gram方法應用、如何前人研究的基礎上撰寫論文正文
-第14週-
05/23 自然語言處理-3 主題:中文的語意、中研院詞庫小組成果介紹、如何在量化的基礎上分析語料
-第15週-
05/30 總整理:自然語言及數位人文語料處理的重要概念:標記、結構樹、統計學
-第16週-
06/06 期末成果1小組專題論文或大數據計畫:分組報告數位人文應用成果-1
-第17週-
06/13 期末成果2小組專題論文或大數據計畫:分組報告數位人文應用成果-2
-第18週-
06/20 期末總結+期末成果3小組專題論文或大數據計畫:分組報告數位人文應用成果-3

 

授課對象

 24

無資料