請問你哪來的古代的大資料。
很有趣的題目。
首先需要採集確認為羅貫中作品的資料,然後再採集水滸相關的資料,做一下各維度擬合程度的對比
大資料的結論並不接近真相,接近於期望
我好像在哪兒看過一篇文章,說復旦大學李賢平老師曾經做過一項科研。他們確定了文言文裡18個虛詞,把紅樓夢前80回和後40回的虛詞詞頻進行對比,發現差異很大,從而證明前後兩部分應該不是出自一個人之手。他們的假定是同一個人在寫作過程中使用虛詞(諸如“之”“也”等等)的頻率是固定的。我想這個方法如果可行的話應該也能用來判斷題主的疑問吧……
你說的“大資料分析的方法”應該是指基於語料庫的分析方法。
語料庫中存放的是在語言的實際使用中真實出現過的語言材料;
語料庫以電子計算機為載體進行;
語料庫中的真實語料需要經過分析和處理,才能成為有用的資源。(即熟語料)
語料庫語言學:以大量精心處理的語言事實為研究素材,主要透過機率統計的方法,對已經出現的語言事實進行分析,進而得出結論。
語料庫語言學從本質上是實證性的。
語料庫語言學立足於大量真實的語言資料,對語料庫所做的系統而窮盡的觀察和概括所得到的結論。這對於語言理論建設具有無可比擬的創新意義。
可以建立已確定的羅貫中的作品的語料庫,再建立關於《水滸傳》的語料庫,然後對兩個語料庫中的虛詞等進行對比分析。由相似度得出結論。
但是自己建語料庫是一項非常龐大的工程。首先是語料的錄入,處理,其次就是分析項。可能會用到些基礎的程式設計知識。
語料庫語言學是最近語言學研究的新方法,新動向。我也是剛入門階段,一知半解的。
具體的有論壇:語料庫線上 可以進去逛逛
入門書:《語料庫應用教程》外語教學與研 究出版社
《語料庫語言學》清華大學出版社