2018年3月10日 星期六

資料科學的局限或是不同可能性?(來檢驗王定宇與黃偉哲民調的真實面)

民進黨為了要決定提名,因此辦了民意調查,來決定候選人,而公布高雄市的民調時,嘗試跟 "專頁儀表板" 做了個比較,發現相關性達到 0.99 以上這個令人吃驚的事,但第二天台南的民調跟專頁儀表板的相關性只有 0.03,這數字可以說是完全無關,而 0.99 的相關性雖然是令人吃驚,但 0.03 這個無關結果更令人無法理解。(見粉絲團談論人數與民調的驚奇異同 )

會出現 0.9911 的相關性雖然驚訝,但還是在可接受範圍,但 0.03 這部份是完全出乎意料,而一直在想,到底是甚麼樣的情型造成這完全無關的結果呢?在想會不會是一個是正相關,而另一個是負相關所造成的結果。

因此檢驗這數字的時候,發現有兩組資料是相當有趣的差異,一組是陳亭妃,顏純左,李俊毅,這三個人的粉絲團談論數跟民調的相關性不只是達到 0.99,而是 0.9999,這數字更令人驚訝,但另三個人的數字只剩 -0.4178。



甚至在有人提醒,不是使用葉宜津因為注音事件造成這一兩個星期的大升,而是大家都用 "月中位數" 時,此時即使是扣掉王定宇與黃偉哲這兩個人,相關係數是 0.9782,但一起算的時候自然還是 0.0462 的無關,但在這邊做了個有趣的嘗試,就是把這兩個人的數字對調,又發現一個驚人的事實,這六個人的相關係數居然是 0.9748 的高相關。


會有這樣的結果,不得不讓人猜想,是不是有人把這兩個人數字弄錯,若真的是這樣,該出線的應該是王定宇而不是黃偉哲。此時就不得不想到很多 "陰謀論",說不定是故意調包,或是早就談好的呢?

因為每一個候選人都很特別,最後的民調與談論數都是大家經營出來的結果,但事出必有因,會造成這樣的結果因子很多,像原本所說的:

1. 高雄慢慢變成一個商業都市,網路的普及率與接受度較高。
2. 台南有相當的人口還是在鄉村,使用網路接受訊息的狀況較低。
3. 王定宇是較為全國性的人物,不代表可以直接轉成台南市。

4. 黃偉哲的傳統插旗與廣告還是奏效?
5. 台南市的民調真的有所失真?

這些會造成影響,有些不是,甚至也發現花更多錢廣告的反倒黃偉哲不是最高的,那到底為甚麼會造成這樣的現像呢?

我相信數字會說話,除了王定宇與黃偉哲,高雄市與台南市的候選人的 "轉換率" 都很接近,有多少網路聲量就會有多少民調結果,這轉換率乖離度最大的是葉宜津,而這因子大家應該不意外。

但到底發生甚麼因子,造成王定宇與黃偉哲的 "轉換率" 完全超乎系統的預期?連我都相信 "事出必有因",即使很難會發生,但最簡單的答案往往可能是最正確的答案,也就是真實民調是兩個人對調!

會有這樣的意外也是 我預期不到的,因為以前除了用電話民調外,從來沒有其他系統可以輔助,因此大家只能相信民調,但專頁儀表板提供了一個可能性來檢驗,且在這次發現網路的真實與電話的真實若是沒有甚麼奇怪的 "因子" 大都是接近的,若有差距一定是發生甚麼事?

當然用這兩種不同方法論來互相驗証有很大的問題,一個是網路聲量越高,不代表的是正面的,也可能是負面的,且即使是正面,也不代表能轉換成 "支持度",更不要說這選區的選民在這些支持者的比例多少,以及這選區的網路使用者是多少?

只是透過談論數是相信支持者與關心者多少跟選區相關,必竟要談論 (Making Story) 沒這麼簡單,所以會有如此高的正相關是不意外,這也是用這種方法論 "成功" 的地方?

但這不代表驗證電話民意有問題,因為網路的談論數即使可以轉換成支持度,但這樣直接說台灣的大市長直接給柯文哲做好了,因為他擁有目前透過網路所衡量出來的支持者,只是這系統為甚麼沒包含柯文哲呢?最簡單就是他並沒有參與高雄市或台南市的初選。

因此若不是系統失靈,更不是民意失真或做假,除非一個很大的因素是:"台南市選民跟本認為王定宇不是出來選的"。此時唯一可解釋的就是 "棄保效應",雖然王定宇是受到許多人支持,但當要選擇一個時,棄保效應就是原本支持王定宇的,知道他現在是第一屆的立法委員,還須要更多屆的歷鍊時,這些人的支持就會轉為支持第二個或是 不同考量的結果。

畢竟資料科學利用社群數據,最有趣的地方是他是可以很準確的呈現事實的數字,但必須要有對此問題夠了解的人去組合才會有接近其他方法論的結果。所以若是棄保效應是最後操弄這次民調的最大因子,這兩個人的數字會失真也就不意外了。

所以在這次的研究可以發現幾件事:

1. 用社群聲量來轉換民意的機會很高,且幾乎都可以到 9 成以上的準確度。
2. 甚至可以用這個來做檢驗,像這次是不是真的王定宇與黃偉哲的數字弄錯或失真,也是一個有趣的檢定。
3. 但面臨到一些像 "棄保效應" 的因子時,系統就可能無法得知而造成很大的差距,因為表面的候選人民單跟真實的差很多。
4. 若真的是棄保效應,也大概可以知道像這次陳亭妃想要挖王定宇的支持者,不知為甚麼失敗,因為大部份的人都轉向黃偉哲。

有人說,棄保或配票等等說不定是傷害民主最大的事,當然若真的是這個民調是假的是更糟糕的事,雖然這都不是我們樂見的,但這次的電話民調與網路聲量讓我們看到一件有趣的事,就是在資料科學中,這兩個系統之間互相轉換面臨到的局限,或是可以挖掘到更深層的真實,而這個真實如何或是如何判斷,可能還要更多的事來驗證吧。

沒有留言:

張貼留言

LinkWithin

Related Posts Plugin for WordPress, Blogger...

熱門文章