2014年9月18日星期四

我們來捕獲野生柯文哲, 民意儀表板開放 API 讓大家知道我們是怎看 柯P 的....

記得我跟某位候選人的某個競選單位的某一群人說話, 他們劈頭就問我, 支不支持某位候選人, 我就說:

"我連自己都不相信了, 怎會去支持一個人, 我只針對我認同的想法理念付出, 跟人無關".... 

看到 TonyQ 與 Even Wu 推動的柯文哲野生官網, 我覺得是個很不錯的想法, 但我一直認為, 我們若選擇一位候選人, 不只是要去聽他說甚麼, 而是更希望他能夠聽我們說甚麼, 在之前因為某機緣做了 "民意儀表版", 所以想說在工作坊當天發表 API 給大家用, 但後來因為臨時決定回台南過中秋節就做罷...

但這想法我覺得還是要推動, 只是這兩三星期忙到不行, 一直到今天才有時間把這計劃完成.

這個民意儀表版雖然是架構在林克傳說, 但還是有所不同:

林克傳說只算分享的外部連結, 民意儀表版只要是分享就可以.

所以在 http://kwj.board.tw/ 就可以看到現在大家用甚麼角度在討論柯文哲, 而

1. 這分享包括狀態的分享與照片的分享, 但前提是分享.
2. 若這分享若是非公開的, 將不會顯示.
3. 因為計算的關係, 會有 30 分鐘到兩小時的落差.
4. 若只是個人的動態或照片, 若沒經過被分享或公開不會被採集.

當然這些資料有用, 也更希望大家用, 所以就做成 API, 就把這網址所須要的資料包成 json 給大家來用, 資料讀取是:

http://kwj.board.tw/api/kwj.php?apikey=[Your API KEY]

這邊有 post_id, 格式為 [fbid]_[post], 這是原始的 FB 資料, 而要轉成真正的網址必須解成:

https://www.facebook.com/permalink.php?story_fbid=[fbid]&id=[post]

只是這種連結方式不見得每次都有效, 不知道有誰有更好的 post_id 的轉網址方式...

其中的 API KEY 是透過林克傳說授權的, 也就是要在這連結 http://link.que.tw/apikey.php , 取得你的 API KEY 就可以用了, 不用經過認何人工的流程.

現在開放測試, 若有甚麼問題請跟我說:

2014年9月16日星期二

我心目中八年後市長候選人現況的 20 個項目, 每一個都很重要

這幾十年來, 我一直在想, 為甚麼政治一定非要有專業的政治人物來擔任不可, 雖然說不是須要所謂的 "素人" 來從政, 但我心目中的候選人應該如何呢?

我一直認為這個人應該是本來就是在做對社會有貢獻或有意義的事, 雖然那個人不見得一定要一直在非營利組織工作, 但除了賺錢的工作外, 這個人應該是持續得對社會努力與貢獻, 雖然不見得是那組織的領導者.

也就是說, 這個人不見得是一定非得從民意代表出身, 但由於這個人參與社會超過 10~20 年的經驗, 能夠對我們存在的社會有一定的想法, 且不會容易受到金錢或權利所誘惑, 這樣的努力與奉獻, 是須要我們透過選票讓這個人有機會做出更多的事情才對, 即使最後沒有選上, 這個人應該也是能夠回歸到原本的角色繼續實現願望.

所以跳脫連勝文, 柯文哲, 馮光遠或其他四位候選人, 我在想, 若是有一個人是我心目中八年後市長候選人, 那個人現在會是在做甚麼呢?

我就嘗試的列下來吧.....

1. 她曾在一個非營利組織任職
2. 她帶領一個很聰明的團隊
3. 即使剩下她一個人, 她也可以把事情做出來, 但她可以領導團隊做的更好
4. 這非營利組織最好是跟居住正義, 交通, 人權, 教育有關

5. 她願意把組織運作給透明化
6. 她有從最基層做起的經歷
7. 她現在至少正在帶領 10~100 人團隊
8. 她能夠動手做出作品, 且這專長不是須要架構別人之上

9. 她在網路上的發言大部份不假他人
10. 她會承認她做錯很多事或說錯很多話
11. 她不須要很高的學歷或很聰明, 但她在 10 年內還是在進修
12. 她的資產不會在前 5%, 但她的薪水有可能是在前 20%

13. 她最好不是權貴後代
14. 她認為人在任何情況不應該被性別, 宗教, 血緣所區分或限制
15. 她有一半的交通是用大眾運輸系統
16. 她會很喜歡玩遊戲, 或是在興趣嗜好有認真的投入

17. 她會有一個部落格或專欄來闡述自己的想法
18. 她會讓大家知道她喜歡的小說, 電影, 音樂, 或者是球隊
19. 她不須要有很遠大的夢想, 只想要有一般的生活
20. 她認為這世界的每一個人都是很渺小, 但也很重要與價值

阿, 還有....

21. 她不一定是個男的

若是你的話, 雖然你現在不見得是支持那一個候選人, 你會列出你心目中八年後的市長候選人的現況會是如何呢? 嘗試的列出個 10~20 項吧....

若你寫出來, 就加個 Hashtag: #我心目中的市長候選人 讓大家一起討論吧....

2014年9月15日星期一

從行動代號 MG149 來看台北市長選情的 911 轉戾點

選戰早就過了到數 100 天, 本來以為這次的選戰應該沒甚麼烽火漫延, 峰迴路轉的事情, 但隨著這次的行動代號 MG149 就變得完全不一樣...

在林克傳說的資料中, 我們將大家分享的文章分成六類: (支持|反對)(柯文哲|連勝文|馮光遠) 若是用 Regular Expression 來表示的話, 大約從去年 10 月就開始記錄, 此時可以分成幾個時期:

1. 去年10月到今年1月: 此時主要的聲量都是一面倒的支持柯文哲, 偶而有零星的支持馮光遠或反對連勝文的聲量出現.

2. 今年 2 月到 318 期間: 前期反對連勝文的聲音到處出現, 後期支持連勝文的輿論慢慢加溫.

3. 318後一個月: 此時應該沒有人理這三位候選人吧

4. 4 月到選前 100 日: 這段時間反對連勝文, 支持柯文哲, 支持連勝文互相競爭, 各有極大值成為排行第一名的狀況, 而最高值是 反連 47% vs 支柯 35% vs 支連 22%.

5. 選前 100 日到 9 月 10 日: 支持柯文哲突破 50% 到 56%, 反對連勝文也曾到 50% 高鋒, 甚至支持連勝文的也到 49% 的高鋒, 這三個部份的聲量還是互相爭最高, 除了支持連勝文有一天最高過, 其他都是支持柯文哲與反對連勝文互爭最高.

(上圖為最近 200 天的林克傳說截圖)

但在 9 月 11 日時, 整個 行動代號 MG149 PK 事件到了第二天, 反對柯文哲的聲量第一次成為最高, 雖然只有 25%, 但比起其他的 5 種聲量的確最高, 此時選戰已經到了短峰相接的時刻了, 而我那天原本想寫一篇文章來講述 MG149 不是個可以放著不回應的事, 但我相信此時對柯文哲的支持者是個大震撼.

只是過了一天整個選情又不一樣了, 大概是連陣營的羅委員雖然努力的想追打 MG149, 但犯了幾個很糟糕的錯誤整個局勢完全逆轉, 套句民報說的: 反作用力?MG帳戶案殺過頭 挺柯力量漸集, 此時整個柯陣營的網路支持者 (簡稱柯網軍) 大暴發, 扭轉整個局勢, 反對連勝文的聲音達到 81% 的高峰, 甚至柯文哲支持的聲音也回溫到 54%.

拉回來這段時間, 雖然反對柯文哲的聲音是極大化, 但現在又慢慢消退, 但支持連勝文的討論是一點都沒有被拉抬, 一直維持著 20%~25% 的狀況, 這可能代表著這種選戰打法是無法激起支持者的聲音, 反倒是因為一不小心的錯誤變成全盤皆墨.

(下圖: 最近 10 天的截圖)


但現在說選戰已經有結果還早, 畢竟很多事情都是訊息萬變, 但透過這樣的工具, 倒是可以更看得清楚選戰是真的.

這圖表大家可以去林克傳說直接看, 或直接去與 UDN 做的選戰溫度計查看.

網址為: http://udn.com/vote2014/trend#trend_chart02

2014年8月19日星期二

內容農場真的在傷害社會嗎?

昨天, 在台灣社群排行榜的前 10 名, 有 6 名是內容農場, 甚至可以說是 6 + 0.5 + 0.25 = 6.75 都可以, 其中包含可以討論的 A Day Magazine 及 ETtoday 的鍵盤大檸檬, ....

會出現這樣也是因為其中有 boMb01 的出現, 加上 sos.tw 加入戰局所造成的, 其中最有趣的是 sos 聯盟, 包含下面幾個:

救命阿 SOS.tw 內容農場
petstube.tv 內容農場
sport01.tv 內容農場
kuso01.tv 內容農場
e04.tv 內容農場
boMb01 內容農場 (?)

上面這四個網站是共用一個 Google Adsense 的廣告主及版型, 而 boMb01 跟前四個是在同一個機房, 就命名原則應該也是同一個公司做的.



雖然說內容農場很可怕, 但比較麻煩的事這些人都是有關係或是同一組人, 而且大量的在產生內容與網站, 且在了解如何操作 "下標", 所以分享與連結是相當的可怕, 因此雖然說 10 名中有 6 名是內容農場, 但在 50 名中只占 10 名, 也就是說集中在前 10 名.

即使是看起來數目不多, 但瓜分了不少的社群流量, 基本上甚至可以說是 "賺很多", 在這種成本不是很高的情形下, 都可以推估一篇文章的廣告數可以賺到 2~5 萬元以上, 而成本極低, 因為跟本不是原創或經過授權.

在這邊定義內容農場是, 依最新或最多分享的 10 篇文章中:

1. 有 8 篇以上不是原創, 也就是說有 3 篇是其站內作者署名原創.
2. 有 6 篇以上是宣稱授權, 也就是說有 5 篇是有獲得原作者的授權.

只要同時符合作兩個條件就才會被劃分內容農場, 這麼嚴格的定義還是有不少網站被劃為內容農場, 因為事實上本質上他們就是想賺 "Easy Money".

當然社群的 "眼球時間" 是有限的, 當內容農場賺取了不少流量與廣告, 相對的認真創作的網站就被剝奪了獲得收益的機會, 說內容農場沒在傷害是不可能的, 更何況大部份的內容都是 "錯誤" 的, 基本上都是以偏蓋全, 危言聳聽, 因為這樣才能夠獲得更多的分享與討論.

雖然現在已經幾個朋友宣稱, 只要他的朋友分享內容農場的文章就刪好友, 但還是有人持續的在分享這些網站, 因為有太多人沒有意識到他們在散播有問題的內容, 無論就內容或是型式上的.

或許要求內容農場不去賺 "Easy Money" 是不可能, 就像是要求販毒過的人不再販毒一樣, 他們會問你除了這方式外, 還有比這更好賺的嗎? 只是不一樣的是我們可以停止分享來讓他們的利益減少, 至少在動機上他們會少很多, 這比透過任何法律或道德方式都更有意義, 不是嗎?

2014年8月15日星期五

一個集遊法, 兩個政府, 幾個媒體, 很多觀點?

昨天的新聞在我眼中最重要的就是集遊法了, 因為這也是言論自由很重要的基礎, 若沒有了言論自由, 甚麼民主都是假相, 只是看了一下記者對行政院的解讀是下面這樣子:


OK, 看了上面這幾則之後, 請大家知道到底是在緊縮還是在鬆綁? 當然在看這之前我們要知道兩件事:




其中也包含兩個 "白狼路過事件" 與 "公投盟蔡丁貴411事件" 的遠因, 此時就不難想像, 這次行政院的作為就是要對 411中正一分局事件做個清算, 其中有兩個不同的觀點是:

1. 偶發性集遊是指因特殊原因未經召集而自發聚集,且事實上無發起人或負責人的集遊,不須事前報備
2. 緊急性則指事起倉促,且非即刻舉行無法達到目的的緊急集會遊行,則應於舉行前報備。

且行政院直接點名: "至於411民眾包圍中正一分局的集遊行為如何認定?邱昌嶽則認為,這是有計畫、有召集、有訴求、有標語,應不屬於緊急或偶發" 直接否定此事件, 傾向認定其違法的事.

事實上這是一個相當有趣的事情, 緊急事情既然緊急, 如何報備? 且這種事本來就是突發狀況居多, 如何報備, 甚至回頭來看, 411 真的有計劃與召集嗎? 甚至相對於白狼路過事件, 這才是在多天前, 有組織, 有召集的事, 但很明鮮的中正一認定為不違法.

當然我們這邊要討論的是一個警察局長能否直接挑戰憲法, 即使他認為他可以擔當, 但就集遊法本身, 警察就是一個當事者, 若是由警察這個當事者與執行者, 來決定法律及法律執行的程度, 在某方面就跟本不須要法律了.

但拉回來, 至少已經確定無論是偶發性或緊急性是不用申請許可制, 只是一個報備制指的是可以事後用超過報備範圍來定罪或強制執行或認定違法, 若沒有報備的須要就很難有限制可以去框住與執行.

只是像 411 這種沒有明顯特定發起人, 召集人的事, 行政院也認定這只是屬於緊急性而不是偶發性, 這樣事實上所有事情都須要報備, 都可以去約束了.

依照我對數字的定論, 應該是用更客觀的操作型定義, 甚至緊急性與急迫性應該設定為:

1. 事情發生到眾所皆知 24 小時內所發生的事不須報備
2. 在事前可以特定聯絡得到的負責人, 須報備...

只是在任何情型, 這種事情都是種雙方的角力, 通常當權者主張縮限, 人民主張開放, 這事是不回停止紛爭的...

而就林克傳說來看, 最被注意到的兩則是:



所以大家注意到的是, "還是須要報備" 的那部份, 而是把本來就不須要報備的當作是天經地義, 雖然中央社是認為: "偶發性集會不須報備", 代表政府已經認為足夠寬大為懷, 人民應該感謝了, 只是最後大法官晾在一旁.

2014年8月9日星期六

真・偽部落格觀察排行榜(臉書社群加強版)


網址: http://social.board.tw/blog.php

從前年開始喊說要做部落格觀察 3.0 (那時候跳過 2 版了?), 但目前還在只聽到腳步聲, 連個影也沒有, 而這部份已經被林克傳說跨行踩到了.

林克傳說在七月初做出臉書的網站連結 Engagement 互動排行榜, 接下來就是要做分類排行榜, 只是這分類不可能用 Link (連結) 一筆筆去看, 要先做分類的是網站, 然後從網站定義出分類, 因此在做出 "台灣社群排行榜" 後, 接下來就是定義那些是個人部落格(網站)了.

但不一樣的是, 網站的前 50 名有一定的量所以就有一定的準確度, 相較之下個人部落格的量就少很多, 像今天網站前 50 名中, 也只有一個個人部落格, 所以像右圖的前 10 名是累積 30 天的量, 就前一天的名次看就穩定多了.

只是若是要公布穩定的排行榜, 這系統最好還是要以月為單位來公布, 所以這系統雖是在 7/7 開始做, 但之間經過幾次改版, 大約在  7/20 才慢慢穩定收斂, 因此若是要公布個有意義的排行榜, 可能就是等八月結束了.

雖然說這是 "部落格排行榜", 本質上還是個 "偽作", 但也是有一定的準確性, 所以最後定名為: "真・偽部落格觀察排行榜(臉書社群加強版)", 這樣會不會很有 KOEI 風格呢?

如前一篇 "臉書導流到網站的排行榜 social.board.tw" 所說的, 這個數字計算的只是導流的部份, 像大家熟知的重灌狂人, 流量也是在台灣前 200 名, 比上面排行榜的任何一個部落格說度定都還來得高, 但尤於這重灌狂人這網站完全不以臉書為社群中心, 所以最後也完全不在排行榜裏面, 相較電腦王阿達就在很前面.

像重灌狂人的社群導流只有 3.64%, 所以即使他有 4M 的訪客, 因此只有 14萬來自社群, 而阿達的 1.6M 有 23.48%, 換算就是 38 萬, 多了好幾倍.

另一個問題是現在已經有不少部落客的露出不完全只是自己部落格, 也透過像蘋果即時或其他專欄做曝光, 自己的部落格相較小很多, 所以名次就較低, 像 "個人意見", "李柏鋒", "人渣" 等人都在很多地方是重要的台柱, 自己部落格流量就會受影響也是不否認的, 只是相對的到底甚麼是真實就看大家自己去定義.

但當初建立部落格觀察, 是想要對讀者的閱讀方向有幫助, 這系統反而就差很多了, 這排行榜倒反而是讓部落客之間了解為甚麼其他部落客如何能夠獲得 Engagement (讚/享/評), 然後找出自己的方法與特色, 去了解自己的優缺點的意義反而較大.
可以透過這系統連回林克傳說看原始的數字, 就可以知道這部落格為甚麼在這麼前面, 而你的部落格沒有,  就可以發現 "持續性的發好文章" 是最重要的事, 當然最後是能否在臉書有所回應也是個重點.

最後請大家注意一點, 這系統的排名依據不是總流量, 而是從臉書社群導流的流量, 也就是 Social 的流量來做排名, 因此附上 "檢驗", 大家可以透過後面的連結去看 SimilarWeb, 就知道有些網站是透過 Social 多還是少, 最後決定這排行榜的名次, 雖然這種 "Social/社群" 的方式更能夠代表好文章與文章價值, 但多少還是有一個更重要的原因.........................

就是....... 不告訴你...... 逃.........

(事實上是下集待續啦~~, 因為也打算寫系統證明)

2014年8月8日星期五

臉書導流到網站的排行榜 social.board.tw

網址:  台灣社群排行榜

在經營網站時, 一定要知道網站的流量來源, 其中可以分成幾類:

1. 短期 : 社群, 廣告, (3 小時到 3 天), Buy(主)/Earn
2. 中期 : 搜尋, 轉介, (3 週到 3 個月), Earn(主)/Buy
3. 長期 : 直接, 訂閱, (3 個月以上), Own(主)/Earn

現在最被重視的流量來源就是社群了, 甚至出現只靠社群經營的網站, 尤其是內容農場之類的網站, 直接跳過中長期經營, 只做直接有效的短期經營, 也因為這種快速的 Easy Money, 即使不見得都是違法, 但的確存在有些人被侵犯的事.

林克傳說是以社群網站(臉書)中使用者分享連結的觀察系統, 而在建立起來後, 已經可以看到台灣網路使用者如何透過分享來看內容, 其中包含新聞及其他內容, 在有足夠有效度的資料之後, 就可以直接進一步的不靠抽樣獲得較完整的資訊, 就是臉書分享排行榜.

這系統有幾個步驟去完成:
1. 獲得使用者的授權
2. 搜集使用者看得到的動態牆
3. 合併相同內容但不同網址的連結
4. 計算此連結的覆蓋率
5. 排程抓取這些種子連結的臉書數值
6. 推估每天的數值
7. 計算排行榜
其中前四項林克傳說已經完成了, 後三項看起來簡單, 但排程與推估這件事情是沒那麼簡單, 這部份從開始寫到定案大概改了二十次以上的演算法, 其中也嘗試著算出第一版的 "那些網站最被台灣網友分享與按讚?", 但當有人指出有問題時, 我也發現有更多可以改善的地方, 所以又停下來重整, 所以貼出 "[林克傳說] 有關臉書社群榜", 再做些基礎工夫後會更準確.

即使真的算出這個網站可以透過社群獲得多少流量, 但別忘了這才是目前主要流量來源的一種 (社群, 搜尋, 轉介, 直接), 雖然有些網站不到一成來源來自社群, 但也有超過七八成流量來自社群的網站, 就像 "媒體在社群網路的消長分析 (2014前半年)" 所說的, 即使是新聞網站, 有的是 4 成來自社群, 也有不到 2 成的, 差距是超過一倍以上, 甚至是明明社群流量大過別人, 但總流量卻輸如, 或者是相反, 因此可以知道每一個網站屬性都是不太一樣的.

在之前, 大家看社群都是看粉絲團, 從看粉絲團的人數, 看成長數, 看每則動態消息的讚/分享/評論的數字及觸及數, 但這些都無法產生價值與效益, 因為最後還是要看真正回流到網站後, 對點擊與閱讀產生的廣告效益等等, 雖然粉絲團的經營是個先驗, 是個領先指標, 但最後還是要回到網站本身, 所以最後有人跟我說, 林克傳說的數字跟他們差距相當大, 原本以為是算錯, 所以經過努力把精確度提升, 但還是有人說完全不一樣, 此時才發現這是兩個不同角度的事.

粉絲團的 Insight: 透過粉絲團經營與動態消息的排行榜與分佈, 可以知道這個網站在臉書的活躍度.
台灣社群排行榜: 透過網站本身在臉書的按讚/分享/評論, 知道使用者透過個人動態消息的傳播狀況.

很明鮮的這是兩個完全不同的觀點, 不同的來源數字, 舉個例子來說好了, 蘋果日報粉絲團貼出 "高市​早知榮化奪命管線 陳菊鞠躬道歉" 這動態消息, 這則動態獲得了 52,470 個讚, 1,036 個分享及 2,152 個討論, 加起來超過 5.5 萬個觸及數, 但在網站上這則新聞同一時間的數字是 1.3 萬, 其中是 11,311 個讚, 612 個分享, 1,936 個評論, 加起來是 13,859 個觸及, 也就是 1.3 萬, 若是要看經營粉絲團的成效, 看的是 5.5 萬, 但若是要看網站在社群的效應, 則是 1.3 萬, 這是兩個不同的觀點.

大家可以看下面的截圖的數字就可以知道, 左邊是粉絲團, 右邊是網站:



而這系統是以經營網站的觀點優先於經營粉絲團, 所以計算的是網站的效應, 而非粉絲團的效應, 所以這數字跟 Insight 有段落差, 就像是蘋果日報的粉絲團經營的很好, 若是看 Insight 絕對是比 ETtoday 好上很多, 但 ETtoday 經營的就不只限於一個粉絲團, 而看的是帶來的網站效應, 最後對應到 SimilarWeb 來看, 果然 ETtoday 社群佔比比蘋果高, 但話說這之間差距不大是真的, 只是就單一粉絲團經營成效比就差很多了.

這個排行榜的目的就是看社群的導流效果, 當然用按讚/分享/評論數不是絕對的, 但也是可以推估個蛛絲馬跡, 因為最後網站的總流量還是要加其他來源.

原本排行榜是把七天內獲得的 "讚/享/評" 這三個數字加總, 但發現按讚的數字比分享評論大上 9~10 倍, 也就是說只看按讚就決定了, 但實務上較重要的是分享, 因為這會影響到真正的覆蓋率, 只是按讚更是人最初發的行為, 不能完全不算, 所以最後把這數字加權加總後來排除排行榜.

只是這數字差距還是相當大, 第一名跟第一百名數字是相差一萬倍, 因此最後還是取對數後做正規化 (Normalization), 而讓大家比較好閱讀, 若你是較專業的分析師, 可以用 origin=1 的參數, 來看完全沒加權, 沒取對數的數字, 來跟你手上的數字做驗證是否正確.

最後加上跟前一天的排名, 分數做比較, 也提供到 Alexa 與 SimilarWeb 的連結做檢驗, 接下來會做的是將之分類, 但這些就須要較多的人工了, 雖然加註中文也花了不少時間.

會做這排行榜只是想分析媒體, 或是想去觀察內容農場, 後來經過某位知名的 XXC 好朋友, 他在想說如何更領先知道一個網站的暴發與成長, 在做之前, 一定要有基本資料做比較, 所以這排行榜就出來了, 所以是希望做出來對網站經營者, 媒採與廣告主, 及社群的大家有所幫助.

LinkWithin

Related Posts Plugin for WordPress, Blogger...

熱門文章