2014年10月30日星期四

成為資料工程師所須要學習的 28 堂課

雖然說 Big Data (大數據) 是一個很夯的話題, 但就像一個笑話:
Big Data is like teenage sex:Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it so everyone else claims they are doing it too.
雖然說就大部份而言, 這笑話是真的, 只是誇張了點, 因為 Big Data 目前遇到的問題還是相當的多, 就像是前幾天有一個朋友問我, 為甚麼電子商務網站都宣稱想做或要做資料探勘或大數據, 但為甚麼沒人去做呢? 我回答了幾個問題點:

  1. 沒有真正了解資料價值的專案負責人: 大部份的專案負責人或產品經理, 都是從業務, 商品, 行銷出身, 對他們而言無論是在學校的學習, 執行的經驗, 進修的內容都沒有相關的知識, 在沒有對這種背景知識有足夠了解的人, 如何去產生與企劃, 既使大部份都是別人在做的, 但若沒有概念是不行的.
  2. 要有人對做出來的業績與成果去承擔: 而若是沒有行銷與業務或產品去推, 那由資訊的人去推或許是合理的, 但最大的問題是資訊在電子商務是屬於後勤人員, 本身是不扛業績的, 而這種專案做出來會排擠其他的 Quota, 在沒有人須要的情型下最後只好無疾而終.
  3. 外包的成本太高, 但內部的人又沒經驗: 上面兩個問題若是遇到有心的老版就不是問題, 但真的要開始做時面臨到到底要 In-House 還是 Out-Sourcing, 雖然內部做是外部的三分之一到五分之一, 且對 BI (企業智慧) 比較能夠切中目標, 但人才與經驗是個很大的問題, 所以不是大好就是徒勞無功.
  4. 比 Big Data / Data Mining 更重要的事還很多: 大部份的電子商務公司最大的問題是資源不足, 而大家可以看 "九項如何建立有效商品推薦系統, 所須要知道的進程導引與架構指南" 這邊就可以知道能做的還很多, 在人力與資源不足得情形下被放棄或延後是合理的.
當然大家知道最大的問題還是台灣的市場與老版的企圖心都不太夠, 但拉回來, 身為工程師的我們, 真的有足夠的能力去擔當這責任嗎?

台灣的價值應該是在於人才, 而要去實作出這樣的系統須要:
  • 資料工程師: Data Engineer
  • 資料科學家: Data Scientist, Data Mathematician 
  • 資料專家/經理人: Data Expert, Data Manager
有人把這三個角色畫成下面的圖我覺得蠻有實務感的:
這邊大概畫出這三個角色的可能關係, 但在實務界更多的是一個人當三個人用, 也就是你甚麼都要會, 最後大概變成一個人要會的東西是成為下面這樣:
雖然說大部份的人能夠做好一項就很了不起了, 但真的最好須要這三項領域的專才的人, 通常不是一個人做到, 而是至少三五個人去架構與協調出來, 只是在台灣是不用太期待.

而在這次鐵人賽的緣故, 我大概規劃了一個 "成為資料工程師最初的 28 堂課", 因為有太多人對成 Big Data / Data Mining 有興趣, 而不知道如何下手, 花了 30 天 (包含導言與結論) 列出了 28 堂課給大家參考, 雖然說是 28 堂課還不如說是 28 個科目, 只是最後發現 28 真的太少了, 所以有些科目還合併在一起.

這 28 堂課除了最後一堂外, 也是把課程分程三部份:
  • 電腦相關 (Hacker)
  • 數學與統計相關 (Mathematician)
  • 社會人文相關 (Domain Expert)
每一類別有 9 科, 下面就是列表:

電腦相關


把這些知識打下基礎, 真的有實作的能力, 才是這社會最缺的, 也才是這社會推進的原動力來源, 每一個人都想個當管理者, 每一個人都想當個出嘴不動手的專家, 最後沒有人動手, 只是真正的價值應該是實作出成果為前提阿, 雖然之後的管理, 行銷是讓價值更高, 可以把成果的價值乘上好幾倍, 但若沒有這基礎做出東西的話, 永遠不會有第一個 1 出現, 因為若沒有了 1,  0 乘上 100 還是 0 阿.

所以我們就應該先當那個 1 (The One) 吧.

* 圖一來源: http://www.slideshare.net/ckliu/z-b-38495724
* 圖二來源: http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

2014年10月25日星期六

如何找到你網站/部落格最可以賺 CPA 的網頁

雖然說 CPM (曝光式廣告) 還是有存在的價值, 但已經慢慢失去其角色, 而在這系統完成的同一天, BlogAD 也宣告停止營運, 雖然不是說部落格廣告已經沒落, 但至少肯定的是部落格部份的 CPM 廣告已經快沒市場了, 其中有幾個很重要因素.
  • 部落格的流量本來通常就不大
  • 部落格的價值在於影響力, 只是看流量跟本是踐踏部落格的價值
  • 許多廣告系統透過 Re-marketing, RTB 等等技術提升 CTR, 此時再只講 CPM 就失去意義
只是部落格不賺 CPM, 還能做甚麼嗎? 自然大家會想到的就是 CPC 與 CPA.

在 Adsense/Adword 的進步下, 可以從內容方向判斷出那些廣告是合適的, 因此 CPC 已經達到一種境界, 但網站最有價值的不應該只是如此, 應該是更有人性的 CPA 才對.

一個網站由於有不錯的文章, 帶來不少的流量與效應, 此時應該可以肯定 CPA > CPC > CPM 才對, 只是 CPA 不是那麼簡單的事, CPC/CPM 可以靠聯播網來達成, 但 CPA 真的要做的好, 還是要有人下去操作才對.

而昨天在跟某兩位朋友聊天聊到, 的確這是很好的出路, 但這邊有幾個問題存在:
  1. 如何找到自己網站最受到讀者注意的網頁
  2. 找到合適這內容的商品
  3. 如何串接起商業模式
我那位朋友慢慢的把第二點與第三點串起來, 這部份須要有足夠的 Sense 及執行力與經驗, 對我那朋友不是問題, 只是第一點是很麻煩的事, 此時我就想到網事 (web.mas.ter.tw) 可以用其架構解決其問題.

而網事是一個透過 GA 來去做網站 SEO 建議的平台工具, 而一個有價值的網頁, 至少是合乎一點:
有足夠的吸引力讓使用者進到這個網頁
此時就可以用 GA 的 API 來做計算, 從開站的開始每一週每一週計算出能夠讓使用者搜尋進來的落點頁的訪客數, 來定義那些網址有足夠的價值去尋找更高的 CPA.

這邊還須要討論的地方, 就是 SEOKPI 是以月為單位, 而網事是以天為單位, 通常以天為單位容易受到極端失準或看不出來, 但若是用月為計算單位又不夠即時, 所以這是我第一次用週為單位計算的系統.

這個系統目前是在網事的子系統, 自然要先設定才能執行網事, 不了解的可以看 "網事知多少, web.mas.ter.tw 啟動" 這篇, 然後按下 "有價搜尋" 之後, 第二天才能看到資料, 當然若是之前沒有使用過的, 就可能要等到第二天才能夠按下去, 但之後就是每週隨時可以來檢查上一週進度, 如下圖:


接下跑出來的就會像下圖:


從上圖來看, 大概就是若去年我應該直接去跟 PQI 談 CPA, 且當時好像他們有看了我文章做了些改善, 但是最須要的功能並沒有完成, 所以我本來想要寫篇文章褒揚最後作罷.

但大家應該透過這工具, 就可以很即時且自動化的幫你找到你的網站是那篇作品是最合適去賺 CPA, 只是這只有幫助大家第一點, 而接下來的兩點: 找到合適內容的商品及串接商業模式, 須要的話我可以幫你介紹, 這樣讓大家寫部落格或做網站能夠多一點收益, 而能夠持續有好的處作, 這才是我最希望看到的結果.

2014年9月26日星期五

SEO Ranking Factor, 影響 SEO 排名因子初探 (2014), CTR 變成最重點

雖然我只是個工程師級的技術顧問, 但偶而還是會不小心跨到 Marketing, Management 與 SEO, 尤其是 SEO 我是會幫我顧問的公司做一些基本的教育與教學, 而上過的人就知道, 我這幾年最喜歡從 SEO 的 Ranking Factor 講起, 因為這是最實際有意義的 Guide, .....

知道 SEO Ranking Factor (SEO 排名因子) 最大的好處, 就是透過檢視這些經過 "量化的因子", 就可以知道 SEO 書的價值與不足, 尤其我一直叫大家一定要想辦法挪出時間看第一本 SEO 的書再來看網站, 且我往往會建議大家讀美國或日本的翻譯書, 若是直接看原文是更好, 而不希望大家看中國與台灣人寫的書, 這不是說台灣人的書寫的不好, 而是台灣的出版市場很欠缺一個 "Peer Review" 的動作, 且一個足以寫出相同等級書的人去作評論修正, 我們知道人非聖賢難免有錯, 若是有兩個人以上檢視同一個主題, 往往可以彌補一個人思維的錯誤, 這點相較日本與美國就做得好多了, 就我的經驗錯誤會少很多.

當看到今年 searchmetics 出的 2014 年報告, 趕緊唸完, 而在還沒唸完時, 看到新的圖表, 不禁覺得真被我說中了, 在 2012 年 iSearch 時, 我的題目是叫 "SEO 大未來", 我把搜尋引擎的因子分成四個種類與階段:

1. 架構時期: 內容, 引用, 標籤, 關鍵字...
2. 點擊時期: SERP, RSS, GA, Chrome, ...
3. 社群時期: +1, SNS, Meta Data, Semantic Web, ...
4. 個人時期: Authority, Device, User, Relationship, ....

當時說, 搜尋引擎要做得好, 必須能夠讀懂內容, 知道使用者怎樣用, 以及知道使用者要問甚麼, 其中一個很重要的 "知道使用者怎樣用" 的必要因子是拿到大部份網站的瀏覽資料, 而 Google 原本只能透過 SERP 的點擊知道使用者怎點入網站, 透過下面幾項:

0. Google Tool Bar
1. Adword/Adsense
2. Google Analytics
3. Chrome
4. Android

其中說到當 GA (Google Analytics) 與 Chrome 等瀏灠器達到一定的比例時, 遲早會加入使用者點擊做為搜尋排名的參考.

在上個月, Facebook 也提出這樣的演算法, 當使用者即使看到連結, 若不會點擊, 或點擊後立刻回來 (離開), 就代表這連結是沒有價值的, 也就是透過使用者的行為我們可以更精確的對資訊做價值判斷, 來協助更多的使用者, 在這次的報告中, 也就提出了 "User and Traffic Signals" 這概念, 其中最主要的三個項目是:

1. Click Through Rate
2. Time on Site
3. Bounce Rate

在上個月因為某個場合, 我寫出一段 "SEO 精義":

"用有意義的內容, 連到有關聯的網頁, 讓對的人去點擊與分享"

其中用的就是 SEO Ranking Factor 中的:

1. 社群: 分享與按讚
2. 連結: 外連與內連
3. 內容: 關鍵字
4. 技術: UI/UX, 結構

也就是:

用有意義的內容: 從好的文章與關鍵字下手
連到有關聯的網頁: 找到好方式把網頁給串起來
讓對的人去點擊: 要有好的 UI/UX 的環境, 去促成連結的點擊
分享: 社群是目前最重要的因子

而這次中 "讓對的人去點擊", 也就是 CTR 變成了第一名的重點, 這個是以前 Google 或任何搜尋引擎做不到的, 在 Google 運作下終於做到, 也就是說這個是每一個曾寫過搜尋引擎的人都想做的事, 但最後也只有可怕的 Google 做到了, 雖然有人認為這不是好事, 但若能更精確的搜尋到使用者要的答案, 也未嘗不是壞事.

而這邊在我眼中還有一個相當重要的重點, 就是連結的價值, 其中有幾項是大家沒注意到的:

1. 連結的品質
2. 連結的數量
3. 網站的價值
4. 網站 (Domains) 的數量
5. 新聞連結
6. 新的連結
7. Nofollow 的比例
8. 連結的時間
9. 首頁與Deep Link 的分布
10. 錨點文字的稀少性
11. 錨點文字數
12. 錨點文字是首頁網址的比例
13. 錨點文字是品牌字網域的比例

這些都是 Backlink 連結的價值, 也就是當連結的因子越複雜, 往往就越難操作, 這也就是黑帽越來越難做, 但認真的連結價值也變高的原因.

(此時就發現 weblog.tw 真的在這計劃, 在這次的 Backlink Building 更是相當有值, 因為當時就是以 CTR 做出發, 建立高品質高數量的連結)

而除外那些網頁的基本結構, 雖然還是搜尋排名的因子, 但相較 CTR, Social 與 Backlink 比重就差很多了.

2014年9月18日星期四

我們來捕獲野生柯文哲, 民意儀表板開放 API 讓大家知道我們是怎看 柯P 的....

記得我跟某位候選人的某個競選單位的某一群人說話, 他們劈頭就問我, 支不支持某位候選人, 我就說:

"我連自己都不相信了, 怎會去支持一個人, 我只針對我認同的想法理念付出, 跟人無關".... 

看到 TonyQ 與 Even Wu 推動的柯文哲野生官網, 我覺得是個很不錯的想法, 但我一直認為, 我們若選擇一位候選人, 不只是要去聽他說甚麼, 而是更希望他能夠聽我們說甚麼, 在之前因為某機緣做了 "民意儀表版", 所以想說在工作坊當天發表 API 給大家用, 但後來因為臨時決定回台南過中秋節就做罷...

但這想法我覺得還是要推動, 只是這兩三星期忙到不行, 一直到今天才有時間把這計劃完成.

這個民意儀表版雖然是架構在林克傳說, 但還是有所不同:

林克傳說只算分享的外部連結, 民意儀表版只要是分享就可以.

所以在 http://kwj.board.tw/ 就可以看到現在大家用甚麼角度在討論柯文哲, 而

1. 這分享包括狀態的分享與照片的分享, 但前提是分享.
2. 若這分享若是非公開的, 將不會顯示.
3. 因為計算的關係, 會有 30 分鐘到兩小時的落差.
4. 若只是個人的動態或照片, 若沒經過被分享或公開不會被採集.

當然這些資料有用, 也更希望大家用, 所以就做成 API, 就把這網址所須要的資料包成 json 給大家來用, 資料讀取是:

http://kwj.board.tw/api/kwj.php?apikey=[Your API KEY]

這邊有 post_id, 格式為 [fbid]_[post], 這是原始的 FB 資料, 而要轉成真正的網址必須解成:

https://www.facebook.com/permalink.php?story_fbid=[fbid]&id=[post]

只是這種連結方式不見得每次都有效, 不知道有誰有更好的 post_id 的轉網址方式...

其中的 API KEY 是透過林克傳說授權的, 也就是要在這連結 http://link.que.tw/apikey.php , 取得你的 API KEY 就可以用了, 不用經過認何人工的流程.

現在開放測試, 若有甚麼問題請跟我說:

2014年9月16日星期二

我心目中八年後市長候選人現況的 20 個項目, 每一個都很重要

這幾十年來, 我一直在想, 為甚麼政治一定非要有專業的政治人物來擔任不可, 雖然說不是須要所謂的 "素人" 來從政, 但我心目中的候選人應該如何呢?

我一直認為這個人應該是本來就是在做對社會有貢獻或有意義的事, 雖然那個人不見得一定要一直在非營利組織工作, 但除了賺錢的工作外, 這個人應該是持續得對社會努力與貢獻, 雖然不見得是那組織的領導者.

也就是說, 這個人不見得是一定非得從民意代表出身, 但由於這個人參與社會超過 10~20 年的經驗, 能夠對我們存在的社會有一定的想法, 且不會容易受到金錢或權利所誘惑, 這樣的努力與奉獻, 是須要我們透過選票讓這個人有機會做出更多的事情才對, 即使最後沒有選上, 這個人應該也是能夠回歸到原本的角色繼續實現願望.

所以跳脫連勝文, 柯文哲, 馮光遠或其他四位候選人, 我在想, 若是有一個人是我心目中八年後市長候選人, 那個人現在會是在做甚麼呢?

我就嘗試的列下來吧.....

1. 她曾在一個非營利組織任職
2. 她帶領一個很聰明的團隊
3. 即使剩下她一個人, 她也可以把事情做出來, 但她可以領導團隊做的更好
4. 這非營利組織最好是跟居住正義, 交通, 人權, 教育有關

5. 她願意把組織運作給透明化
6. 她有從最基層做起的經歷
7. 她現在至少正在帶領 10~100 人團隊
8. 她能夠動手做出作品, 且這專長不是須要架構別人之上

9. 她在網路上的發言大部份不假他人
10. 她會承認她做錯很多事或說錯很多話
11. 她不須要很高的學歷或很聰明, 但她在 10 年內還是在進修
12. 她的資產不會在前 5%, 但她的薪水有可能是在前 20%

13. 她最好不是權貴後代
14. 她認為人在任何情況不應該被性別, 宗教, 血緣所區分或限制
15. 她有一半的交通是用大眾運輸系統
16. 她會很喜歡玩遊戲, 或是在興趣嗜好有認真的投入

17. 她會有一個部落格或專欄來闡述自己的想法
18. 她會讓大家知道她喜歡的小說, 電影, 音樂, 或者是球隊
19. 她不須要有很遠大的夢想, 只想要有一般的生活
20. 她認為這世界的每一個人都是很渺小, 但也很重要與價值

阿, 還有....

21. 她不一定是個男的

若是你的話, 雖然你現在不見得是支持那一個候選人, 你會列出你心目中八年後的市長候選人的現況會是如何呢? 嘗試的列出個 10~20 項吧....

若你寫出來, 就加個 Hashtag: #我心目中的市長候選人 讓大家一起討論吧....

2014年9月15日星期一

從行動代號 MG149 來看台北市長選情的 911 轉戾點

選戰早就過了到數 100 天, 本來以為這次的選戰應該沒甚麼烽火漫延, 峰迴路轉的事情, 但隨著這次的行動代號 MG149 就變得完全不一樣...

在林克傳說的資料中, 我們將大家分享的文章分成六類: (支持|反對)(柯文哲|連勝文|馮光遠) 若是用 Regular Expression 來表示的話, 大約從去年 10 月就開始記錄, 此時可以分成幾個時期:

1. 去年10月到今年1月: 此時主要的聲量都是一面倒的支持柯文哲, 偶而有零星的支持馮光遠或反對連勝文的聲量出現.

2. 今年 2 月到 318 期間: 前期反對連勝文的聲音到處出現, 後期支持連勝文的輿論慢慢加溫.

3. 318後一個月: 此時應該沒有人理這三位候選人吧

4. 4 月到選前 100 日: 這段時間反對連勝文, 支持柯文哲, 支持連勝文互相競爭, 各有極大值成為排行第一名的狀況, 而最高值是 反連 47% vs 支柯 35% vs 支連 22%.

5. 選前 100 日到 9 月 10 日: 支持柯文哲突破 50% 到 56%, 反對連勝文也曾到 50% 高鋒, 甚至支持連勝文的也到 49% 的高鋒, 這三個部份的聲量還是互相爭最高, 除了支持連勝文有一天最高過, 其他都是支持柯文哲與反對連勝文互爭最高.

(上圖為最近 200 天的林克傳說截圖)

但在 9 月 11 日時, 整個 行動代號 MG149 PK 事件到了第二天, 反對柯文哲的聲量第一次成為最高, 雖然只有 25%, 但比起其他的 5 種聲量的確最高, 此時選戰已經到了短峰相接的時刻了, 而我那天原本想寫一篇文章來講述 MG149 不是個可以放著不回應的事, 但我相信此時對柯文哲的支持者是個大震撼.

只是過了一天整個選情又不一樣了, 大概是連陣營的羅委員雖然努力的想追打 MG149, 但犯了幾個很糟糕的錯誤整個局勢完全逆轉, 套句民報說的: 反作用力?MG帳戶案殺過頭 挺柯力量漸集, 此時整個柯陣營的網路支持者 (簡稱柯網軍) 大暴發, 扭轉整個局勢, 反對連勝文的聲音達到 81% 的高峰, 甚至柯文哲支持的聲音也回溫到 54%.

拉回來這段時間, 雖然反對柯文哲的聲音是極大化, 但現在又慢慢消退, 但支持連勝文的討論是一點都沒有被拉抬, 一直維持著 20%~25% 的狀況, 這可能代表著這種選戰打法是無法激起支持者的聲音, 反倒是因為一不小心的錯誤變成全盤皆墨.

(下圖: 最近 10 天的截圖)


但現在說選戰已經有結果還早, 畢竟很多事情都是訊息萬變, 但透過這樣的工具, 倒是可以更看得清楚選戰是真的.

這圖表大家可以去林克傳說直接看, 或直接去與 UDN 做的選戰溫度計查看.

網址為: http://udn.com/vote2014/trend#trend_chart02

2014年8月19日星期二

內容農場真的在傷害社會嗎?

昨天, 在台灣社群排行榜的前 10 名, 有 6 名是內容農場, 甚至可以說是 6 + 0.5 + 0.25 = 6.75 都可以, 其中包含可以討論的 A Day Magazine 及 ETtoday 的鍵盤大檸檬, ....

會出現這樣也是因為其中有 boMb01 的出現, 加上 sos.tw 加入戰局所造成的, 其中最有趣的是 sos 聯盟, 包含下面幾個:

救命阿 SOS.tw 內容農場
petstube.tv 內容農場
sport01.tv 內容農場
kuso01.tv 內容農場
e04.tv 內容農場
boMb01 內容農場 (?)

上面這四個網站是共用一個 Google Adsense 的廣告主及版型, 而 boMb01 跟前四個是在同一個機房, 就命名原則應該也是同一個公司做的.



雖然說內容農場很可怕, 但比較麻煩的事這些人都是有關係或是同一組人, 而且大量的在產生內容與網站, 且在了解如何操作 "下標", 所以分享與連結是相當的可怕, 因此雖然說 10 名中有 6 名是內容農場, 但在 50 名中只占 10 名, 也就是說集中在前 10 名.

即使是看起來數目不多, 但瓜分了不少的社群流量, 基本上甚至可以說是 "賺很多", 在這種成本不是很高的情形下, 都可以推估一篇文章的廣告數可以賺到 2~5 萬元以上, 而成本極低, 因為跟本不是原創或經過授權.

在這邊定義內容農場是, 依最新或最多分享的 10 篇文章中:

1. 有 8 篇以上不是原創, 也就是說有 3 篇是其站內作者署名原創.
2. 有 6 篇以上是宣稱授權, 也就是說有 5 篇是有獲得原作者的授權.

只要同時符合作兩個條件就才會被劃分內容農場, 這麼嚴格的定義還是有不少網站被劃為內容農場, 因為事實上本質上他們就是想賺 "Easy Money".

當然社群的 "眼球時間" 是有限的, 當內容農場賺取了不少流量與廣告, 相對的認真創作的網站就被剝奪了獲得收益的機會, 說內容農場沒在傷害是不可能的, 更何況大部份的內容都是 "錯誤" 的, 基本上都是以偏蓋全, 危言聳聽, 因為這樣才能夠獲得更多的分享與討論.

雖然現在已經幾個朋友宣稱, 只要他的朋友分享內容農場的文章就刪好友, 但還是有人持續的在分享這些網站, 因為有太多人沒有意識到他們在散播有問題的內容, 無論就內容或是型式上的.

或許要求內容農場不去賺 "Easy Money" 是不可能, 就像是要求販毒過的人不再販毒一樣, 他們會問你除了這方式外, 還有比這更好賺的嗎? 只是不一樣的是我們可以停止分享來讓他們的利益減少, 至少在動機上他們會少很多, 這比透過任何法律或道德方式都更有意義, 不是嗎?

LinkWithin

Related Posts Plugin for WordPress, Blogger...

熱門文章