2013年4月20日 星期六

關於Big Data

這兩天看到兩位學長們寫的,關於Big Data的好文,貼在最這邊分享給大家

翟本喬學長寫的「IoT 和 Big Data 商機的迷思」
https://www.facebook.com/notes/ben-jai/iot-%E5%92%8C-big-data-%E5%95%86%E6%A9%9F%E7%9A%84%E8%BF%B7%E6%80%9D/10151577263144113

洪士灝學長寫的
「Big Data技術是台灣的未來?是有機會的,但是不要編神話好嗎?」

http://hungsh-ntucsie.blogspot.tw/2013/04/big-data.html
「什麼是Big Data研究」
http://hungsh-ntucsie.blogspot.tw/2013/04/big-data_18.html


我自己也想發表點簡單的意見,我才疏學淺,見識遠不及學長們,只是說說自己的經驗和想法

我接觸Big Data是在Facebook加入第一個組:Data Infrastructure的時候,在這個組我做的是Hadoop的開發,我是Facebook早期從事Hadoop開發的人員之一,Facebook有兩個重要的Hadoop項目:HDFS-RAID和Corona我都有參與,寫了不少的程式(見註一)。我也是第一個Facebook自己培養出來的Hadoop Committer(見註二),也實際操作過數千台的Hadoop機群

我現在沒有在從事Hadoop本身開發了,但是現在在的Search Team使用Hadoop來建立索引,是Hadoop的上層重度使用者。總之我對Big Data是有一些背景的,從底層怎麼實作、管理到最上層如何使用都有一些了解

什麼是Big Data?我想簡單的說就是資料太大,大到一台機器沒辦法放下,要用幾十、甚至幾千台電腦來放,資料放在分散的機器上面,計算和儲存上面跟以前非常不同,所以有很多新的技術問題。Hadoop只是其中一個處理Big Data的軟體,還有很多其他的軟體,只是Hadoop是免費的開放程式碼,又有Yahoo、Facebook、Twitter、Netflix這些大公司在使用、支援,所以非常流行。才會讓大家有一個印象認為Big Data就是Hadoop

我覺得Big Data這幾年會變這麼紅,我想主要是因為分散式系統有很多有趣的問題,所以學術界非常喜愛,因為可以出很多paper。另一個因素是Internet巨頭們的掘起,Internet巨頭們都是Big Data的使用者,大家對Internet巨頭的關注也捧紅了Big Data這個詞

Internet公司有非常非常多的資料,因為網站可以不停的收集資料,使用資料來改善產品。資料對Internet巨頭們來說是非常重要的資產,網路應用跟傳統應用軟體一個很大不同的地方就是網路應用可以即時收集使用者資料,使用它來分析進而做出改進,而且網站能在很短時間內把這些改進佈署更新,這些是傳統單機軟體沒辦法做到的事情。除了Internet巨頭之外,其他可能會收集很多資料的公司,例如物流巨頭Walmart,也有Big Data的需求

美國有不少Big Data Solution的公司,特別是有很多新創公司。比較大間的是Hortonworks和Cloudera這兩間,Hortonworks是Yahoo的spin-off裡面的人都是原來Hadoop的開發人員,Cloudera則是有Hadoop的Founder坐鎮,我以前做Hadoop的時候和這兩家公司的人都有一些接觸,這兩家公司裡面的人都非常強,工程師的素質不亞於Google、Facebook這些名門大派。這兩家公司賺錢的主要方法,是賣Hadoop週邊的管理、監控軟體、維修服務,還有賣Hadoop的訓練和認證。我還有看到一些新創公司,則是賣Hadoop上層的工具,像是Hive或是更上層business logic的軟體

巨頭公司們都有自己養很多做Hadoop的小兵,所以不會用到這幾家公司的Solution。會用到他們東西的,都是一些中型的公司,或是不擅長軟體的公司。再來很小的公司也用不到這些東西,小公司沒有那麼多的資料需要放到分散式系統

另一種賺錢的方法就是提供平台租用的服務,這方面最成功的就是Amazon,你可以在Amazon AWS上面存很多資料然後跑Hadoop,這樣就不用自己養很多機器。我自己沒有實際用過,不過我猜想這應該是你已經把網路服務放在AWS上面才會好用(像是Netflix、Dropbox等等公司),不然你還要另外把自己的資料上傳到AWS上面才行

台灣要怎麼在Big Data上賺錢?

台灣強項是硬體,但近年來大家了解硬體比較不容易賺錢。我想不好賺的原因主要在沒有差異性:如果我賣一個記憶體跟你賣一個記憶體,都長得一模一樣,就沒什麼好比了,只好比價錢,只比價錢的結果就變成一個完全競爭的市場,最後沒有利潤可賺。一般而言,愈低層的東西就愈沒有差異性,愈不好賺,尤其是那些照著標準做出來的東西,幾乎沒有差異性可言

台灣如果想在Big Data上賺錢,應該想辦法去做軟體或是服務。台灣有硬體上的優勢,我猜比較有可能做的就是仗著這方面的優勢去做平台服務或是做一些週邊軟體跟硬體一起賣(當然前題是要做到真正好用,不要做得像有些筆電裡面預裝的爛軟體)增加硬體的附加價值,也順便培養自己軟體的實力。不過我要強調這只是我天真的想法,事實上我對這方面的了解非常淺,我只是一個工人

不知不覺寫這麼長,我自己快累死了,如果你能看到這裡都沒跳,我給你一個讚


註一:
http://pinky-monkey.blogspot.com/2012/11/blog-post.html

註二:
http://pinky-monkey.blogspot.com/2010/09/hadoop-committer.html

(此圖為Hadoop Logo)

17 則留言:

Julian's BS 提到...

有點好奇為什麼軟體就能有差異性?
微軟寫出office, 並沒有禁止別人也寫出office類的系統. 大家都做類office系統導致惡性競爭的現象為什麼就沒有發生? 我想應該有更深的原因而不是差異性的問題.

pinky 提到...

我寫office跟你寫的office絕對沒辬法寫得一模一通,你在市面上有看到那家產品長得跟office一模一樣的。但是記憶體、硬碟這些東西,每個都一模一樣!

pinky 提到...

我想我說得不夠詳細

硬碟和記憶體還是能有些差異,例如轉速、省電之類的性質,但是它們沒辦法千變萬化,因為他們上層的介面是固定的:插上每台電腦都要能用。低層的硬體為了要能連接其他硬體,必須要根據標準製作

這種照標準製作的東西利潤就很難高,除非就只有你一家能做得出來,或是你一家有方法做到比別人便宜許多

Julian's BS 提到...

我認為當初office第一代推出時, 要寫一個一模一樣的office軟體絕對是不難的. 連UI都用螢幕截圖可以做到一模一樣. 而facebook出來後, 大陸那裡也能模彷做出人人網之類的網站, 也很成功. 感覺是在軟體界比較不流行去模彷別人的行為, 但是原因並不在於難以模彷. 以facebook的例子來說大陸因為有網路管制所以造成裡面的市場facebook搶不走, 於是立刻就出現模彷者.

Julian's BS 提到...

而且M$其實並沒有公開.doc格式, 目的也在於避免有人模彷, 以致於OpenOffice對doc格式的支援必需自己摸索, 導致功能不全而無法與M$競爭. 在這裡來說並不是因為無法模彷, 而是因為一個常用的格式被一家大公司獨佔. 這在硬體裡面也會出現, 例如說通訊的protocol以及連接埠的制定.

pinky 提到...

不管公不公開.doc格式,我覺得OpenOffice也沒辦法做得像Microsoft Office一樣的水準,Microsoft這家公司有十萬個員工,那是OpenOffice比得上的。現在軟體都能更新速度很快,即使有那個資源能抄得了這麼複雜的東西,也沒辦法這麼快速的跟上所有改版

至於抄像Facebook、Google這樣的網站服務就更不可能,除了使用者群聚的效應,另外一點就是資料收集,這些大網站都已經收集很多使用者資料,有很多基於這上面的智慧,例如Google可以用query log幫你做query completion, 還有介面上看不見的排序演算法已經受過使用者多年的訓練,這些東西根本就抄不出來。Google介面誰都會抄,而且crawler現在高中生都能寫了,但是誰做得出一個像Google search這種有水準的東西

我覺得討論軟體服務能不能抄,也已經離開原先的討論的,原先您的問題是為什麼硬體比軟體沒有差異性。我想我回答的已經很清楚了,低層的東西因為介面較為簡單固定,所以能做得變化較少,上層的東西介面會愈來愈複雜,尤其是應用層直接面對消費者的介面,可以靈活變化

馮彥文 提到...

我覺得硬體這類別太大,只要分 “面對消費者的硬體”與 “零組件或規格化硬體” 就可以滿足兩位的看法。

pinky 說的硬體是指台灣一般的硬體製造商(如代工與零組件),因為零組件通常都有背後的規格支持,所以要保證彼此的互換性,以至於不太容易做出差異性。

而 Li-Jen 所說的我猜是就是面對消費者的硬體,差異化滿大的且有品牌效應,縱使是同個類別,常常每個人的選擇也都不同(外觀,非規格化的效能等)。

不過,就算是制式化規格的零組件,也是有人可以做的突出(如 intel 在 cpu),縱使是其實可以很靈活變化的軟體,也是會有最後每個都差不多的時候。(如我們公司產品的類別,wechat, line, kakao 其實都差不多)

pinky 提到...

樓上中肯

Julian's BS 提到...

因為你文章中說硬體不好賺錢的主要問題是差異性. 但如你自己所說, 其實群聚效應(whatever it is)或是資料收集(算是一種economy of scale吧)更能解釋這裡的問題. 但當初如果office出第一代時, 或是google第一個版本問世時, 或是facebook一開始類似hot or not的時候, 其實他們的演算法或是資料量都很小, 並不是不能抄, 你現在所看到的攏斷那是在長期沒有競爭者下造成的資源與經驗累積, 並不能當做是一開始無法模彷的藉口. 而且我認為硬體要做出差異性也不難, 像是iphone, ipod就是最有名的例子. 所以我認為不是硬體沒有辦法賺大錢, 只是人太沒有創意而已.

pinky 提到...

> 因為你文章中說硬體不好賺錢的主要問題是差異性. 但如你自己所說, 其實群聚效應(whatever it is)或是資料收集(算是一種economy of scale吧)更能解釋這裡的問題

我不覺得這「更能解釋」這裡的問題,我講到那些事只是想回答你Facebook和Office能不能抄的事情,跟原來文章根本無關

差異性的確是一個重要的因素,特別是台灣做的硬體大多是代工或是零組件,差異性很小,例如像面板、記憶體這類東西。台灣在這上面投資很多資源,但這些東西因為差異性低而淪為完全競爭的市場,變成大家殺價搶市,我只是想表達這點

你舉的iPhone也不算單純的硬體,iPhone是硬體加上作業系統、應用軟體、加上服務所組成的一個產品,如果它只是一個硬體,你開機都開不起來,更不用說上App Store下載應用。這也是我在文章裡面想說的,不純是賣硬體,而是加上軟體和服務

我實在不了解你問這些問題的重點,我覺得這些討論非常離題。是我說「硬體沒有差異性」惹到你了嗎?或許我應該改成說「台灣目前所生產的硬體,大多沒有差異性」這樣應該比較政治正確一點,我覺得大家基本上都有共識,只是對某些詞定義不同吧

pinky 提到...

我再把我寫的這段重貼一次(雖然就在上面)

「台灣強項是硬體,但近年來大家了解硬體比較不容易賺錢。我想不好賺的原因主要在沒有差異性:如果我賣一個記憶體跟你賣一個記憶體,都長得一模一樣,就沒什麼好比了,只好比價錢,只比價錢的結果就變成一個完全競爭的市場,最後沒有利潤可賺。一般而言,愈低層的東西就愈沒有差異性,愈不好賺,尤其是那些照著標準做出來的東西,幾乎沒有差異性可言」

BradX 提到...

我個人的觀察還是一樣,台灣數理邏輯好最強的人才都出國了(像pinky),次佳好的軟體人才或可以轉化的數理邏輯超人都去硬件廠裏面調software/firmware了,例如MTK TSMC之類領高薪股票,一般軟體公司根本不可能用低薪請到優秀人才,就更別說能有了不起的創新了。人才才是決定軟體的發展基礎。大陸不一樣,因為賺錢的大公司太多,如百度淘寶華為騰訊就業機會很多,薪資待遇很好,好大學的畢業生待遇普遍不比臺清交電機碩士差,注意,是大學生vs碩士。於是就有很多腦子好的人會拼命轉化為software engineer。台灣已經投資了太多年的hardware,要轉型是很困難的,成也蕭何,敗也蕭何。

Julian's BS 提到...

即使是硬體也能做出很有用的東西, 不代表不能跟軟體結合. 但你說"近年來大家了解硬體比較不容易賺錢", 好像硬體就做不出好東西一樣, 這點惹到我. 但舉ipod的例子來說, ipod其實在軟體方面並不算是很出色, 當初還不是靠大家都不願意做的觸控還有高容量的硬碟才做出差異性? 台灣既然有硬體的實力, 就應該要把硬體和軟體結合, 而不是說硬體就不容易賺錢這樣. 你提到低階硬體的問題, 但是不代表高階的硬體不行啊.

Julian's BS 提到...

另一個我的重點就是, 我認為你用"差異性"這三個字去解釋兩種產業的不同是過於簡化, 甚至可能完全錯誤, 就像說什麼朝代滅亡是因為君王無德一樣, 若後人真的相信這種說法, 那永遠不會知道朝代真正滅亡的原因. 這樣說容易誤導別人.

pinky 提到...

BradX:
> 台灣已經投資了太多年的hardware,要轉型是很困難的,成也蕭何,敗也蕭何。

很有道理,因為好人才都做硬體去了,所以軟體搞不起來,這是真的,台大電機最強的同學大部分都在MTK。這種排擠效應才是台灣軟體這麼弱的原因


Li-Jen Chu:
說硬體不好賺錢是我的觀察,並無惡意。或許我應該改成說是軟體產業掘起,但是在美國,尤其是舊金山灣區,許多硬體公司情況很糟是一個普遍的事實

我以後會謹慎用詞,我知道台灣很多人在這方面努力,不想潑大家冷水

Julian's BS 提到...

其實我自己不是做硬體的, 只是覺得軟硬結合在市場上還有很多發展空間. 像Kickstarter上面很多東西都是包含硬體的, 而3D printer也算是很有潛力的東西. 軟體主要是因為入門的成本低, 但是跟國外比起來我們有做硬體的能力, 也許往不同的方向發展也能有一片天地啦.

Brian 提到...

To: Li-Jen Chu
Ans: "parallel world"

再聊 Apple Tax

再聊 Apple Tax . . 上週寫了關於 Apple 法院禁令的評論,我還有一些想法想補充 . 前情題要連結 https://www.facebook.com/productiveguy/posts/236683771799118 . . == 題外話 . 上週寫了 App...