關於Big Data
這兩天看到兩位學長們寫的,關於Big Data的好文,貼在最這邊分享給大家
翟本喬學長寫的「IoT 和 Big Data 商機的迷思」
https://www.facebook.com/notes/ben-jai/iot-%E5%92%8C-big-data-%E5%95%86%E6%A9%9F%E7%9A%84%E8%BF%B7%E6%80%9D/10151577263144113
洪士灝學長寫的
「Big Data技術是台灣的未來?是有機會的,但是不要編神話好嗎?」
http://hungsh-ntucsie.blogspot.tw/2013/04/big-data.html
「什麼是Big Data研究」
http://hungsh-ntucsie.blogspot.tw/2013/04/big-data_18.html
我自己也想發表點簡單的意見,我才疏學淺,見識遠不及學長們,只是說說自己的經驗和想法
我接觸Big Data是在Facebook加入第一個組:Data Infrastructure的時候,在這個組我做的是Hadoop的開發,我是Facebook早期從事Hadoop開發的人員之一,Facebook有兩個重要的Hadoop項目:HDFS-RAID和Corona我都有參與,寫了不少的程式(見註一)。我也是第一個Facebook自己培養出來的Hadoop Committer(見註二),也實際操作過數千台的Hadoop機群
我現在沒有在從事Hadoop本身開發了,但是現在在的Search Team使用Hadoop來建立索引,是Hadoop的上層重度使用者。總之我對Big Data是有一些背景的,從底層怎麼實作、管理到最上層如何使用都有一些了解
什麼是Big Data?我想簡單的說就是資料太大,大到一台機器沒辦法放下,要用幾十、甚至幾千台電腦來放,資料放在分散的機器上面,計算和儲存上面跟以前非常不同,所以有很多新的技術問題。Hadoop只是其中一個處理Big Data的軟體,還有很多其他的軟體,只是Hadoop是免費的開放程式碼,又有Yahoo、Facebook、Twitter、Netflix這些大公司在使用、支援,所以非常流行。才會讓大家有一個印象認為Big Data就是Hadoop
我覺得Big Data這幾年會變這麼紅,我想主要是因為分散式系統有很多有趣的問題,所以學術界非常喜愛,因為可以出很多paper。另一個因素是Internet巨頭們的掘起,Internet巨頭們都是Big Data的使用者,大家對Internet巨頭的關注也捧紅了Big Data這個詞
Internet公司有非常非常多的資料,因為網站可以不停的收集資料,使用資料來改善產品。資料對Internet巨頭們來說是非常重要的資產,網路應用跟傳統應用軟體一個很大不同的地方就是網路應用可以即時收集使用者資料,使用它來分析進而做出改進,而且網站能在很短時間內把這些改進佈署更新,這些是傳統單機軟體沒辦法做到的事情。除了Internet巨頭之外,其他可能會收集很多資料的公司,例如物流巨頭Walmart,也有Big Data的需求
美國有不少Big Data Solution的公司,特別是有很多新創公司。比較大間的是Hortonworks和Cloudera這兩間,Hortonworks是Yahoo的spin-off裡面的人都是原來Hadoop的開發人員,Cloudera則是有Hadoop的Founder坐鎮,我以前做Hadoop的時候和這兩家公司的人都有一些接觸,這兩家公司裡面的人都非常強,工程師的素質不亞於Google、Facebook這些名門大派。這兩家公司賺錢的主要方法,是賣Hadoop週邊的管理、監控軟體、維修服務,還有賣Hadoop的訓練和認證。我還有看到一些新創公司,則是賣Hadoop上層的工具,像是Hive或是更上層business logic的軟體
巨頭公司們都有自己養很多做Hadoop的小兵,所以不會用到這幾家公司的Solution。會用到他們東西的,都是一些中型的公司,或是不擅長軟體的公司。再來很小的公司也用不到這些東西,小公司沒有那麼多的資料需要放到分散式系統
另一種賺錢的方法就是提供平台租用的服務,這方面最成功的就是Amazon,你可以在Amazon AWS上面存很多資料然後跑Hadoop,這樣就不用自己養很多機器。我自己沒有實際用過,不過我猜想這應該是你已經把網路服務放在AWS上面才會好用(像是Netflix、Dropbox等等公司),不然你還要另外把自己的資料上傳到AWS上面才行
台灣要怎麼在Big Data上賺錢?
台灣強項是硬體,但近年來大家了解硬體比較不容易賺錢。我想不好賺的原因主要在沒有差異性:如果我賣一個記憶體跟你賣一個記憶體,都長得一模一樣,就沒什麼好比了,只好比價錢,只比價錢的結果就變成一個完全競爭的市場,最後沒有利潤可賺。一般而言,愈低層的東西就愈沒有差異性,愈不好賺,尤其是那些照著標準做出來的東西,幾乎沒有差異性可言
台灣如果想在Big Data上賺錢,應該想辦法去做軟體或是服務。台灣有硬體上的優勢,我猜比較有可能做的就是仗著這方面的優勢去做平台服務或是做一些週邊軟體跟硬體一起賣(當然前題是要做到真正好用,不要做得像有些筆電裡面預裝的爛軟體)增加硬體的附加價值,也順便培養自己軟體的實力。不過我要強調這只是我天真的想法,事實上我對這方面的了解非常淺,我只是一個工人
不知不覺寫這麼長,我自己快累死了,如果你能看到這裡都沒跳,我給你一個讚
註一:
http://pinky-monkey.blogspot.com/2012/11/blog-post.html
註二:
http://pinky-monkey.blogspot.com/2010/09/hadoop-committer.html
(此圖為Hadoop Logo)
翟本喬學長寫的「IoT 和 Big Data 商機的迷思」
https://www.facebook.com/notes/ben-jai/iot-%E5%92%8C-big-data-%E5%95%86%E6%A9%9F%E7%9A%84%E8%BF%B7%E6%80%9D/10151577263144113
洪士灝學長寫的
「Big Data技術是台灣的未來?是有機會的,但是不要編神話好嗎?」
http://hungsh-ntucsie.blogspot.tw/2013/04/big-data.html
「什麼是Big Data研究」
http://hungsh-ntucsie.blogspot.tw/2013/04/big-data_18.html
我自己也想發表點簡單的意見,我才疏學淺,見識遠不及學長們,只是說說自己的經驗和想法
我接觸Big Data是在Facebook加入第一個組:Data Infrastructure的時候,在這個組我做的是Hadoop的開發,我是Facebook早期從事Hadoop開發的人員之一,Facebook有兩個重要的Hadoop項目:HDFS-RAID和Corona我都有參與,寫了不少的程式(見註一)。我也是第一個Facebook自己培養出來的Hadoop Committer(見註二),也實際操作過數千台的Hadoop機群
我現在沒有在從事Hadoop本身開發了,但是現在在的Search Team使用Hadoop來建立索引,是Hadoop的上層重度使用者。總之我對Big Data是有一些背景的,從底層怎麼實作、管理到最上層如何使用都有一些了解
什麼是Big Data?我想簡單的說就是資料太大,大到一台機器沒辦法放下,要用幾十、甚至幾千台電腦來放,資料放在分散的機器上面,計算和儲存上面跟以前非常不同,所以有很多新的技術問題。Hadoop只是其中一個處理Big Data的軟體,還有很多其他的軟體,只是Hadoop是免費的開放程式碼,又有Yahoo、Facebook、Twitter、Netflix這些大公司在使用、支援,所以非常流行。才會讓大家有一個印象認為Big Data就是Hadoop
我覺得Big Data這幾年會變這麼紅,我想主要是因為分散式系統有很多有趣的問題,所以學術界非常喜愛,因為可以出很多paper。另一個因素是Internet巨頭們的掘起,Internet巨頭們都是Big Data的使用者,大家對Internet巨頭的關注也捧紅了Big Data這個詞
Internet公司有非常非常多的資料,因為網站可以不停的收集資料,使用資料來改善產品。資料對Internet巨頭們來說是非常重要的資產,網路應用跟傳統應用軟體一個很大不同的地方就是網路應用可以即時收集使用者資料,使用它來分析進而做出改進,而且網站能在很短時間內把這些改進佈署更新,這些是傳統單機軟體沒辦法做到的事情。除了Internet巨頭之外,其他可能會收集很多資料的公司,例如物流巨頭Walmart,也有Big Data的需求
美國有不少Big Data Solution的公司,特別是有很多新創公司。比較大間的是Hortonworks和Cloudera這兩間,Hortonworks是Yahoo的spin-off裡面的人都是原來Hadoop的開發人員,Cloudera則是有Hadoop的Founder坐鎮,我以前做Hadoop的時候和這兩家公司的人都有一些接觸,這兩家公司裡面的人都非常強,工程師的素質不亞於Google、Facebook這些名門大派。這兩家公司賺錢的主要方法,是賣Hadoop週邊的管理、監控軟體、維修服務,還有賣Hadoop的訓練和認證。我還有看到一些新創公司,則是賣Hadoop上層的工具,像是Hive或是更上層business logic的軟體
巨頭公司們都有自己養很多做Hadoop的小兵,所以不會用到這幾家公司的Solution。會用到他們東西的,都是一些中型的公司,或是不擅長軟體的公司。再來很小的公司也用不到這些東西,小公司沒有那麼多的資料需要放到分散式系統
另一種賺錢的方法就是提供平台租用的服務,這方面最成功的就是Amazon,你可以在Amazon AWS上面存很多資料然後跑Hadoop,這樣就不用自己養很多機器。我自己沒有實際用過,不過我猜想這應該是你已經把網路服務放在AWS上面才會好用(像是Netflix、Dropbox等等公司),不然你還要另外把自己的資料上傳到AWS上面才行
台灣要怎麼在Big Data上賺錢?
台灣強項是硬體,但近年來大家了解硬體比較不容易賺錢。我想不好賺的原因主要在沒有差異性:如果我賣一個記憶體跟你賣一個記憶體,都長得一模一樣,就沒什麼好比了,只好比價錢,只比價錢的結果就變成一個完全競爭的市場,最後沒有利潤可賺。一般而言,愈低層的東西就愈沒有差異性,愈不好賺,尤其是那些照著標準做出來的東西,幾乎沒有差異性可言
台灣如果想在Big Data上賺錢,應該想辦法去做軟體或是服務。台灣有硬體上的優勢,我猜比較有可能做的就是仗著這方面的優勢去做平台服務或是做一些週邊軟體跟硬體一起賣(當然前題是要做到真正好用,不要做得像有些筆電裡面預裝的爛軟體)增加硬體的附加價值,也順便培養自己軟體的實力。不過我要強調這只是我天真的想法,事實上我對這方面的了解非常淺,我只是一個工人
不知不覺寫這麼長,我自己快累死了,如果你能看到這裡都沒跳,我給你一個讚
註一:
http://pinky-monkey.blogspot.com/2012/11/blog-post.html
註二:
http://pinky-monkey.blogspot.com/2010/09/hadoop-committer.html
(此圖為Hadoop Logo)
留言
微軟寫出office, 並沒有禁止別人也寫出office類的系統. 大家都做類office系統導致惡性競爭的現象為什麼就沒有發生? 我想應該有更深的原因而不是差異性的問題.
硬碟和記憶體還是能有些差異,例如轉速、省電之類的性質,但是它們沒辦法千變萬化,因為他們上層的介面是固定的:插上每台電腦都要能用。低層的硬體為了要能連接其他硬體,必須要根據標準製作
這種照標準製作的東西利潤就很難高,除非就只有你一家能做得出來,或是你一家有方法做到比別人便宜許多
至於抄像Facebook、Google這樣的網站服務就更不可能,除了使用者群聚的效應,另外一點就是資料收集,這些大網站都已經收集很多使用者資料,有很多基於這上面的智慧,例如Google可以用query log幫你做query completion, 還有介面上看不見的排序演算法已經受過使用者多年的訓練,這些東西根本就抄不出來。Google介面誰都會抄,而且crawler現在高中生都能寫了,但是誰做得出一個像Google search這種有水準的東西
我覺得討論軟體服務能不能抄,也已經離開原先的討論的,原先您的問題是為什麼硬體比軟體沒有差異性。我想我回答的已經很清楚了,低層的東西因為介面較為簡單固定,所以能做得變化較少,上層的東西介面會愈來愈複雜,尤其是應用層直接面對消費者的介面,可以靈活變化
pinky 說的硬體是指台灣一般的硬體製造商(如代工與零組件),因為零組件通常都有背後的規格支持,所以要保證彼此的互換性,以至於不太容易做出差異性。
而 Li-Jen 所說的我猜是就是面對消費者的硬體,差異化滿大的且有品牌效應,縱使是同個類別,常常每個人的選擇也都不同(外觀,非規格化的效能等)。
不過,就算是制式化規格的零組件,也是有人可以做的突出(如 intel 在 cpu),縱使是其實可以很靈活變化的軟體,也是會有最後每個都差不多的時候。(如我們公司產品的類別,wechat, line, kakao 其實都差不多)
我不覺得這「更能解釋」這裡的問題,我講到那些事只是想回答你Facebook和Office能不能抄的事情,跟原來文章根本無關
差異性的確是一個重要的因素,特別是台灣做的硬體大多是代工或是零組件,差異性很小,例如像面板、記憶體這類東西。台灣在這上面投資很多資源,但這些東西因為差異性低而淪為完全競爭的市場,變成大家殺價搶市,我只是想表達這點
你舉的iPhone也不算單純的硬體,iPhone是硬體加上作業系統、應用軟體、加上服務所組成的一個產品,如果它只是一個硬體,你開機都開不起來,更不用說上App Store下載應用。這也是我在文章裡面想說的,不純是賣硬體,而是加上軟體和服務
我實在不了解你問這些問題的重點,我覺得這些討論非常離題。是我說「硬體沒有差異性」惹到你了嗎?或許我應該改成說「台灣目前所生產的硬體,大多沒有差異性」這樣應該比較政治正確一點,我覺得大家基本上都有共識,只是對某些詞定義不同吧
「台灣強項是硬體,但近年來大家了解硬體比較不容易賺錢。我想不好賺的原因主要在沒有差異性:如果我賣一個記憶體跟你賣一個記憶體,都長得一模一樣,就沒什麼好比了,只好比價錢,只比價錢的結果就變成一個完全競爭的市場,最後沒有利潤可賺。一般而言,愈低層的東西就愈沒有差異性,愈不好賺,尤其是那些照著標準做出來的東西,幾乎沒有差異性可言」
> 台灣已經投資了太多年的hardware,要轉型是很困難的,成也蕭何,敗也蕭何。
很有道理,因為好人才都做硬體去了,所以軟體搞不起來,這是真的,台大電機最強的同學大部分都在MTK。這種排擠效應才是台灣軟體這麼弱的原因
Li-Jen Chu:
說硬體不好賺錢是我的觀察,並無惡意。或許我應該改成說是軟體產業掘起,但是在美國,尤其是舊金山灣區,許多硬體公司情況很糟是一個普遍的事實
我以後會謹慎用詞,我知道台灣很多人在這方面努力,不想潑大家冷水
Ans: "parallel world"