科技 > 互聯(lián)網(wǎng) > 正文
字號:大 中 小
星圖數(shù)據(jù):雙11全網(wǎng)銷售數(shù)據(jù)直播背后的支撐者
- 發(fā)布時間:2014-11-25 09:00:48 來源:中國企業(yè)新聞網(wǎng) 責任編輯:書海
針對星圖數(shù)據(jù)CEO谷熠的采訪正好趕在“雙11”附近,這個鑄造中國電子商務一個新里程碑的同時,也留下了一串光輝的數(shù)字:星圖數(shù)據(jù)對這個一年一度的網(wǎng)絡購物狂歡進行了全網(wǎng)銷售數(shù)據(jù)直播。作為國內唯一一家對全網(wǎng)銷售情況直播的企業(yè),創(chuàng)始人兼CEO谷熠表示做到這些主要依賴兩點: 一是自身的數(shù)據(jù)獲取方式,區(qū)別于傳統(tǒng)的市場調研機構的”抽樣推總“方式,星圖數(shù)據(jù)利用”全網(wǎng)普查“方式獲取數(shù)據(jù);二是直播效率的問題,目前他們的直播僅有三個小時左右的延時,這是傳統(tǒng)方式完全無法做到的,而做到如此高的數(shù)據(jù)獲取和處理效率,主要還是依賴他們自主研發(fā)的iNebula和WarpEngine這兩套系統(tǒng)。
創(chuàng)立不到一年,已經(jīng)獲得A輪數(shù)百萬美元的融資,星圖數(shù)據(jù)已經(jīng)在幾個方面開始快速發(fā)展,其中主要包括更多領域的數(shù)據(jù)監(jiān)測、商務合作的推進以及新業(yè)務的研發(fā),后期會將更多精力放在打磨產(chǎn)品和擴充數(shù)據(jù)方面。以下是對谷熠的采訪實錄。
星圖數(shù)據(jù)創(chuàng)始人兼CEO 谷熠
CSDN:首先介紹下自己和星圖數(shù)據(jù),以及技術團隊情況如何?
谷熠:我是星圖數(shù)據(jù)的聯(lián)合創(chuàng)始人谷熠,現(xiàn)在在星圖數(shù)據(jù)擔任CEO一職。星圖數(shù)據(jù)(Syntun)是一家新銳的互聯(lián)網(wǎng)大數(shù)據(jù)服務公司,致力于大數(shù)據(jù)技術在消費領域的行業(yè)應用,專注于通過大數(shù)據(jù)的技術幫助傳統(tǒng)企業(yè)解決線上零售方面所遇到的實操問題。技術團隊目前在星圖數(shù)據(jù)占據(jù)70%以上的團隊規(guī)模,其中涵蓋了數(shù)據(jù)的采集、清理、模型計算、產(chǎn)品開發(fā)等環(huán)節(jié),數(shù)據(jù)處理的技術構成主要以Java、Hadoop為主,前端產(chǎn)品開發(fā)則采用了開發(fā)效率和靈活度都比較高的LNMP環(huán)境.
CSDN:你們目前的產(chǎn)品種類和業(yè)務方向如何?具體的應用場景有哪些?
谷熠:目前星圖數(shù)據(jù)主要專注于為傳統(tǒng)的品牌制造企業(yè)和渠道流通企業(yè)提供大數(shù)據(jù)解決方案。所提供的產(chǎn)品主要以SaaS+DaaS的形式提供,并且我們的產(chǎn)品區(qū)別于傳統(tǒng)的報告或者是數(shù)據(jù)庫的交付形式,主要針對企業(yè)日常工作流程中的職能與環(huán)節(jié),通過工具化和服務化的方式,幫助企業(yè)相關人員解決場景化的實操問題。
應用場景:以傳統(tǒng)的品牌制造企業(yè)為例,我們全流程地幫助企業(yè)在線上零售過程中的產(chǎn)品管理、渠道管理以及營銷管理等多方面解決問題。舉例來說,我們曾經(jīng)幫助一些傳統(tǒng)的品牌制造企業(yè)在產(chǎn)品的策劃和設計環(huán)節(jié)提供服務,通過對于消費者的評價評論的輿情反饋、消費者的購買習慣和選擇偏好等數(shù)據(jù),在一款產(chǎn)品的各個細分維度提供設計支持,打造真正符合線上消費者需求的單品。經(jīng)過該過程所設計生產(chǎn)的產(chǎn)品,至今依然是銷售名列前茅的明星單品。
CSDN:目前的客戶規(guī)模如何,有哪些重量級客戶?
谷熠:星圖數(shù)據(jù)目前主要服務的是傳統(tǒng)的品牌制造企業(yè)和渠道流通企業(yè),從2014年3月份開始進行市場推廣和商務拓展后,目前共服務了數(shù)十家企業(yè)。其中包括耐用消費品類的美的集團和快速消費品類的蒙牛等知名企業(yè)。
CSDN:目前國內外做大數(shù)據(jù)行業(yè)的企業(yè)很多,專注海量數(shù)據(jù)分析的也不少,相比其他,你們的優(yōu)勢何在 ?
谷熠:我認為競爭優(yōu)勢主要體現(xiàn)在以下幾個方面:
更懂技術:我們利用開源的Hadoop等技術,自主研發(fā)出iNebula(數(shù)據(jù)星云)大數(shù)據(jù)獲取和存儲系統(tǒng),以及WarpEngine(曲速引擎)大數(shù)據(jù)處理和分析引擎等具有自主知識產(chǎn)權的大數(shù)據(jù)系統(tǒng),構建了自有的大數(shù)據(jù)供應鏈。通過這套供應鏈系統(tǒng),極大地加強了數(shù)據(jù)的吞吐能力,提升了效率。因而能夠減少人工操作所帶來的延遲和風險,從而做到更為實時的數(shù)據(jù)供給。
更懂數(shù)據(jù):我們的團隊具有專業(yè)化的豐富的大數(shù)據(jù)處理的經(jīng)驗和能力,能夠通過系統(tǒng)化的方式,快速準確地進行數(shù)據(jù)的清洗、標準化、挖掘以及數(shù)據(jù)模型演算的過程,從而很大程度上提升了數(shù)據(jù)的準確性和可用性,并且將數(shù)據(jù)的顆粒度細化到SKU級別。
最重要的是我們更懂客戶:我們通過與上百家的傳統(tǒng)企業(yè)所進行的服務與接觸,深入地了解企業(yè)在線上零售方面整個的業(yè)務流程和所遇到的困難。這也是我們能夠設計出符合客戶需求的產(chǎn)品的最本源的出發(fā)點。
CSDN:據(jù)我了解,星圖數(shù)據(jù)作為唯一一家對“雙11”當天進行全網(wǎng)銷售情況直播的企業(yè),能否分享這背后的技術基礎?
谷熠:能夠做到在雙十一當天進行全網(wǎng)銷售情況的直播,主要依賴于以下2點。
一是我們自身的數(shù)據(jù)獲取方式的問題,我們區(qū)別于傳統(tǒng)的市場調研機構的”抽樣推總“方式,而是利用”全網(wǎng)普查“方式獲取數(shù)據(jù)。我們對于全網(wǎng)18家主流的綜合性B2C和垂直性B2C進行實時監(jiān)測,從而匯總出了我們所發(fā)布的全網(wǎng)銷售情況數(shù)據(jù)。二是直播效率的問題,目前來講我們的直播僅有三個小時左右的延時,這是傳統(tǒng)方式完全無法做到的。如此之高的數(shù)據(jù)獲取和處理效率,主要還是依賴于我們自主研發(fā)的iNebula和WarpEngine這兩套系統(tǒng),“零人工干預”的方式極大地提高了系統(tǒng)的效率。
iNebula是一套針對互聯(lián)網(wǎng)海量信息的實時監(jiān)測和數(shù)據(jù)獲取系統(tǒng),通過分布式解偶采集和智能解析,從常態(tài)監(jiān)控或定向的web頁面中提取結構化數(shù)據(jù),并通過動態(tài)地址池、智能任務路由、網(wǎng)絡環(huán)境自適應以及多樣化的數(shù)據(jù)校驗及存儲技術確保數(shù)據(jù)獲取的完整性和效率。目前iNebula平均每分鐘獲取的頁面數(shù)量為50000個以上,每日常態(tài)化獲取并存儲的互聯(lián)網(wǎng)數(shù)據(jù)超過3TB。
中臺的大數(shù)據(jù)處理及分析引擎WarpEngine,主要完成數(shù)據(jù)的清洗挖掘、QC和標準化、以及建模計算和語義分析。通過應用Hadoop平臺上的各項技術以及機器自學習技術,目前WarpEngine每分鐘處理的數(shù)據(jù)超過6000萬條。
星圖數(shù)據(jù)的云服務產(chǎn)品線目前已上線三款產(chǎn)品:D-Matrix、SkyScope及Atom.Power,主要采用主流的LNMP架構來提高產(chǎn)品系統(tǒng)的效率和擴展性,其中數(shù)據(jù)庫主從方式和Redis熱數(shù)據(jù)緩存的應用,使大數(shù)據(jù)產(chǎn)品在云端服務的承載量級更高、展現(xiàn)速度更快;而數(shù)據(jù)可視化部分使用了目前主流的Chart圖方式,讓數(shù)據(jù)的易用性更強,展現(xiàn)更加生動。
但是我們相信這仍然還有可提升的空間,我們希望在明年“雙11”的時候能夠通過和今年天貓采用的大屏直播的方式進行全網(wǎng)銷售情況的直播。
CSDN:能否介紹下星圖數(shù)據(jù)背后的技術架構和平臺打造歷程?
谷熠:星圖數(shù)據(jù)技術團隊的前身是2010年組建于美國加州的BDTAC團隊,核心來自于USC和CMU等高校,聚焦于大數(shù)據(jù)前沿技術及應用。星圖數(shù)據(jù)的國內研發(fā)團隊在2014年初組建完成后,在首席科學家糜萬軍博士的帶領下,基于美國團隊的技術研究和積累,歷經(jīng)數(shù)月的本土化和行業(yè)化,開發(fā)了現(xiàn)在星圖數(shù)據(jù)底層的大數(shù)據(jù)采集及存儲系統(tǒng)iNebula和中臺的大數(shù)據(jù)處理分析引擎WarpEngine兩個系統(tǒng)的里程碑版,并在此之上逐步研發(fā)了針對消費領域的企業(yè)云服務產(chǎn)品線。
CSDN:你們在Hadoop等開源技術實戰(zhàn)這一領域具有非常豐富的經(jīng)驗,有哪些經(jīng)驗可以分享給讀者?
谷熠:這個我們的技術人員也是通過不斷摸索、優(yōu)化來逐漸完善的。Hadoop做一款支持數(shù)據(jù)密集型分布式應用的開源軟件框架,配合其子項目使用,對于大數(shù)據(jù)的處理和模型計算是具有天生的優(yōu)勢的。但是最為一個開源軟件框架,它的版本更新頻率和是比較頻繁的,雖然版本更新帶來了更高的性能,特別是從1.x版本升級到2.x的大版本升級,改動比較大,我們的技術團隊也走了不少彎路。所以建議大家在獲得更新的版本和穩(wěn)定性兩方面做好平衡。
CSDN:站在客戶的角度,你覺得目前客戶們最關心的問題集中在哪些方面,你們有無應對之策?
谷熠:從我們和數(shù)百家的傳統(tǒng)企業(yè)的接觸來看,我們認為目前我們的客戶,尤其是傳統(tǒng)的品牌制造企業(yè)客戶核心關注的問題實際上是如何完成自己內部工作流程和方式的轉型升級。企業(yè)已經(jīng)越來越從銷售結果導向,開始轉為消費者導向了。這正好符合星圖數(shù)據(jù)所構建的數(shù)據(jù)體系,即零售數(shù)據(jù)體系和消費者數(shù)據(jù)體系。我們所追求的正是這兩套體系的打通,從而完成從企業(yè)到消費者的完整閉環(huán)。舉例來說,企業(yè)可以通過消費者數(shù)據(jù)進行所有的生產(chǎn)、銷售和營銷的決策,并最終通過銷售數(shù)據(jù)來進行驗證和考核。
CSDN:國內外目前的大數(shù)據(jù)分析領域發(fā)展趨勢如何?星圖未來有哪些計劃能透露下嗎?
谷熠:大數(shù)據(jù)領域無疑是最近幾年最為火熱的領域,越來越多的企業(yè)開始意識到大數(shù)據(jù)的重要性,也有越來越多的企業(yè)開始投身于大數(shù)據(jù)服務的浪潮之中。從個人角度來講,我認為無論服務的目標對象是誰,都需要充分地了解你所服務的對象,了解他的業(yè)務流程、使用方式、應用場景以及所遇到的問題等等。只有深入了解你的目標對象,才有可能實現(xiàn)蘊藏在海量數(shù)據(jù)背后真正的大數(shù)據(jù)價值。大數(shù)據(jù)時代的到來,數(shù)據(jù)量的極大豐富,導致了數(shù)據(jù)價值密度的降低,因此,更需要有真正懂得大數(shù)據(jù)規(guī)律的企業(yè)來起到提煉價值、貢獻價值的作用。星圖數(shù)據(jù)也正在朝著這個方向努力。
中國創(chuàng)新“先鋒”企業(yè)系列報道 | |||||
序號 | 公司名稱 | 成立時間 | CEO/CTO | 官方微博 | 公司產(chǎn)品/方向 |
---|---|---|---|---|---|
1. | 云適配 | 2012年 | 陳本峰 | 網(wǎng)站適配 | |
2. | 友友 | 2010年 | 姚宏宇 | @友友微博 | C、C++、Java產(chǎn)品研發(fā) |
3. | 聚合數(shù)據(jù) | 2010年 | 左磊 | @聚合數(shù)據(jù) | 移動數(shù)據(jù)服務 |
4. | Anchora | 2009年 | 魯為民 | MoPaaS和InPaaS | |
5. | 夠快 | 2012年 | 蔣爍淼 | @夠快科技 | 云存儲 |
6. | 文思海輝 | 2012年 | 吳凱 | @文思海輝 | OpenStack公有云 |
7. | 搜狐云 | 2011年 | 邱英波 | SendCloud | |
8. | 聯(lián)想云存儲 | 2009年 | 羅予晉 | 云存儲 | |
9. | 南京訊之智 | 2012年 | 謝晚霞 | 大數(shù)據(jù)實時分析 | |
10. | 上海圣何賽 | 2012年 | 金劍 | 云管理、云存儲 | |
11. | 國云科技 | 2010年 | 季統(tǒng)凱 | @國云科技 | 云操作系統(tǒng) |
12. | SSO365 | 2012年 | 趙健 | 云安全、云身份認證 | |
13. | ClouDil云方案 | 2001年 | 葉濱 | @世紀鼎利 | 通信運營商 |
14. | 多備份 | 2013年 | 胡茂華 | @木浪 | 云備份 |
15. | 上海越誠軟件 | 2011年 | 王煒 | 基于云的建站軟件超市 | |
16. | 云智慧 | 2009年 | 殷晉 | @監(jiān)控寶 | 云監(jiān)控、基于大數(shù)據(jù)APM |
17. | 深圳澤云 | 2012年 | 何巨彬 | 高性能存儲系統(tǒng) | |
18. | 深圳智冠 | 2004年 | 盧慧莉 | 手靜脈生物識別、虛擬化 | |
19. | 北京沃安科技 | 2009年 | 曹學武 | @沃安科技 | 移動視頻技術提供商 |
20. | 星環(huán)信息科技 | 2013年 | 孫元浩 | @星環(huán)科技 | 大數(shù)據(jù)分析平臺 |
21. | 杭州數(shù)云 | 2011年 | 宣曉華 | @杭州數(shù)云 | 數(shù)據(jù)挖掘 |
22. | 紅象云騰 | 2012年 | 童小軍 | @RedHadoop | 基于Hadoop大數(shù)據(jù)平臺 |
23. | APICloud | 2013年 | 鄒達 | @APICloud | 云API和端API |
24. | SequoiaDB | 2012年 | 王濤 | @SequoiaDB | 大數(shù)據(jù)、云計算、NoSQL |
25. | Syscloud | 2012年 | 張雄國 | 云主機虛擬數(shù)據(jù)中心 | |
26. | 易思捷 | 2008年 | 楊炳富 | @易思捷虛擬化和云計算 | 數(shù)據(jù)中心,虛擬化 |
27. | 親加通訊云 | 2011年 | 須澤中 | @親加通訊云 | 通訊云 |
28. | OneAPM | 2008年 | 何曉陽 | @藍海訊通OneAPM | 基于SaaS平臺的APM |
29. | TalkingData | 2011年 | 崔曉波 | @Talkingdata | 移動大數(shù)據(jù)平臺 |
30. | 北森 | 2002年 | 紀偉國 | @北森官方微博 | 互聯(lián)網(wǎng)人才管理軟件 |
31. | 聽云 | 2007年 | Wood Chen | @聽云 | 基于SaaS的APM |
32. | 萬國數(shù)據(jù) | 2000年 | 黃偉 | @萬國數(shù)據(jù) | 高可用IT服務提供商 |
33. | 思明軟件 | 2013年 | 馮是聰 | @思明軟件 | 大數(shù)據(jù)分析 |
34. | 七牛云存儲 | 2011年 | 許式偉 | @七牛云存儲 | 云存儲 |
35. | 星圖數(shù)據(jù) | 2014年 | 谷熠 | @星圖數(shù)據(jù) | 數(shù)據(jù)挖掘 |
備注:2014年11月25日更新,持續(xù)更新中......