預(yù)測(cè)——數(shù)據(jù)分析的終極目標(biāo)
預(yù)測(cè)是數(shù)據(jù)分析的終極目的
預(yù)測(cè)的必要性和誤差的必然性
經(jīng)驗(yàn)預(yù)測(cè)法
類比預(yù)測(cè)法
慣性法與時(shí)間序列分析
邏輯關(guān)系預(yù)測(cè)法
1.5?慣性法與時(shí)間序列分析
慣性預(yù)測(cè)法是根據(jù)事物發(fā)展的慣性進(jìn)行預(yù)測(cè),其中最典型的就是趨勢(shì)分析。炒股的人除要看基本的股指點(diǎn)數(shù)外,還要看趨勢(shì)線,并根據(jù)趨勢(shì)線來(lái)判斷什么地方是拐點(diǎn)等。
例如為了跟蹤股票價(jià)格的變化趨勢(shì),我們會(huì)使用10日均線、20日均線、30日均線和60日均線(見下圖),根據(jù)均線之間的變換我們可以判別股票價(jià)格的短線行情和長(zhǎng)線行情,這些都是根據(jù)慣性來(lái)預(yù)測(cè)股票價(jià)格未來(lái)發(fā)展規(guī)律的方法。
(股票行情圖)
本質(zhì)上,慣性只存在于信息不對(duì)稱的領(lǐng)域,在信息足夠?qū)ΨQ的情況下,大家轉(zhuǎn)向的風(fēng)向一致,那么股票價(jià)格就不會(huì)有這樣的波動(dòng)圖形。在信息不對(duì)稱的環(huán)境下,以信息謀取利潤(rùn)的行業(yè)就會(huì)有更多的暴利。如果信息已經(jīng)充分對(duì)稱了,那么以信息謀取利潤(rùn)的行業(yè)就會(huì)消失。未來(lái)商品的價(jià)格會(huì)越來(lái)越透明,根據(jù)信息不對(duì)稱來(lái)銷售商品的公司會(huì)倒閉,例如天貓就會(huì)出現(xiàn)問題。而京東則依靠強(qiáng)大的配送能力,將電商公司做成物流公司。物流是可以增值的,例如一件商品在天貓上賣8元,但用戶需要等待3~4天才能收到貨,而京東賣8.4元,并且用戶上午下訂單,下午就能夠收到貨,在這種情況下,用戶覺得多花4毛錢是值得的。這是京東在有天貓這么強(qiáng)大的競(jìng)爭(zhēng)對(duì)手的情況下依然能夠生存的根本原因。同時(shí)天貓的菜鳥速遞應(yīng)該是應(yīng)對(duì)這個(gè)問題的,如果它能做起來(lái)就有打敗京東的優(yōu)勢(shì),就能夠成功,否則天貓很難突破。
時(shí)間序列分析模型是最典型的慣性分析法,其本質(zhì)就是探尋一個(gè)事物的數(shù)量化指標(biāo)隨著時(shí)間變化的規(guī)律。如果事物完全按照時(shí)間順序發(fā)展,則一定會(huì)按照一定的規(guī)律繼續(xù)發(fā)展下去,如果是向上的趨勢(shì),就會(huì)繼續(xù)向上發(fā)展;如果是向下的趨勢(shì),就會(huì)繼續(xù)向下發(fā)展;如果存在周期性,就會(huì)按照周期性的規(guī)律發(fā)展;如果具有循環(huán)往復(fù)的特征,就會(huì)按照循環(huán)往復(fù)的特征發(fā)展下去。
從上面的描述中可以看出時(shí)間序列模型最本質(zhì)的局限:忽略了現(xiàn)在的變化影響因素。即如果事物過去都是向上發(fā)展的,則時(shí)間序列認(rèn)為事物還會(huì)繼續(xù)向上發(fā)展,但因?yàn)槟承┨厥獾脑颍霈F(xiàn)了下滑,則這個(gè)因素不予考慮,會(huì)認(rèn)為是誤差或者受隨機(jī)因素的影響;如果是向下趨勢(shì)則也是如此。
時(shí)間序列模型有多種類型,這些類型的分類是從事物變化是否具有規(guī)律性來(lái)評(píng)價(jià)的。如果事物的變化很有規(guī)律性,而隨機(jī)影響(白噪聲)較小,則可以通過慣性預(yù)測(cè)法對(duì)事物的變化進(jìn)行預(yù)測(cè);如果事物變化是有規(guī)律的,但噪聲過大,容易掩蓋事物自身的規(guī)律,這個(gè)時(shí)候慣性預(yù)測(cè)法就不太適用了。噪聲大小是我們是否可以使用慣性預(yù)測(cè)法來(lái)預(yù)測(cè)的非常重要的因素,噪聲大,規(guī)律就容易被掩蓋,噪聲小,我們可以通過消除噪聲來(lái)發(fā)現(xiàn)事物的規(guī)律,如下圖所示。
我們對(duì)事物變化規(guī)律的認(rèn)知其實(shí)很有限。一般來(lái)說,在利用慣性法探測(cè)事物變化規(guī)律時(shí),我們能夠掌握三種變化規(guī)律的探測(cè),分別是季節(jié)性(Seasonal)、周期性(Cyclical)、趨勢(shì)性(Trend)。季節(jié)性是與時(shí)間有關(guān)系的變化規(guī)律,例如夏天喝冷飲、啤酒的人多,而冬天喝冷飲、啤酒的人少,這就是我們常說的季節(jié)性;周期性是與變量取值有關(guān)系的,盛極而衰,觸底反彈,當(dāng)取值達(dá)到某一臨界值的時(shí)候,就會(huì)反彈,周而復(fù)始地變化;趨勢(shì)性是隨著時(shí)間呈現(xiàn)增長(zhǎng)或者下降的趨勢(shì),這個(gè)趨勢(shì)可能是線性的,也可能是冪級(jí)增長(zhǎng)或者指數(shù)增長(zhǎng)的,或者更加復(fù)雜的趨勢(shì)。加上受隨機(jī)因素影響的不規(guī)則變化(Irregular),我們可以構(gòu)建一個(gè)TSCI的數(shù)學(xué)模型,根據(jù)具體情況這個(gè)模型還分成“乘法模型”和“加法模型”,乘法模型認(rèn)為這四種因素是相互影響的,彼此有放大作用的;而加法模型則是假設(shè)這四種因素對(duì)事物變化的影響是孤立的,效果只是簡(jiǎn)單的疊加。具體哪種情況適用,可以在分析的時(shí)候通過嘗試來(lái)完成。
除常規(guī)使用的TSCI模型外,時(shí)間序列是一個(gè)非常大的數(shù)據(jù)模型分支,幾十種算法在數(shù)學(xué)家們的研究下得以推廣使用,我們常用的SPSS軟件本身就提供了數(shù)十種時(shí)間序列的算法模型,而且隨著計(jì)算機(jī)計(jì)算能力提升和SPSS版本的升級(jí),SPSS還給出了一個(gè)功能,就是系統(tǒng)自動(dòng)使用所有算法遍歷計(jì)算一遍,然后根據(jù)預(yù)測(cè)的效果,向我們推薦幾個(gè)時(shí)間序列預(yù)測(cè)算法模型。SPSS的這種遍歷擇優(yōu)的方式大大減輕了數(shù)據(jù)分析師的腦力負(fù)擔(dān)。
1.6?邏輯關(guān)系預(yù)測(cè)法
邏輯關(guān)系預(yù)測(cè)法從預(yù)測(cè)的角度來(lái)看是最簡(jiǎn)單的方法,但從算法探索的角度來(lái)看則是最難的方法。兩個(gè)事物為什么會(huì)相關(guān),其背后的邏輯是什么,一直困擾著數(shù)據(jù)分析師們。
沃爾瑪說,在美國(guó)買紙尿褲的一般都是老爸,他們喜歡喝啤酒,在給孩子買紙尿褲的時(shí)候會(huì)順便買一些啤酒,所以紙尿褲會(huì)和啤酒的銷售量有較大的相關(guān)性。但是這個(gè)相關(guān)性是否站得住腳,是否有足夠的邏輯解釋,還是需要數(shù)據(jù)的支持,沒有數(shù)據(jù)的完美論證,數(shù)據(jù)分析師都應(yīng)持有懷疑的態(tài)度。經(jīng)過多方查證,這只是書中的一個(gè)案例,并非實(shí)際發(fā)生的。
在邏輯關(guān)系方面,我們可以用各種模型來(lái)解讀數(shù)據(jù),需要不斷嘗試才能找到一個(gè)最佳的邏輯關(guān)系。有些邏輯關(guān)系只在某些特殊的情境下才成立,而在其他的情景下就不會(huì)成立了。我們?cè)诜治銎【坪湍虿嫉年P(guān)系時(shí)發(fā)現(xiàn),賣出10片尿布就會(huì)賣出3聽啤酒,這種關(guān)系可能只存在美國(guó)的某個(gè)城市中。因?yàn)樵谶@個(gè)城市中兒童的出生率是一定的,喝啤酒的爸爸的比率也是一定的,而爸爸喝酒的量也有一個(gè)相對(duì)穩(wěn)定的值,所以才會(huì)得出10:3的比例,這個(gè)比例在其他城市中可能就會(huì)不同了。所以,任何一個(gè)邏輯關(guān)系被發(fā)現(xiàn)后都要根據(jù)“此情此景此數(shù)”去思考,即為什么會(huì)有這個(gè)現(xiàn)象,這個(gè)現(xiàn)象是不是能夠復(fù)制到其他的情境下,數(shù)據(jù)分析必須有足夠的敏感性。
我們最常用的邏輯關(guān)系是線性回歸關(guān)系,即構(gòu)筑像Y=aX+b這樣的關(guān)系。但在商業(yè)經(jīng)濟(jì)環(huán)境中,這個(gè)公式在某個(gè)階段成立,當(dāng)?shù)竭_(dá)另外一個(gè)階段時(shí),同樣是線性關(guān)系,但a和b的值都會(huì)發(fā)生變化,這與情景有關(guān)系。
就如廣告和銷售額之間的關(guān)系,當(dāng)廣告打得過多時(shí)反而會(huì)引起消費(fèi)者的反感,從而影響產(chǎn)品的銷售。如果不注意調(diào)整廣告的頻率,那么我們?cè)诨ㄙM(fèi)更多的錢后,廣告效果反而呈現(xiàn)下降的趨勢(shì)。
例如,我們?cè)谘芯客度牒彤a(chǎn)出關(guān)系的時(shí)候,發(fā)現(xiàn)前期投入與產(chǎn)出呈現(xiàn)正相關(guān)關(guān)系,是一個(gè)線性回歸的關(guān)系,當(dāng)投入增加時(shí),產(chǎn)出效益遞減,邊際效應(yīng)顯現(xiàn),到了后期,前期投入與產(chǎn)出呈現(xiàn)邏輯回歸的S曲線模型。不同時(shí)期適用不同的模型,我們需要通過深度研究找到事物發(fā)展的規(guī)律,然后再在不同的歷史時(shí)期選擇不同的數(shù)學(xué)模型來(lái)分析,并在過程中不斷驗(yàn)證,確保數(shù)學(xué)模型能夠滿足管理需要。如果發(fā)現(xiàn)不匹配,則需要馬上更新數(shù)學(xué)模型。
邏輯關(guān)系的數(shù)學(xué)模型不是一成不變的,它會(huì)隨著時(shí)間、市場(chǎng)狀況的變化而變化。在廣告投放效益模型開發(fā)的過程中,我們發(fā)現(xiàn)了上述的規(guī)律。其中第一階段,因?yàn)閹缀跛械南M(fèi)者都沒有聽說過這個(gè)品牌,多一個(gè)傳播接觸點(diǎn),就會(huì)多一個(gè)購(gòu)買可能性,在購(gòu)買可能性一致的情況下,我們發(fā)現(xiàn)這個(gè)品牌產(chǎn)品的銷售額隨著廣告的增多在不斷增長(zhǎng),呈線性關(guān)系。
但是當(dāng)更多的人知道這個(gè)產(chǎn)品之后,一部分的廣告因?yàn)閭鞑ソo了那些已經(jīng)知道并嘗試過產(chǎn)品的消費(fèi)者而被浪費(fèi)了,那些多次聽過廣告的人并沒有試圖購(gòu)買更多的產(chǎn)品,所以呈現(xiàn)邊際效應(yīng)線性遞減。
到了后期,廣告仍然在投放,有的消費(fèi)者覺得受到了騷擾,開始對(duì)廣告產(chǎn)生了抵觸情緒,投放的廣告越多,消費(fèi)者受到的影響越大,所以呈現(xiàn)出一種廣告投放越多銷量越低的現(xiàn)象。這個(gè)時(shí)候廠家應(yīng)該及時(shí)停止投放廣告,選擇沉寂一段時(shí)間。
每個(gè)邏輯規(guī)律都有其成立的條件。在廣告投放初期構(gòu)建的模型,不見得適合中期和后期;在品牌知名度非常低的時(shí)候,廣告與銷售額的關(guān)系會(huì)被弱化,邊際效應(yīng)顯現(xiàn);與當(dāng)公司品牌已經(jīng)非常強(qiáng)大時(shí),廣告本應(yīng)該承擔(dān)一個(gè)提醒功能,這個(gè)時(shí)候如果還是采用說服式廣告就非常不妥了,消費(fèi)者會(huì)覺得這是“忽悠”,其自我保護(hù)機(jī)制顯現(xiàn),導(dǎo)致銷量不再增加,反而出現(xiàn)負(fù)增長(zhǎng)。
全文摘自《企業(yè)經(jīng)營(yíng)數(shù)據(jù)分析-思路、方法、應(yīng)用與工具》趙興峰著
該文轉(zhuǎn)載已取得作者認(rèn)可
版權(quán)說明:版權(quán)所有歸明悅數(shù)據(jù)所有,如需轉(zhuǎn)載請(qǐng)聯(lián)系我們,我們將在第一時(shí)間處理,或請(qǐng)注明內(nèi)容出處(《企業(yè)經(jīng)營(yíng)數(shù)據(jù)分析》趙興峰著),非常感謝!【往期內(nèi)容已在(明悅數(shù)據(jù))公眾號(hào)同步發(fā)布】