精品2018一卡2卡3卡4卡网站,亚洲欧美自拍偷拍

作者：楊杰網(wǎng)易郵件事業(yè)部大數(shù)據(jù)工程師

　　用戶畫像的含義

　　用戶畫像(persona)的概念最早由交互設(shè)計之父Alan Cooper提出:“Personas are a concrete representation of target users.” 是指真實用戶的虛擬代表，是建立在一系列屬性數(shù)據(jù)之上的目標(biāo)用戶模型。隨著互聯(lián)網(wǎng)的發(fā)展，現(xiàn)在我們說的用戶畫像又包含了新的內(nèi)涵——通常用戶畫像是根據(jù)用戶人口學(xué)特征、網(wǎng)絡(luò)瀏覽內(nèi)容、網(wǎng)絡(luò)社交活動和消費行為等信息而抽象出的一個標(biāo)簽化的用戶模型。構(gòu)建用戶畫像的核心工作，主要是利用存儲在服務(wù)器上的海量日志和數(shù)據(jù)庫里的大量數(shù)據(jù)進(jìn)行分析和挖掘，給用戶貼“標(biāo)簽”，而“標(biāo)簽”是能表示用戶某一維度特征的標(biāo)識。具體的標(biāo)簽形式可以參考下圖某網(wǎng)站給其中一個用戶打的標(biāo)簽。

　　用戶畫像的作用

　　提取用戶畫像，需要處理海量的日志，花費大量時間和人力。盡管是如此高成本的事情，大部分公司還是希望能給自己的用戶做一份足夠精準(zhǔn)的用戶畫像。

　　那么用戶畫像有什么作用，能幫助我們達(dá)到哪些目標(biāo)呢?

　　大體上可以總結(jié)為以下幾個方面：

　　1. 精準(zhǔn)營銷：精準(zhǔn)直郵、短信、App消息推送、個性化廣告等。

　　2. 用戶研究：指導(dǎo)產(chǎn)品優(yōu)化，甚至做到產(chǎn)品功能的私人定制等。

　　3. 個性服務(wù)：個性化推薦、個性化搜索等。

　　4. 業(yè)務(wù)決策：排名統(tǒng)計、地域分析、行業(yè)趨勢、競品分析等。

　　用戶畫像的內(nèi)容

　　用戶畫像包含的內(nèi)容并不完全固定，根據(jù)行業(yè)和產(chǎn)品的不同所關(guān)注的特征也有不同。對于大部分互聯(lián)網(wǎng)公司，用戶畫像都會包含人口屬性和行為特征。人口屬性主要指用戶的年齡、性別、所在的省份和城市、教育程度、婚姻情況、生育情況、工作所在的行業(yè)和職業(yè)等。行為特征主要包含活躍度、忠誠度等指標(biāo)。

　　除了以上較通用的特征，不同類型的網(wǎng)站提取的用戶畫像各有側(cè)重點。

　　以內(nèi)容為主的媒體或閱讀類網(wǎng)站，還有搜索引擎或通用導(dǎo)航類網(wǎng)站，往往會提取用戶對瀏覽內(nèi)容的興趣特征，比如體育類、娛樂類、美食類、理財類、旅游類、房產(chǎn)類、汽車類等等。

　　社交網(wǎng)站的用戶畫像，也會提取用戶的社交網(wǎng)絡(luò)，從中可以發(fā)現(xiàn)關(guān)系緊密的用戶群和在社群中起到意見領(lǐng)袖作用的明星節(jié)點。

　　電商購物網(wǎng)站的用戶畫像，一般會提取用戶的網(wǎng)購興趣和消費能力等指標(biāo)。網(wǎng)購興趣主要指用戶在網(wǎng)購時的類目偏好，比如服飾類、箱包類、居家類、母嬰類、洗護(hù)類、飲食類等。

　　消費能力指用戶的購買力，如果做得足夠細(xì)致，可以把用戶的實際消費水平和在每個類目的心理消費水平區(qū)分開，分別建立特征緯度。

　　另外還可以加上用戶的環(huán)境屬性，比如當(dāng)前時間、訪問地點LBS特征、當(dāng)?shù)靥鞖?、?jié)假日情況等。

　　當(dāng)然，對于特定的網(wǎng)站或App，肯定又有特殊關(guān)注的用戶緯度，就需要把這些維度做到更加細(xì)化，從而能給用戶提供更精準(zhǔn)的個性化服務(wù)和內(nèi)容。

　　用戶畫像的生產(chǎn)

　　用戶特征的提取即用戶畫像的生產(chǎn)過程，大致可以分為以下幾步：

　　1. 用戶建模，指確定提取的用戶特征維度，和需要使用到的數(shù)據(jù)源。

　　2. 數(shù)據(jù)收集，通過數(shù)據(jù)收集工具，如Flume或自己寫的腳本程序，把需要使用的數(shù)據(jù)統(tǒng)一存放到Hadoop集群。

　　3. 數(shù)據(jù)清理，數(shù)據(jù)清理的過程通常位于Hadoop集群，也有可能與數(shù)據(jù)收集同時進(jìn)行，這一步的主要工作，是把收集到各種來源、雜亂無章的數(shù)據(jù)進(jìn)行字段提取，得到關(guān)注的目標(biāo)特征。

　　4. 模型訓(xùn)練，有些特征可能無法直接從數(shù)據(jù)清理得到，比如用戶感興趣的內(nèi)容或用戶的消費水平，那么可以通過收集到的已知特征進(jìn)行學(xué)習(xí)和預(yù)測。

　　5. 屬性預(yù)測，利用訓(xùn)練得到的模型和用戶的已知特征，預(yù)測用戶的未知特征。

　　6. 數(shù)據(jù)合并，把用戶通過各種數(shù)據(jù)源提取的特征進(jìn)行合并，并給出一定的可信度。

　　7. 數(shù)據(jù)分發(fā)，對于合并后的結(jié)果數(shù)據(jù)，分發(fā)到精準(zhǔn)營銷、個性化推薦、CRM等各個平臺，提供數(shù)據(jù)支持。

　　下面以用戶性別為例，具體介紹特征提取的過程：

　　1.提取用戶自己填寫的資料，比如注冊時或者活動中填寫的性別資料，這些數(shù)據(jù)準(zhǔn)確率一般很高。

　　2. 提取用戶的稱謂，如文本中有提到的對方稱呼，例如：xxx先生/女士，這個數(shù)據(jù)也比較準(zhǔn)。

　　3. 根據(jù)用戶姓名預(yù)測用戶性別，這是一個二分類問題，可以提取用戶的名字部分(百家姓與性別沒有相關(guān)性)，然后用樸素貝葉斯分類器訓(xùn)練一個分類器。過程中遇到了生僻字問題，比如“甄嬛”的“嬛”，由于在名字中出現(xiàn)的少，因此分類器無法進(jìn)行正確分類?？紤]到漢字都是由偏旁部首組成，且偏旁部首也常常具有特殊含義(很多與性別具有相關(guān)性，比如草字頭傾向女性，金字旁傾向男性)，我們利用五筆輸入法分解單字，再把名字本身和五筆打法的字母一起放到LR分類器進(jìn)行訓(xùn)練。比如，“嬛”字的打法：『女V+罒L+一G+衣E = VLGE 』，這里的女字旁就很有女性傾向。

　　4. 另外還有一些特征可以利用，比如用戶訪問過的網(wǎng)站，經(jīng)常訪問一些美妝或女性服飾類網(wǎng)站，是女性的可能性就高;訪問體育軍事類網(wǎng)站，是男性的可能性就高。還有用戶上網(wǎng)的時間段，經(jīng)常深夜上網(wǎng)的用戶男性的可能性就高。把這些特征加入到LR分類器進(jìn)行訓(xùn)練，也能提高一定的數(shù)據(jù)覆蓋率。

　　數(shù)據(jù)管理系統(tǒng)

　　用戶畫像涉及到大量的數(shù)據(jù)處理和特征提取工作，往往需要用到多數(shù)據(jù)來源，且多人并行處理數(shù)據(jù)和生成特征。因此，需要一個數(shù)據(jù)管理系統(tǒng)來對數(shù)據(jù)統(tǒng)一進(jìn)行合并存儲和分發(fā)。我們的系統(tǒng)以約定的目錄結(jié)構(gòu)來組織數(shù)據(jù)，基本目錄層級為：/user_tag/屬性/日期/來源_作者/。以性別特征為例，開發(fā)者dev1從用戶姓名提取的性別數(shù)據(jù)存放路徑為 /user_tag/gender/20170101/name_dev1，開發(fā)者dev2從用戶填寫資料提取的性別數(shù)據(jù)存放路徑為 /user_tag/gender/20170102/raw_dev2。

　　從每種來源提取的數(shù)據(jù)可信度是不同的，所以各來源提取的數(shù)據(jù)必須給出一定的權(quán)重，約定一般為0-1之間的一個概率值，這樣系統(tǒng)在做數(shù)據(jù)的自動合并時，只需要做簡單的加權(quán)求和，并歸一化輸出到集群，存儲到事先定義好的Hive表。接下來就是數(shù)據(jù)增量更新到HBase、ES、Spark集群等更多應(yīng)用服務(wù)集群。

　　應(yīng)用示例：個性化推薦

　　以電商網(wǎng)站的某種頁面的個性化推薦為例，考慮到特征的可解釋性、易擴(kuò)展和模型的計算性能，很多線上推薦系統(tǒng)采用LR(邏輯回歸)模型訓(xùn)練，這里也以LR模型舉例。很多推薦場景都會用到基于商品的協(xié)同過濾，而基于商品協(xié)同過濾的核心是一個商品相關(guān)性矩陣W，假設(shè)有n個商品，那么W就是一個n * n的矩陣，矩陣的元素wij代表商品Ii和Ij之間的相關(guān)系數(shù)。而根據(jù)用戶訪問和購買商品的行為特征，可以把用戶表示成一個n維的特征向量U=[ i1, i2, ..., in ]。于是U*W可以看成用戶對每個商品的感興趣程度V=[ v1, v2, ..., vn ]，這里v1即是用戶對商品I1的感興趣程度，v1= i1*w11 + i2*w12 + in*w1n。如果把相關(guān)系數(shù)w11, w12, ..., w1n 看成要求的變量，那么就可以用LR模型，代入訓(xùn)練集用戶的行為向量U，進(jìn)行求解。這樣一個初步的LR模型就訓(xùn)練出來了，效果和基于商品的協(xié)同過濾類似。

　　這時只用到了用戶的行為特征部分，而人口屬性、網(wǎng)購偏好、內(nèi)容偏好、消費能力和環(huán)境特征等其他上下文還沒有利用起來。把以上特征加入到LR模型，同時再加上目標(biāo)商品自身的屬性，如文本標(biāo)簽、所屬類目、銷量等數(shù)據(jù)，如下圖所示，進(jìn)一步優(yōu)化訓(xùn)練原來的LR模型。從而最大程度利用已經(jīng)提取的用戶畫像數(shù)據(jù)，做到更精準(zhǔn)的個性化推薦。

　　點評：

　　用戶畫像是當(dāng)前大數(shù)據(jù)領(lǐng)域的一種典型應(yīng)用，也普遍應(yīng)用在多款網(wǎng)易互聯(lián)網(wǎng)產(chǎn)品中。本文基于網(wǎng)易的實踐，深入淺出地解析了用戶畫像的原理和生產(chǎn)流程。

　　精確有效的用戶畫像，依賴于從大量的數(shù)據(jù)中提取正確的特征，這需要一個強大的數(shù)據(jù)管理系統(tǒng)作為支撐。網(wǎng)易大數(shù)據(jù)產(chǎn)品體系中包含的一站式大數(shù)據(jù)開發(fā)與管理平臺 – 網(wǎng)易猛犸，正是在網(wǎng)易內(nèi)部實踐中打磨形成的，能夠為用戶畫像及后續(xù)的業(yè)務(wù)目標(biāo)實現(xiàn)提供數(shù)據(jù)傳輸、計算和作業(yè)流調(diào)度等基礎(chǔ)能力，有效降低大數(shù)據(jù)應(yīng)用的技術(shù)門檻。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

讓機(jī)器讀懂用戶——大數(shù)據(jù)中的用戶畫像

下一篇