摘要:用戶相似性論文的檢索重量是用戶關系分析的基礎,在推薦系統、用戶集群、社區發現等方面具有重要意義。對于微博用戶的社交關系和微博文本,分別提供類似度計算方法,并構建加權集成的用戶類似性度量方法。
最后與用戶的類似度量的實驗分析進行比較,對于傳統的用戶類似度的計算方法,所提出的方法在準確性和回收率方面明顯提高,并且顯示了該方法度量的用戶相似性的有效性。微博是一個基于用戶社交關系發布、共享和獲取信息的在線社交平臺,在微博上,可以隨時發送信息,轉發感興趣的微博內容,進行點評和評論。據新浪微博官方發布的數據顯示,目前微博月的活動用戶已經超過4億人,構成了龐大的用戶網絡,分析并挖掘微博平臺上用戶的特點以及發布的內容和關注關系這是目前流行的研究方向,用戶的類似度計算是其中重要的研究點。
用戶類似度計算相關技術可以用于朋友推薦、類似的用戶發現,并且可以在大容量用戶中發掘與目標用戶的關系、興趣等特征維度相似的用戶,并向目標用戶推薦。此外,用戶類似度計算在用戶集群、社區發現、熱點微博客跟蹤等方面具有重要意義[2]。
本論文將社會關系(興趣、粉絲)和微博客文本的兩個屬性相結合,并提供微博客用戶的類似性度量方法。1社交媒體上關于用戶的信息,總體來說,①用戶的背景信息包括年齡、性別、地理位置、教育、職業、標簽信息等。②用戶的社交關系包括興趣、粉絲、轉發、稱贊等。③用戶發布的微博客信息。現有研究的許多工作是基于上述三個信息中的一個或多個來構建用戶的類似度量的方法。
Bhattacharyya等[3]從用戶的背景信息中提取關鍵字,通過計算關鍵字的意思距離來表示關鍵字的類似性,進而測量用戶之間的類似度。分析Twitter用戶的興趣和粉絲的關系,利用由用戶關系構成的網絡構造來測量用戶之間的相似性。
Kahanda等[5]利用用戶之間的傳送、注釋、文件傳送等交互行為來測量用戶的類似度。Xiang等[6]根據用戶的屬性(包括學校、職場、興趣小組、地理位置等)和用戶之間的相互作用來計算用戶關系的強度。徐志明等[7]在進行微博用戶的類似性度量時,提供用戶的背景信息、微博文本、社交信息等各種屬性的類似度計算方法,實驗各屬性對類似度計算的影響大小,社交信息對用戶的類似性度量影響最大。我認為有響力。
鄭志緒等[8]將微博用戶自身的背景信息和交互信息的兩個屬性結合起來,利用層級分析法決定各屬性的權利值,最后構建綜合的用戶類似度計算模型。姚雅修等[9]分別計算用戶間社交信息的類似度、微博內容的類似度和交互關系的類似度,最后融合各類類似度,導出兩個用戶的總類似度,進行用戶推薦。本文使用用戶的社交關系和微博客文本來構建用戶的類似性度量方法,并提供基于用戶的社交關系信息和微博客文本信息的用戶類似度計算方法。基于Jaccard[10-11]方法,用戶之間的公共朋友根據熱而被賦予權重,類似度的計算結果變得更合理。
②關于微博文本的類似度計算,使用LDA模型[12]表示微博文本,計算類似度,比基于TF-IDF的VSM模型[13-14]有效地降低文本向量的維度,提高了類似度計算的效果。2微博客用戶類似度計算模式2.1用戶社交關系類似度計算在微博客平臺上存在用戶間關心和關心的關系,關注用戶感興趣的賬戶,吸引其他用戶到自己的粉絲興趣和關心的關系不斷擴大,構成了龐大的社交網絡。
微博客用戶的關心信息和粉絲信息直觀地反映了用戶的興趣,兩個微博用戶的共同粉絲和關心者很多,表明他們有著更密切的社交聯系。這個也可以在一定程度上反映用戶之間的類似度。對于微博客用戶u,其社交信息如上所述示為Jaccard。該方法通過兩個用戶之間的共同感興趣的用戶的比例來測量用戶之間的類似度。該方法對于不同的共同感興趣的用戶,不管狀況如何,無論是更高的熱用戶(即風機較多)還是一般用戶,對用戶類似度的計算結果的影響都相同。但是,實際上并不是這樣。微博平臺上有很受歡迎的用戶。這些受歡迎的用戶是超級粉絲,受到很多微博用戶的喜愛。對這樣受歡迎的用戶感興趣,往往不能反映出用戶真正的興趣。相比之下,微博用戶在某種意義上反映了用戶真正的興趣。
基于上述現象,在計算用戶u和用戶v感興趣的類似度時,越是關注微博用戶z的粉絲越多,在計算感興趣的類似度時權重越小。與此相對,粉絲數越少,計算關注度時的分量越大。基于這種想法,本文中基于Jaccard方法,可以基于2.2來表示每個共同的興趣因其熱而具有不同的權重,并且用戶感興趣的信息的類似度的計算公式。LDA用戶微博文本類似度計算可以使用戶在微博平臺上隨時發表自己的想法和見解,并且可以轉發和評論感興趣的用戶的微博內容。微博文本是微博用戶之間交互交流的主要媒體,微博文本直接表達了用戶感興趣的內容和話題。
兩個用戶所投稿的微博客文本的類似度可以有效地表示兩個用戶之間的類似度。基于TF-IDF的矢量空間模型(VSM)文本類似度計算方法被廣泛用于微博客文本類似度計算[7,9]。
將用戶的微博文本拼接在一個文檔中,對關鍵字進行分類、提取,使用TF-IDF計算關鍵字權重,最終將用戶的微博表示為一個文本向量,根據余弦類似度計算兩個用戶的微博文本的類似度做。VSM將文檔表示為高緯度、稀疏的文本向量,由于計算效率不高,VSM不能忽略單詞之間的關系,完全建模自然語言的復雜性問題。對于上述方法中存在的缺陷,本文使用LDA主題模型進行了文本類似度計算。
LDA(LatentDirichletAlloca?tion)模型是對文檔數據的主題信息進行建模的方法,并且具有文檔主題-特征詞的三層糊精網絡結構。本文利用LDA模型對用戶的微博文本進行建模,即利用文本的統計特性,挖掘不同主題與單詞之間的潛在關系,以主題分布的形式展開文檔,通過該分布計算文本的類似度。
使用LDA主題模型來計算文本的類似度可以比矢量空間模型更好地表示文本的意義,并且可以有效地降低文本向量的維度。用戶投稿的微博客