日韩www视频,欧美乱理,天天碰免费视频

基于用戶關系和文本的微博用戶相似性度量

作者：admin 來源：www.jiangyun119.cn 時間：2021-07-03 18:01:16

基于用戶關系和文本的微博用戶相似性度量

摘要：用戶相似性論文的檢索重量是用戶關系分析的基礎，在推薦系統(tǒng)、用戶集群、社區(qū)發(fā)現(xiàn)等方面具有重要意義。對于微博用戶的社交關系和微博文本，分別提供類似度計算方法，并構(gòu)建加權集成的用戶類似性度量方法。

最后與用戶的類似度量的實驗分析進行比較，對于傳統(tǒng)的用戶類似度的計算方法，所提出的方法在準確性和回收率方面明顯提高，并且顯示了該方法度量的用戶相似性的有效性。微博是一個基于用戶社交關系發(fā)布、共享和獲取信息的在線社交平臺，在微博上，可以隨時發(fā)送信息，轉(zhuǎn)發(fā)感興趣的微博內(nèi)容，進行點評和評論。據(jù)新浪微博官方發(fā)布的數(shù)據(jù)顯示，目前微博月的活動用戶已經(jīng)超過4億人，構(gòu)成了龐大的用戶網(wǎng)絡，分析并挖掘微博平臺上用戶的特點以及發(fā)布的內(nèi)容和關注關系這是目前流行的研究方向，用戶的類似度計算是其中重要的研究點。

用戶類似度計算相關技術可以用于朋友推薦、類似的用戶發(fā)現(xiàn)，并且可以在大容量用戶中發(fā)掘與目標用戶的關系、興趣等特征維度相似的用戶，并向目標用戶推薦。此外，用戶類似度計算在用戶集群、社區(qū)發(fā)現(xiàn)、熱點微博客跟蹤等方面具有重要意義[2]。

本論文將社會關系（興趣、粉絲）和微博客文本的兩個屬性相結(jié)合，并提供微博客用戶的類似性度量方法。1社交媒體上關于用戶的信息，總體來說，①用戶的背景信息包括年齡、性別、地理位置、教育、職業(yè)、標簽信息等。②用戶的社交關系包括興趣、粉絲、轉(zhuǎn)發(fā)、稱贊等。③用戶發(fā)布的微博客信息。現(xiàn)有研究的許多工作是基于上述三個信息中的一個或多個來構(gòu)建用戶的類似度量的方法。

Bhattacharyya等[3]從用戶的背景信息中提取關鍵字，通過計算關鍵字的意思距離來表示關鍵字的類似性，進而測量用戶之間的類似度。分析Twitter用戶的興趣和粉絲的關系，利用由用戶關系構(gòu)成的網(wǎng)絡構(gòu)造來測量用戶之間的相似性。

Kahanda等[5]利用用戶之間的傳送、注釋、文件傳送等交互行為來測量用戶的類似度。Xiang等[6]根據(jù)用戶的屬性（包括學校、職場、興趣小組、地理位置等）和用戶之間的相互作用來計算用戶關系的強度。徐志明等[7]在進行微博用戶的類似性度量時，提供用戶的背景信息、微博文本、社交信息等各種屬性的類似度計算方法，實驗各屬性對類似度計算的影響大小，社交信息對用戶的類似性度量影響最大。我認為有響力。

鄭志緒等[8]將微博用戶自身的背景信息和交互信息的兩個屬性結(jié)合起來，利用層級分析法決定各屬性的權利值，最后構(gòu)建綜合的用戶類似度計算模型。姚雅修等[9]分別計算用戶間社交信息的類似度、微博內(nèi)容的類似度和交互關系的類似度，最后融合各類類似度，導出兩個用戶的總類似度，進行用戶推薦。本文使用用戶的社交關系和微博客文本來構(gòu)建用戶的類似性度量方法，并提供基于用戶的社交關系信息和微博客文本信息的用戶類似度計算方法。基于Jaccard[10-11]方法，用戶之間的公共朋友根據(jù)熱而被賦予權重，類似度的計算結(jié)果變得更合理。

②關于微博文本的類似度計算，使用LDA模型[12]表示微博文本，計算類似度，比基于TF-IDF的VSM模型[13-14]有效地降低文本向量的維度，提高了類似度計算的效果。2微博客用戶類似度計算模式2.1用戶社交關系類似度計算在微博客平臺上存在用戶間關心和關心的關系，關注用戶感興趣的賬戶，吸引其他用戶到自己的粉絲興趣和關心的關系不斷擴大，構(gòu)成了龐大的社交網(wǎng)絡。

微博客用戶的關心信息和粉絲信息直觀地反映了用戶的興趣，兩個微博用戶的共同粉絲和關心者很多，表明他們有著更密切的社交聯(lián)系。這個也可以在一定程度上反映用戶之間的類似度。對于微博客用戶u，其社交信息如上所述示為Jaccard。該方法通過兩個用戶之間的共同感興趣的用戶的比例來測量用戶之間的類似度。該方法對于不同的共同感興趣的用戶，不管狀況如何，無論是更高的熱用戶（即風機較多）還是一般用戶，對用戶類似度的計算結(jié)果的影響都相同。但是，實際上并不是這樣。微博平臺上有很受歡迎的用戶。這些受歡迎的用戶是超級粉絲，受到很多微博用戶的喜愛。對這樣受歡迎的用戶感興趣，往往不能反映出用戶真正的興趣。相比之下，微博用戶在某種意義上反映了用戶真正的興趣。

基于上述現(xiàn)象，在計算用戶u和用戶v感興趣的類似度時，越是關注微博用戶z的粉絲越多，在計算感興趣的類似度時權重越小。與此相對，粉絲數(shù)越少，計算關注度時的分量越大。基于這種想法，本文中基于Jaccard方法，可以基于2.2來表示每個共同的興趣因其熱而具有不同的權重，并且用戶感興趣的信息的類似度的計算公式。LDA用戶微博文本類似度計算可以使用戶在微博平臺上隨時發(fā)表自己的想法和見解，并且可以轉(zhuǎn)發(fā)和評論感興趣的用戶的微博內(nèi)容。微博文本是微博用戶之間交互交流的主要媒體，微博文本直接表達了用戶感興趣的內(nèi)容和話題。

兩個用戶所投稿的微博客文本的類似度可以有效地表示兩個用戶之間的類似度。基于TF-IDF的矢量空間模型（VSM）文本類似度計算方法被廣泛用于微博客文本類似度計算[7,9]。

將用戶的微博文本拼接在一個文檔中，對關鍵字進行分類、提取，使用TF-IDF計算關鍵字權重，最終將用戶的微博表示為一個文本向量，根據(jù)余弦類似度計算兩個用戶的微博文本的類似度做。VSM將文檔表示為高緯度、稀疏的文本向量，由于計算效率不高，VSM不能忽略單詞之間的關系，完全建模自然語言的復雜性問題。對于上述方法中存在的缺陷，本文使用LDA主題模型進行了文本類似度計算。

LDA（LatentDirichletAlloca？tion）模型是對文檔數(shù)據(jù)的主題信息進行建模的方法，并且具有文檔主題-特征詞的三層糊精網(wǎng)絡結(jié)構(gòu)。本文利用LDA模型對用戶的微博文本進行建模，即利用文本的統(tǒng)計特性，挖掘不同主題與單詞之間的潛在關系，以主題分布的形式展開文檔，通過該分布計算文本的類似度。

使用LDA主題模型來計算文本的類似度可以比矢量空間模型更好地表示文本的意義，并且可以有效地降低文本向量的維度。用戶投稿的微博客

基于用戶關系和文本的微博用戶相似性度量

推薦閱讀，更多相關內(nèi)容：

免費的畢業(yè)論文檢測軟件可靠嗎？

學術查重系統(tǒng)有自動降重的功能嗎？

學術不端網(wǎng)檢測系統(tǒng)查重系統(tǒng)的四大優(yōu)勢

2020cnki官方查重哪些是屬于學術不端的行為？

碩士研究生投稿論文檢測系統(tǒng)文獻庫有哪些

本科發(fā)表論文嗎本科發(fā)表論文章本科發(fā)表論文在哪里發(fā)表

北京工商大學碩士論文查重要求及重復率北京工商大學碩士論文字數(shù)一

在哪里可以買畢業(yè)論文ppt在哪里可以買畢業(yè)論文答辯

查重規(guī)則咋地幸免

中國學術查重能測試英文論文嗎？

自己可以提前進行論文查重嗎？

論文怎么查重論文軟件-論文怎么查重沒通過

為了不讓同學們在查重上浪費時間今天分享一下查重經(jīng)驗

中國碩士學術查重率一篇多少錢？

本科畢業(yè)論文學術檢測系統(tǒng)怎樣檢測中國學術PMLC本科畢業(yè)論文查重檢測系統(tǒng)

保定學院碩士論文查重要求及重復率

學術不端論文查重編號真?zhèn)悟炞C

最新的西安電子科技大學通信工程學院研究生論文查重通知西安電子科技大學通信工程學院在哪個校區(qū)

三峽電力職業(yè)學院碩士論文查重要求及重復率一

北京吉利大學專科論文查重要求及重復率北京吉利大學藝術專業(yè)專科網(wǎng)上能查到嗎一

學術不端外語論文查重檢測

淘寶學術查重多次對學校有沒有影響

博士論文檢測系統(tǒng)文獻對比庫有哪些

畢業(yè)論文開題報告有什么格式？學前教育畢業(yè)論文開題報告格式模板

論文查重系統(tǒng)優(yōu)點中南財經(jīng)政法大學論文查重系統(tǒng)