在线无码精品秘 私密照片,国产精品内射另类视频,黄色资源久久天堂潮喷,日本一码二码三码四码在线

電話
公司網(wǎng)絡(luò)推廣:曼朗介紹搜索引擎優(yōu)化SEO算法之TF-IDF算法
新聞來(lái)源:曼朗 發(fā)布時(shí)間:2020-09-07

  一、TF-IDF算法是什么意思

  搜索引擎對(duì)于頁(yè)面權(quán)重的計(jì)算有很多的算法,其中就有一項(xiàng)十分的算法,英文簡(jiǎn)稱是TF-IDF。TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。含義如下:

  TF:詞頻

  IDF:逆文本頻率指數(shù)

  TF-IDF=TF*IDF

  可能大家對(duì)這個(gè)名詞比較陌生,但是,了解seo的朋友應(yīng)該聽(tīng)說(shuō)過(guò)關(guān)鍵詞密度吧,TF詞頻的就是大家所熟知的關(guān)鍵詞密度。TF用來(lái)判斷一個(gè)頁(yè)面的相關(guān)度。頁(yè)面的相關(guān)性對(duì)于網(wǎng)站的排名影響很大,同一個(gè)關(guān)鍵詞下,相關(guān)性越高的網(wǎng)頁(yè),百度會(huì)覺(jué)得它越重要,從而給與這個(gè)網(wǎng)頁(yè)更好的排名。但是,千萬(wàn)不要為了提高關(guān)鍵詞密度而在網(wǎng)頁(yè)中疊加關(guān)鍵詞哦,如果一旦被百度識(shí)別,就會(huì)受到懲罰。

  二、TF-IDF算法如何實(shí)現(xiàn)的

  TF為詞頻的意思,是指一個(gè)詞出現(xiàn)在頁(yè)面中的次數(shù),如果一篇文章的總詞語(yǔ)數(shù)是200,而“網(wǎng)站優(yōu)化”這個(gè)詞出現(xiàn)了4次,那么“網(wǎng)站優(yōu)化”這個(gè)詞頻TF=4/200,也就是0.02。一般來(lái)說(shuō),這個(gè)詞頻(關(guān)鍵詞密度)越高,代表頁(yè)面越相關(guān)。

  而IDF為逆文本頻率指數(shù),聽(tīng)起來(lái)有點(diǎn)晦澀難懂,不要緊,我舉例說(shuō)明下。假設(shè)“網(wǎng)站優(yōu)化”在N(2000)個(gè)頁(yè)面出現(xiàn),總文件數(shù)為M(1億),那么文件頻率IDF=lg(M/N)=lg(100000000/2000)=4.69897。通俗的來(lái)說(shuō),就是包含“網(wǎng)站優(yōu)化”這個(gè)詞的網(wǎng)頁(yè)總數(shù)越多,這個(gè)詞就變得越不重要。

  一個(gè)網(wǎng)頁(yè)是很多的關(guān)鍵詞的集合,搜索引擎并不會(huì)給所有的詞加分,我們需要一個(gè)識(shí)別度高的詞來(lái)為頁(yè)面加分。例如:搜索引擎收錄一萬(wàn)億個(gè)頁(yè)面,應(yīng)該說(shuō)每個(gè)頁(yè)面都會(huì)有“的、是、中、地、得”等等詞,這些高頻詞也叫噪音詞或停止詞,搜索引擎會(huì)去除這些詞,所以這些詞的加分權(quán)重其實(shí)應(yīng)該是0。然后再分別計(jì)算其中包含的關(guān)鍵詞權(quán)重。

  三、TF-IDF算法的具體應(yīng)用

  其實(shí)在搜索引擎檢索中,計(jì)算權(quán)重的時(shí)候,會(huì)根據(jù)每個(gè)詞分詞來(lái)計(jì)算,例如:“SEO網(wǎng)站優(yōu)化的網(wǎng)站建設(shè)公司”這個(gè)詞。

  假設(shè):“SEO”頁(yè)面檢索數(shù)位2000萬(wàn),“網(wǎng)站優(yōu)化”的檢索數(shù)為1000萬(wàn),“技巧”的檢索數(shù)為50000萬(wàn)

  搜索引擎索引總數(shù)假設(shè)為100億。

  某個(gè)網(wǎng)頁(yè)去除“的、是、中、地、得”停止詞后,總共被百度切分為400個(gè)詞?!眘eo”出現(xiàn)8次,”網(wǎng)站優(yōu)化”出現(xiàn)10次,”網(wǎng)站建設(shè)公司”出現(xiàn)16次。

  那么它們各自的詞頻:

  TF(SEO)=8/400=0.02,

  TF(網(wǎng)站優(yōu)化)=10/400=0.025

  TF(網(wǎng)站建設(shè)公司)=20/400=0.04

  那么搜索“SEO網(wǎng)站優(yōu)化的網(wǎng)站建設(shè)公司”這個(gè)頁(yè)面的相關(guān)度為:

  TF(總)=0.02+0.025+0.05=0.095。

  而IDF(SEO)=LOG(10000000000/20000000)=2.69897

  IDF(網(wǎng)站優(yōu)化)= LOG(10000000000/10000000)=3

  IDF(網(wǎng)站建設(shè)公司)=log(10000000000/100000000)=1.69897

  這么算下來(lái)之后,每個(gè)詞為搜索“SEO網(wǎng)站優(yōu)化的網(wǎng)站建設(shè)公司”為頁(yè)面的權(quán)重和相關(guān)度貢獻(xiàn)的值分別為:

  Tf-idf(seo)=0.02*2.69897=0.0539794

  Tf-dif(網(wǎng)站優(yōu)化)=0.025*3=0.075

  Tf-idf(網(wǎng)站建設(shè)公司)=0.04*1.69897=0.0679588

  由此可以看出,雖然技巧出現(xiàn)的頻率更高,但識(shí)別度沒(méi)有SEO和網(wǎng)站優(yōu)化高,所以為頁(yè)面的權(quán)重貢獻(xiàn)度并不是太大。一個(gè)詞的預(yù)測(cè)能力也就是識(shí)別度越高,那么這個(gè)詞的權(quán)重越大,反之則越小,看到“網(wǎng)站優(yōu)化“可能你就已經(jīng)基本了解這個(gè)頁(yè)面要講什么,但是看到網(wǎng)站建設(shè)公司,你可能還不是太明白頁(yè)面的主題。 當(dāng)然TF-IDF算法只是搜索引擎的算法的一個(gè)點(diǎn),另外比如頁(yè)面標(biāo)簽的使用例如H標(biāo)簽,搜索引擎糾錯(cuò)算法,外鏈內(nèi)鏈接的投票,頁(yè)面相似度,url路徑層次等等也是很重要的點(diǎn),以后相繼會(huì)提到。

行業(yè)資訊Industry information

互聯(lián)網(wǎng)營(yíng)銷診斷 /根據(jù)您市場(chǎng)目標(biāo)提供相應(yīng)的營(yíng)銷診斷書(shū)

提交
最新資訊The latest information