HOME 首頁
SERVICE 服務產(chǎn)品
XINMEITI 新媒體代運營
CASE 服務案例
NEWS 熱點資訊
ABOUT 關于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    關鍵詞每半小時抓?。P鍵詞時長)

    發(fā)布時間:2023-03-21 02:43:20     稿源: 創(chuàng)意嶺    閱讀: 733        問大家

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關于關鍵詞每半小時抓取的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

    只需要輸入關鍵詞,就能返回你想要的內(nèi)容,越精準,寫出的就越詳細,有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com

    本文目錄:

    關鍵詞每半小時抓?。P鍵詞時長)

    一、如何使用python根據(jù)關鍵詞抓取微博

    基本的套路就是利用微博賬號模擬登陸,這個過程比較復雜,因為微博有加密處理,推薦去github下載一個python模擬登陸新浪的源碼。

    當你通過模擬登陸進入微博界面的時候,嘗試如何用python的模塊去提交query,然后通過beautifulsoup或者是httpparse來獲取內(nèi)容信息。當然,自己學習正則表達式來獲取也是可以的。

    二、如果在excel中的一列抓取關鍵字匯總

    就是求B列出現(xiàn)江蘇或上海的個數(shù)吧,如果是,假設數(shù)據(jù)在B2:B10,公式可為

    =SUM(COUNTIF(B2:B10,{"江蘇*","上海*"}))

    如果對應的A列有重名,要去重,或其它算法,請再說明。

    三、網(wǎng)站關鍵詞出現(xiàn)的頻率是怎么計算的?

    我可以很負責任的告訴你,關鍵詞密度不是最佳答案所說的!

    關鍵詞密度是 關鍵詞/頁面所有詞語 是詞語 不是字數(shù)!

    仔細想一下也可以知道了 比如關鍵詞長度為3個字 出現(xiàn)5次 頁面只有這5個相同的關鍵詞 頁面所有字3*5=15 關鍵詞出現(xiàn)5詞 那頻率就是 5/15=33%了? 但事實是100% 最佳答案那個是錯誤的!

    四、微博爬蟲系列之關鍵詞及指定用戶博文爬取

    近期的一些微博爬蟲內(nèi)容,本篇主要將怎么根據(jù)關鍵詞或指定用戶進行博文爬取。

    準備寫的內(nèi)容:

    定向詞及指定用戶博文爬取方面,用的是微博網(wǎng)頁版( https://weibo.cn )。對于微博網(wǎng)頁版中相關博文的爬取,需要使用到 cookies 。這方面的爬取參考了github上的資源:

    寫的時候發(fā)現(xiàn)網(wǎng)頁版的關鍵詞檢索接口已經(jīng)不見了···可能是微博刪除了網(wǎng)頁版的接口吧···之后再看看怎么在pc端爬取。

    這里先介紹怎么指定用戶進行博文爬取吧···

    指定用戶的時候,需要有用戶的用戶id。通常用戶id是一串數(shù)字,也有一些賬號更改后是字符串,舉個例子,何同學跟央視新聞的微博:

    在這里何同學的 uid = 6529876887 ,央視新聞的 uid = cctvxinwen 。當然也可以獲取到央視新聞以數(shù)字存儲的id,之后再講怎么獲取,這里直接放出來就是 uid = 2656274875 ,點擊可以發(fā)現(xiàn)確實是央視新聞的微博 https://weibo.cn/2656274875

    這個問題在爬取用戶博文方面沒有影響,不過在爬取用戶信息時會有影響,后面寫用戶信息爬取再說這個情況怎么解決。

    下面以央視新聞為例看看怎么爬用戶的博文。

    點擊進入 央視新聞 的微博,可以看到這個賬號發(fā)布了很多很多微博,在網(wǎng)頁版觀看就會顯示很多頁,那么要爬取的時候就要先獲取他的頁數(shù)。

    當點擊第二頁時,會發(fā)現(xiàn) url 會變成 https://weibo.cn/cctvxinwen?page=2 。也就是說這個翻頁是以 page 這個字段進行翻頁的,這就好辦很多了。

    將 page 改成 1 可以發(fā)現(xiàn)網(wǎng)頁跳轉(zhuǎn)到所有博文的第1頁,接下來那我們就先獲取到所有的頁面url。

    首先進入 https://weibo.cn/cctvxinwen?page=1 ,打開開發(fā)者模式,在文件中找到自己的 cookies 。

    在網(wǎng)頁開發(fā)者模式下,點開文件可以發(fā)現(xiàn)沒有json格式的數(shù)據(jù)輸出。因此這里不能直接通過解析json數(shù)據(jù)獲取到頁面數(shù)據(jù)。

    這里就需要查看網(wǎng)頁返回的文本信息了。這里再定位具體信息時,我用的是 lxml 庫里的 etree 方法。

    這里要查看具體要定位到哪里,可以在網(wǎng)頁上的源碼進行定位,比如我們要定位到頁數(shù),找到頁數(shù)所在的地方:

    拿到用戶的所有博文網(wǎng)頁后,就可以進行博文的爬取了。這里每一頁的數(shù)據(jù)是一樣的,所以直接用第一頁為例就可以了。同樣的將頁面數(shù)據(jù)爬下來:

    還是在網(wǎng)頁上看,定位到某一條博文,可以看到源碼是這樣子的:

    可以看到第1頁這里展示了11條博文(這個不一定),每條博文放在 div class="c" id="" 的控件里,這里的id是對應的博文id,于是我們就可以拿到博文的控件:

    選擇其中一個博文來看

    這里我們可以看到要的信息全在這里了,接著就按著控件抓信息。這里拿其中一個節(jié)點為例。

    首先獲取微博的url以及微博id,這個從上面看到,可以從點贊、轉(zhuǎn)發(fā)、評論處的鏈接獲取,這里選擇最簡單的轉(zhuǎn)發(fā)鏈接,對應的點贊數(shù)、轉(zhuǎn)發(fā)數(shù)、評論數(shù)也可以順便爬下來了:

    接下來看下微博的創(chuàng)建時間,這里我們看到還有微博的來源,有一些可能會沒有這個信息:

    接下來就是博文的主體了:

    博文方面的內(nèi)容提取基本就是從github上搬過來的,對內(nèi)容部分字符串進行了一些匹配清洗:

    上面是比較簡單的博文情況,有一些可能有圖片、視頻、轉(zhuǎn)發(fā)等情況,這里直接放GitHub的做法,具體爬取方式是一樣的,定位控件,找信息:

    到這里,指定用戶的博文爬取就結(jié)束了,主要還是參考了GitHub的大神~

    以上就是關于關鍵詞每半小時抓取相關問題的回答。希望能幫到你,如有更多相關問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。


    推薦閱讀:

    文本關鍵詞抓取工具(文本關鍵詞抓取工具有哪些)

    小說關鍵詞生成器(小說關鍵詞生成器app)

    關鍵詞文章生成器(關鍵詞 生成)

    硬派越野車排行榜

    您的商品不符合類目準入要求(您的商品不符合類目準入要求 極速退)