網上有很多關于pos機顯示亂碼,簡單爬蟲爬下豆瓣評論并玩轉詞云可視化顯示的知識,也有很多人為大家解答關于pos機顯示亂碼的問題,今天pos機之家(www.www690aa.com)為大家整理了關于這方面的知識,讓我們一起來看下吧!
本文目錄一覽:
1、pos機顯示亂碼
pos機顯示亂碼
利用爬蟲爬下豆瓣影評
可以爬下其他頁面的同類內容
并且利用詞云(wordcloud)展示出來
詞云安裝方法
pip install wordcloud
同樣的還要安裝jiaba分詞,BeautifulSoup以及plt
結巴分詞github地址:https://github.com/fxsjy/jieba
#coding=utf-8
from urllib import request
from bs4 import BeautifulSoup as bs
import re,jieba,jieba.analyse,os
num=5#每+1 評論收集多加20個
main_word=[]
xu=""#這個是虛詞,網上有虛詞庫,可以去除沒用的詞匯
for i in range(0,num):
resp=request.urlopen("https://book.douban.com/review/best/?start="+str(i*20))
html_data=resp.read()
hl=bs(html_data)
talk=hl.select(".title-link")
for i in talk:
i=str(i).split(\'"\') #開始新的遍歷網頁
resp = request.urlopen(i[3])
html_data = resp.read()
hl = bs(html_data)
main_text=hl.select("#link-report")
try:
i = str(main_text).split("<p>")[1]
talk_text=i.split("</p>")[0] #下面引用jieba分詞提取關鍵詞
for i in jieba.analyse.extract_tags(talk_text, topK=20, withWeight=False, allowPOS=()):
if xu.find(i) == -1: if i.find("t") > -1or i.find("s")>-1or i.find("b")>-1:
pass
else:
main_word.append(i)
except:
passprint(main_word)#最后利用詞云顯示一波- - 懶得按電影分類了
import matplotlib.pyplot as plt
from wordcloud import WordCloud
wc = WordCloud( background_color="white", width="360px",height="auto" />
font_path="font.ttc",#不加這一句顯示口字形亂碼 margin=2)#亂碼解決辦法源自http://www.cnblogs.com/fanyuchen/p/7156959.htmlsplit = " ".join(main_word)pic=wc.generate(split)
plt.imshow(pic)
plt.axis("off")
plt.show()#當然可以優化一下分詞以及對電影的分類展示,但是- = 我懶
效果圖在下面
劃重點:1、try 的使用方式。2、字體亂碼可利用設置字體文件解決。3、結巴分詞的使用方法。4、詞云的使用方法。
注意:這個程序同時適用于豆瓣圖書和電影
以上就是關于pos機顯示亂碼,簡單爬蟲爬下豆瓣評論并玩轉詞云可視化顯示的知識,后面我們會繼續為大家整理關于pos機顯示亂碼的知識,希望能夠幫助到大家!
