剛學python抓中文網頁遇到編碼的問題怎麼轉換

2021-12-24 15:33:46 字數 1472 閱讀 5533

1樓:老夭來了

其實你可以用現成的框架,比如scrapy,已經幫你處理了編碼的問題。

說明是gbk編碼。

#str是你獲取到的頁面內容

str.decode("gbk")

這樣生成的就是python內部編碼unicode了,如果你再想編碼成utf8,可以:

str.encode("utf8")

如果解決了您的問題請採納!

如果未解決請繼續追問!

2樓:可轉債量化分析

我剛學那會也是,有些編碼很麻煩。不過無非試多幾次。

這段時間在用python處理網頁抓取這塊,網際網路很多網頁的編碼格式都不一樣,大體上是gbk,gb2312,utf-8幾種。我們在獲取網頁的的資料後,先要對網頁的編碼進行判斷,才能把抓取的內容的編碼統一轉換為我們能夠處理的編碼。比如beautiful soup內部的編碼就是unicode的編碼。

下面介紹兩種python 判斷網頁編碼的方法:

2 import chardet 你需要安裝一下chardet第3方模組判斷編碼

怎麼解決中文網頁html中,編碼不一致問題(python,beautifulsoup)

3樓:

"同一篇html中,部分用utf-8,部分用了gb2312.."

說一句粗話,文雅人請跳過後續答案:

真他媽的**** verdammt! ...

python爬蟲抓下來的網頁,中間的中文亂碼怎麼解決

4樓:龍氏風采

對於python的中文編碼問題可以參考下面的帖子

對於網頁的中文亂碼,建立使用requests模組代替urllib\urllib2

requests的content方法,對中文編碼,支援比較好,基本不會出現亂碼。

req=requests.get(url,cookies=mecookies)

print req.content

具體用法,參見下面兩個帖子,較詳細:

5樓:匿名使用者

沒用的,可以刪了,刪了不妨礙網頁,就可以啊

如何學python,學Python應該怎麼學

python資料分析的門檻較低,如果是python零基礎開始學,學習的步驟大概是python基礎 資料採集 資料處理 資料分析 資料視覺化。首先學習一點python基礎的知識,python語言基礎,函式,檔案操作,物件導向,異常處理,模組和包,linux系統使用,mysql資料庫等 其次就可以學習一...

學python有前途麼,學Python有前途麼?

python是現在比較流行的語言,現在市場上的需求量是比較高的,python就業崗位也是比較多的,在多個領域都得到了很好的應用,所以說python發展還是很不錯的,只要你學的好,前途不可限量。這個語言肯定是不錯的,算的上是近幾年比較火的語言,加上國家的支援,人工智慧時代的到來,這個語言不可或缺。像培...

python程式設計 中文 出現亂碼問題

這是因為idle中使用gbk編碼,是ascii擴充套件字符集。import sys sys.getdefaultencoding ascii 解決方法 在idle中執行的時候 去掉字串前面的u字元,也不要加 coding這一行。先import sys,然後reload sys 再使用sys.setd...