剛學python抓中文網頁遇到編碼的問題怎麼轉換

1樓：老夭來了

其實你可以用現成的框架，比如scrapy，已經幫你處理了編碼的問題。

說明是gbk編碼。

#str是你獲取到的頁面內容

str.decode("gbk")

這樣生成的就是python內部編碼unicode了，如果你再想編碼成utf8，可以：

str.encode("utf8")

如果解決了您的問題請採納！

如果未解決請繼續追問！

2樓：可轉債量化分析

我剛學那會也是，有些編碼很麻煩。不過無非試多幾次。

這段時間在用python處理網頁抓取這塊，網際網路很多網頁的編碼格式都不一樣，大體上是gbk,gb2312，utf-8幾種。我們在獲取網頁的的資料後，先要對網頁的編碼進行判斷，才能把抓取的內容的編碼統一轉換為我們能夠處理的編碼。比如beautiful soup內部的編碼就是unicode的編碼。

下面介紹兩種python 判斷網頁編碼的方法：

2 import chardet 你需要安裝一下chardet第3方模組判斷編碼

怎麼解決中文網頁html中，編碼不一致問題（python，beautifulsoup）

3樓：

"同一篇html中，部分用utf-8，部分用了gb2312.."

說一句粗話，文雅人請跳過後續答案：

真他媽的**** verdammt! ...

python爬蟲抓下來的網頁，中間的中文亂碼怎麼解決

4樓：龍氏風采

對於python的中文編碼問題可以參考下面的帖子

對於網頁的中文亂碼，建立使用requests模組代替urllib\urllib2

requests的content方法，對中文編碼，支援比較好，基本不會出現亂碼。

req=requests.get(url,cookies=mecookies)

print req.content

具體用法，參見下面兩個帖子，較詳細：

5樓：匿名使用者

沒用的，可以刪了，刪了不妨礙網頁，就可以啊

如何學python，學Python應該怎麼學

python資料分析的門檻較低，如果是python零基礎開始學，學習的步驟大概是python基礎資料採集資料處理資料分析資料視覺化。首先學習一點python基礎的知識，python語言基礎，函式，檔案操作，物件導向，異常處理，模組和包，linux系統使用，mysql資料庫等其次就可以學習一...

學python有前途麼，學Python有前途麼？

python是現在比較流行的語言，現在市場上的需求量是比較高的，python就業崗位也是比較多的，在多個領域都得到了很好的應用，所以說python發展還是很不錯的，只要你學的好，前途不可限量。這個語言肯定是不錯的，算的上是近幾年比較火的語言，加上國家的支援，人工智慧時代的到來，這個語言不可或缺。像培...

python程式設計中文出現亂碼問題

這是因為idle中使用gbk編碼，是ascii擴充套件字符集。import sys sys.getdefaultencoding ascii 解決方法在idle中執行的時候去掉字串前面的u字元，也不要加 coding這一行。先import sys,然後reload sys 再使用sys.setd...

剛學python抓中文網頁遇到編碼的問題怎麼轉換

如何學python，學Python應該怎麼學

學python有前途麼，學Python有前途麼？

python程式設計 中文 出現亂碼問題

相關推薦

python程式設計中文出現亂碼問題