Star1111 发表于 2020-5-18 16:08:37

爬虫过程中遇到的解码问题

UnicodeEncodeError: 'UCS-2' codec can't encode characters in position 69-69: Non-BMP character not supported in Tk


这是发生的错误,请问我爬取微博的数据之后,准备写在txt文件上,用的是utf-8编码形式打开的,然后发现如果在微博中爬取的内容出现了其他网页的链接,就是比如微博转发的内容里包括了其他网页的链接, 就会抛出这个错误,请问可以怎么解决呢?

Twilight6 发表于 2020-5-18 16:10:59

通过正则遍历然后sub替换成”“空字符串可行吗?

wp231957 发表于 2020-5-18 17:58:13

忽略之呢,会有影响不
页: [1]
查看完整版本: 爬虫过程中遇到的解码问题