NineMeow 发表于 2023-6-23 20:17:34

怎么抓取bbs上的轻小说呢

https://p.sda1.dev/12/92ff98835d9140e8551e6d337ac4be10/Code_Cf9JQ0DzDD.png
前几天拿python配bs库写了个用来提取bbs主题内轻小说内容的脚本

用来处理的html文件是我简单粗暴地拿pagetual把某论坛某卷小说主题全部页加载之后,直接ctrl+s保存出来的

结果处理的时候出现报错,说html文件里面有utf-8编码对应不上字符集……试了好几次抓网页都是这样,原因未知,这种情况是硬把不明确的unicode字符去掉再处理,还是另辟蹊径呢?

rdo2pr 发表于 2023-6-23 20:56:55

好奇,把文件传上来让大伙试试.jpg

立花莉花 发表于 2023-6-23 21:38:38

肯定是进行加密了,你要是能破解就慢慢破解吧

NineMeow 发表于 2023-6-23 22:26:51

立花莉花 发表于 2023-6-23 21:38
肯定是进行加密了,你要是能破解就慢慢破解吧

拿正则匹配了一下发现对应不上的全都是中文字符,这是什么玄学

NineMeow 发表于 2023-6-23 22:33:00

rdo2pr 发表于 2023-6-23 20:56
好奇,把文件传上来让大伙试试.jpg

https://t.wss.ink/f/bixx7znu3in

rdo2pr 发表于 2023-6-23 23:10:17

本帖最后由 rdo2pr 于 2023-6-23 23:37 编辑

NineMeow 发表于 2023-6-23 22:33
https://t.wss.ink/f/bixx7znu3in

一个想法,不一定对
读取的时候先加上 encoding?
with open(dir, 'r', encoding='utf-8') as file:

NineMeow 发表于 2023-6-24 08:26:47

rdo2pr 发表于 2023-6-23 23:10
一个想法,不一定对
读取的时候先加上 encoding?

加上之后能正常读取了,感谢!不过python编码效率真的低,而且只会调单核,我试试其他方案先把编码问题解决了

rdo2pr 发表于 2023-6-24 09:44:08

本帖最后由 rdo2pr 于 2023-6-24 09:48 编辑

NineMeow 发表于 2023-6-24 08:26
加上之后能正常读取了,感谢!不过python编码效率真的低,而且只会调单核,我试试其他方案先把编码问题解 ...

那个html文件太大了,解析直接给卡住了
一页页爬倒是轻松,两三分钟就处理完了

只会调单核可能加个线程池就行了?

NineMeow 发表于 2023-6-24 11:17:06

rdo2pr 发表于 2023-6-24 09:44
那个html文件太大了,解析直接给卡住了
一页页爬倒是轻松,两三分钟就处理完了



我水平不行,还不会做并行,不过谢谢你的帮助!

eiauo 发表于 2023-6-25 08:55:08

用阅读app,不要自己伤脑筋了。

satel41 发表于 2023-7-13 10:29:36

字体加密了,除非你有网站字库,否则老老实实截图然后直接识图把。

ytdushu 发表于 2023-7-13 12:22:47

satel41 发表于 2023-7-13 10:29
字体加密了,除非你有网站字库,否则老老实实截图然后直接识图把。

我试过下载网页字体导入本地,然后把复制过来的“乱码”加密文用word打开,转换成导入的字体,然后就正常显示了,但就结论来说还是没什么卵用,这不是我这种外行人可以涉入的领域{:1F602:}

satel41 发表于 2023-7-14 09:49:01

ytdushu 发表于 2023-7-13 12:22
我试过下载网页字体导入本地,然后把复制过来的“乱码”加密文用word打开,转换成导入的字体,然后就正常 ...

这种一般是先用加密字体把正常文章转成乱码,然后网站上贴的的其实是乱码,你复制下来的也是乱码,但通过网站内置字体加载后显示的就是正常的。像你说的,就算解密也没什么卵用。

南宮幽日 发表于 2023-7-15 16:25:52

satel41 发表于 2023-7-14 09:49
这种一般是先用加密字体把正常文章转成乱码,然后网站上贴的的其实是乱码,你复制下来的也是乱码,但通过 ...

做個字元對應/字符映射

yqing1204 发表于 2023-7-19 05:00:58

可以试试网上的破解版字体?加载出来好像挺适配的

a12345678 发表于 2023-7-25 09:58:32

本帖最后由 a12345678 于 2023-7-25 10:01 编辑

可以用一下selenium,直接抓实时网页
页: [1]
查看完整版本: 怎么抓取bbs上的轻小说呢