深夜读书会

 找回密码
 注册
搜索
查看: 865|回复: 15

[求助] 怎么抓取bbs上的轻小说呢

[复制链接]

3

主题

17

帖子

72

积分

初翻书页

Rank: 2Rank: 2

积分
72
贡献
72
金币
-7
发表于 2023-6-23 20:17:34 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

x

                               
登录/注册后可看大图

前几天拿python配bs库写了个用来提取bbs主题内轻小说内容的脚本

用来处理的html文件是我简单粗暴地拿pagetual把某论坛某卷小说主题全部页加载之后,直接ctrl+s保存出来的

结果处理的时候出现报错,说html文件里面有utf-8编码对应不上字符集……试了好几次抓网页都是这样,原因未知,这种情况是硬把不明确的unicode字符去掉再处理,还是另辟蹊径呢?
回复

使用道具 举报

48

主题

1047

帖子

2508

积分

版主

Rank: 10Rank: 10

积分
2508
贡献
2508
金币
3568

版主御守

发表于 2023-6-23 20:56:55 | 显示全部楼层
好奇,把文件传上来让大伙试试.jpg
回复 支持 1 反对 0

使用道具 举报

10

主题

156

帖子

875

积分

小书痴

Rank: 3

积分
875
贡献
875
金币
355
发表于 2023-6-23 21:38:38 | 显示全部楼层
肯定是进行加密了,你要是能破解就慢慢破解吧
回复 支持 反对

使用道具 举报

3

主题

17

帖子

72

积分

初翻书页

Rank: 2Rank: 2

积分
72
贡献
72
金币
-7
 楼主| 发表于 2023-6-23 22:26:51 | 显示全部楼层
立花莉花 发表于 2023-6-23 21:38
肯定是进行加密了,你要是能破解就慢慢破解吧

拿正则匹配了一下发现对应不上的全都是中文字符,这是什么玄学
回复 支持 反对

使用道具 举报

3

主题

17

帖子

72

积分

初翻书页

Rank: 2Rank: 2

积分
72
贡献
72
金币
-7
 楼主| 发表于 2023-6-23 22:33:00 | 显示全部楼层
rdo2pr 发表于 2023-6-23 20:56
好奇,把文件传上来让大伙试试.jpg

https://t.wss.ink/f/bixx7znu3in
回复 支持 反对

使用道具 举报

48

主题

1047

帖子

2508

积分

版主

Rank: 10Rank: 10

积分
2508
贡献
2508
金币
3568

版主御守

发表于 2023-6-23 23:10:17 | 显示全部楼层
本帖最后由 rdo2pr 于 2023-6-23 23:37 编辑


一个想法,不一定对
读取的时候先加上 encoding?
  1. with open(dir, 'r', encoding='utf-8') as file:
复制代码
回复 支持 反对

使用道具 举报

3

主题

17

帖子

72

积分

初翻书页

Rank: 2Rank: 2

积分
72
贡献
72
金币
-7
 楼主| 发表于 2023-6-24 08:26:47 | 显示全部楼层
rdo2pr 发表于 2023-6-23 23:10
一个想法,不一定对
读取的时候先加上 encoding?

加上之后能正常读取了,感谢!不过python编码效率真的低,而且只会调单核,我试试其他方案先把编码问题解决了
回复 支持 反对

使用道具 举报

48

主题

1047

帖子

2508

积分

版主

Rank: 10Rank: 10

积分
2508
贡献
2508
金币
3568

版主御守

发表于 2023-6-24 09:44:08 | 显示全部楼层
本帖最后由 rdo2pr 于 2023-6-24 09:48 编辑
NineMeow 发表于 2023-6-24 08:26
加上之后能正常读取了,感谢!不过python编码效率真的低,而且只会调单核,我试试其他方案先把编码问题解 ...


那个html文件太大了,解析直接给卡住了
一页页爬倒是轻松,两三分钟就处理完了

只会调单核可能加个线程池就行了?
回复 支持 反对

使用道具 举报

3

主题

17

帖子

72

积分

初翻书页

Rank: 2Rank: 2

积分
72
贡献
72
金币
-7
 楼主| 发表于 2023-6-24 11:17:06 | 显示全部楼层
rdo2pr 发表于 2023-6-24 09:44
那个html文件太大了,解析直接给卡住了
一页页爬倒是轻松,两三分钟就处理完了

我水平不行,还不会做并行,不过谢谢你的帮助!
回复 支持 反对

使用道具 举报

2

主题

20

帖子

64

积分

初翻书页

Rank: 2Rank: 2

积分
64
贡献
64
金币
23
发表于 2023-6-25 08:55:08 | 显示全部楼层
用阅读app,不要自己伤脑筋了。
回复 支持 反对

使用道具 举报

1

主题

24

帖子

95

积分

初翻书页

Rank: 2Rank: 2

积分
95
贡献
95
金币
42
发表于 2023-7-13 10:29:36 | 显示全部楼层
字体加密了,除非你有网站字库,否则老老实实截图然后直接识图把。
回复 支持 反对

使用道具 举报

3

主题

1636

帖子

5327

积分

吃书妖怪

Rank: 5Rank: 5Rank: 5

积分
5327
贡献
5327
金币
584
发表于 2023-7-13 12:22:47 | 显示全部楼层
satel41 发表于 2023-7-13 10:29
字体加密了,除非你有网站字库,否则老老实实截图然后直接识图把。

我试过下载网页字体导入本地,然后把复制过来的“乱码”加密文用word打开,转换成导入的字体,然后就正常显示了,但就结论来说还是没什么卵用,这不是我这种外行人可以涉入的领域
回复 支持 反对

使用道具 举报

1

主题

24

帖子

95

积分

初翻书页

Rank: 2Rank: 2

积分
95
贡献
95
金币
42
发表于 2023-7-14 09:49:01 | 显示全部楼层
ytdushu 发表于 2023-7-13 12:22
我试过下载网页字体导入本地,然后把复制过来的“乱码”加密文用word打开,转换成导入的字体,然后就正常 ...

这种一般是先用加密字体把正常文章转成乱码,然后网站上贴的的其实是乱码,你复制下来的也是乱码,但通过网站内置字体加载后显示的就是正常的。像你说的,就算解密也没什么卵用。
回复 支持 反对

使用道具 举报

99

主题

407

帖子

2080

积分

E·怠工组

Rank: 9

积分
2080
贡献
2080
金币
6690

E·怠工组天野远子·Epub组纪念章

发表于 2023-7-15 16:25:52 | 显示全部楼层
satel41 发表于 2023-7-14 09:49
这种一般是先用加密字体把正常文章转成乱码,然后网站上贴的的其实是乱码,你复制下来的也是乱码,但通过 ...


做個字元對應/字符映射
回复 支持 反对

使用道具 举报

4

主题

18

帖子

98

积分

初翻书页

Rank: 2Rank: 2

积分
98
贡献
98
金币
-2
发表于 2023-7-19 05:00:58 | 显示全部楼层
可以试试网上的破解版字体?加载出来好像挺适配的
回复 支持 反对

使用道具 举报

12

主题

244

帖子

901

积分

小书痴

Rank: 3

积分
901
贡献
901
金币
81
发表于 2023-7-25 09:58:32 | 显示全部楼层
本帖最后由 a12345678 于 2023-7-25 10:01 编辑

可以用一下selenium,直接抓实时网页
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|Archiver|手机版|小黑屋|ritdon

GMT+8, 2024-11-23 13:37 , Processed in 0.225435 second(s), 19 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表