作者: 乔克斯
查看: 18206|回复: 37
打印 上一主题 下一主题

[源码] 【网页正文提取】C#从Html中提取正文

[复制链接]
跳转到指定楼层
楼主
查看: 18206|回复: 37
说明:
从html中提取正文的算法和demo。

主要原理为:
  • 解析html代码,根据文本密度提取出正文。
  • 根据title和h1标签提取出标题。
  • 用正则提取出时间。
  • 用了做数据采集的正文提取是再合适不过了,经测试大部分地址都可以成功提取出正文内容。

效果截图:
1.主界面。

2.带标签正文。


案例源码下载:

评分

参与人数 3金钱 +3 收起 理由
LineL + 1 感谢LZ对论坛做出的贡献~
xulong20006 + 1
iNIC + 1 感谢分享,LZ辛苦了~

查看全部评分

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏14 转播转播
回复 论坛版权

使用道具 举报

您需要登录后才可以回帖 登录 | 加入CSkin博客

本版积分规则

QQ|申请友链|小黑屋|手机版|Archiver|CSkin ( 粤ICP备13070794号

Powered by Discuz! X3.2  © 2001-2013 Comsenz Inc.  Designed by ARTERY.cn
GMT+8, 2024-5-3 21:55, Processed in 0.580913 second(s), 33 queries , Gzip On.

快速回复 返回顶部 返回列表