作者: 乔克斯
查看: 13044|回复: 35

[源码] 【网页正文提取】C#从Html中提取正文

[复制链接]
乔克斯 发表于 2015-4-19 15:44:49 | 显示全部楼层 |阅读模式
查看: 13044|回复: 35
说明:
从html中提取正文的算法和demo。

主要原理为:
  • 解析html代码,根据文本密度提取出正文。
  • 根据title和h1标签提取出标题。
  • 用正则提取出时间。
  • 用了做数据采集的正文提取是再合适不过了,经测试大部分地址都可以成功提取出正文内容。

效果截图:
1.主界面。

2.带标签正文。


案例源码下载:

评分

参与人数 3金钱 +3 收起 理由
LineL + 1 感谢LZ对论坛做出的贡献~
xulong20006 + 1
iNIC + 1 感谢分享,LZ辛苦了~

查看全部评分

回复 论坛版权

使用道具 举报

辰晓晨 发表于 2015-4-20 08:27:52 | 显示全部楼层
赞一个
回复

使用道具 举报

iNIC 发表于 2015-4-20 08:40:16 | 显示全部楼层
学习学习,赞一个
kuafaaf 发表于 2015-4-20 09:08:48 | 显示全部楼层
学习了=v=
回复

使用道具 举报

zhl715474578 发表于 2015-4-22 09:32:51 | 显示全部楼层
真心不错。。。。。。。。。。。
回复

使用道具 举报

97043232 发表于 2015-4-28 12:58:35 | 显示全部楼层
留个记号
回复

使用道具 举报

kfel520 发表于 2015-5-27 05:19:11 | 显示全部楼层
支持一下,,正有用
黑水无涯 发表于 2015-6-2 19:31:21 来自手机 | 显示全部楼层
正需要这个呢。
snr19820216 发表于 2015-8-19 15:27:07 | 显示全部楼层
感谢分享,LZ辛苦了~
code1984 发表于 2015-8-20 01:22:28 | 显示全部楼层
谢谢分享。。。。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 加入CSkin博客

本版积分规则

QQ|申请友链|小黑屋|手机版|Archiver|CSkin ( 粤ICP备13070794号

Powered by Discuz! X3.2  © 2001-2013 Comsenz Inc.  Designed by ARTERY.cn
GMT+8, 2021-10-20 14:02, Processed in 0.642602 second(s), 37 queries , Gzip On.

快速回复 返回顶部 返回列表