说明: 从html中提取正文的算法和demo。 主要原理为: 解析html代码,根据文本密度提取出正文。根据title和h1标签提取出标题。用正则提取出时间。用了做数据采集的正文提取是再合适不过了,经测试大部分地址都可以 ...