在Android中parsingHTML

我想从网页parsingHTML中的Android,并且由于网页不正确形成,我得到SAXException

有没有办法在Android中parsingHTML?

  • 电子书分析器(.azw,.mobi,epub)?
  • 如何parsing2013-03-13T20:59:31 + 0000datestring到date
  • Android SAXparsing器不能从标签之间获取全文
  • 在android中获取并parsingCSV文件
  • parsingXML HttpResponse
  • 我如何可靠地从AttributeSet中获取颜色?
  • parsing:从应用发送推送通知
  • 如何在OpenCV中设置Android的摄像头分辨率?
  • 我刚刚遇到这个问题。 我尝试了一些东西,但决定使用JSoup 。 这个jar大概是132k,这有点大,但是如果你下载了源代码并且拿出了一些你不会使用的方法,那么它就不是那么大。
    =>好的一点是,它将处理格式不正确的HTML

    这是他们网站的一个很好的例子。

     File input = new File("/tmp/input.html"); Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/"); //http://jsoup.org/cookbook/input/load-document-from-url //Document doc = Jsoup.connect("http://example.com/").get(); Element content = doc.getElementById("content"); Elements links = content.getElementsByTag("a"); for (Element link : links) { String linkHref = link.attr("href"); String linkText = link.text(); } 

    你有没有尝试过使用Html.fromHtml(源) ?

    我认为这个类在源代码质量方面非常自由(它在内部使用TagSoup ,它是为现实生活中的错误而devise的)。 虽然它不支持所有的HTML标签,但它确实附带了一个处理程序,您可以对其执行的处理程序进行处理,以对不理解的标记作出反应

     String tmpHtml = "<html>a whole bunch of html stuff</html>"; String htmlTextStr = Html.fromHtml(tmpHtml).toString(); 

    也许你可以使用WebView,但正如你可以在文档中看到的WebView不支持JavaScript和其他东西,如小部件默认情况下。

    http://developer.android.com/reference/android/webkit/WebView.html

    我认为你可以启用JavaScript,如果你需要它。