Java の HTML パーサとスクレイピング

Java の HTML パーサとスクレイピング

jsoup


-jsoup Java HTML Parser, with best of DOM, CSS, and jquery
--https://jsoup.org/

-GitHub - jhy/jsoup: jsoup: Java HTML Parser, with best of DOM, CSS, and jquery
--https://github.com/jhy/jsoup

HtmlCleaner


-HtmlCleaner Project Home Page
--http://htmlcleaner.sourceforge.net/

JTidy


-JTidy
--http://www.nilab.info/wiki/JTidy.html

HTML Parser


-[ヅ] Javaでウェブページの情報を取得する with HTML Parser (org.htmlparser)
--http://www.nilab.info/z3/20100113_zlashdot_001093.html

NekoHTML


-NekoHTML
--http://nekohtml.sourceforge.net/

The Validator.nu HTML Parser


-The Validator.nu HTML Parser
--https://about.validator.nu/htmlparser/

参考資料


-Java/HTMLパーサライブラリ調査メモ(2015-03時点) - Glamenv-Septzen.net
--https://www.glamenv-septzen.net/view/1397

-Javaで使える、HTML5パーサ - CLOVER
--https://kazuhira-r.hatenablog.com/entry/20140107/1389108413

-Open Source HTML Parsers in Java
--http://java-source.net/open-source/html-parsers