wikipedia
'持ち運べるウィキペディア'のためのツール wpindex.jar
これは、wpdb で作成したデータベースをもとに、検索用インデックスを作成するプログラムです。
使い方は '持ち運べるウィキペディア'をつくる のエントリーをご覧ください。
※このエントリーは書きかけです。
'持ち運べるウィキペディア'のためのツール wpsearch.jar
Luceneを使ってwikipediaコンテンツの検索インデックスの作成と 検索機能を提供します。
※このエントリーは書きかけです。
wiki2html ...ウィキペディア(Wikipedia)のデータ(wikitext)をHTMLに変換するツール
WikipediaのXMLファイル (http://download.wikimedia.org/) から抽出したテキストをHTMLに変換するツール。
※このエントリーは書きかけです。
Wiki記法で記述されたテキストをプレーンテキストに変換する(PEAR Text_Wiki)
Wiki記法で書かれたテキストをプレーンテキストに変換する方法。
単に、PEARの Text_Wiki モジュールで、{strong:xhtml} の代りに {strong:plain} を指定すればOK。
別の方法としては、xhtml に変換したあとに、 HTMLタグを除去する方法もある。
MediaWiki記法で記述されたテキストをHTMLに変換する(PEAR TextWikiMediawiki)
前回Wiki記法で書かれたテキストをPEARのTextWikiを使って HTMLに変換することができたが、 Wikipediaは、MediaWikiを使っているため、TextWikiだけでは、不十分。 そこで、TextWikiMediawikiというモジュールを使用することにした。
Wiki記法で記述されたテキストをHTMLに変換する(PEAR Text_Wiki)
PEAR Text_Wiki モジュールを使えば変換できることが判明。 日本語が通らないと思っていたが、適切に設定していなかっただけのようだ。
以下のように設定してから変換してやれば日本語が通った。 (テキストエンコーディングはUTF-8)
ウィキペディアコンテンツの活用 XML形式のWikipediaデータからJavaを使って記事だけを取り出す方法
Wikipediaのコンテンツを活用して自前のアプリケーションを書くために、 今回Javaで処理する方法を調べました。
まず下準備として、 以下のWikimediaのダウンロードページからコンテンツを 入手します。
XML,SQL,StaticHTMLの形式が選択できますが、今回は、XMLデータをダウンロードして それを活用することにします。
StaticHTMLは便利そうですが、データが古いのと、 HTML中にこちらが意図しない情報も含まれていると取り除くのが面倒です。 XMLであれば、直接wiki textで書かれたコンテンツデータを入手できるので、 このwiki textをこちらの都合のよいように変換して使うことができます。