Index > wikipedia

wikipedia

Sun, December 7, 2008

'持ち運べるウィキペディア'のためのツール wpindex.jar

これは、wpdb で作成したデータベースをもとに、検索用インデックスを作成するプログラムです。

使い方は '持ち運べるウィキペディア'をつくる のエントリーをご覧ください。

※このエントリーは書きかけです。

続きを読む

Sun, December 7, 2008

'持ち運べるウィキペディア'のためのツール wpsearch.jar

これは、 wpindexwpui のライブラリです。

Luceneを使ってwikipediaコンテンツの検索インデックスの作成と 検索機能を提供します。

※このエントリーは書きかけです。

続きを読む

Wed, December 3, 2008

wiki2html ...ウィキペディア(Wikipedia)のデータ(wikitext)をHTMLに変換するツール

WikipediaのXMLファイル (http://download.wikimedia.org/) から抽出したテキストをHTMLに変換するツール。

※このエントリーは書きかけです。

続きを読む

Thu, June 28, 2007

Wiki記法で記述されたテキストをプレーンテキストに変換する(PEAR Text_Wiki)

Wiki記法で書かれたテキストをプレーンテキストに変換する方法。

単に、PEARの Text_Wiki モジュールで、{strong:xhtml} の代りに {strong:plain} を指定すればOK。

別の方法としては、xhtml に変換したあとに、 HTMLタグを除去する方法もある。

続きを読む

Fri, June 22, 2007

MediaWiki記法で記述されたテキストをHTMLに変換する(PEAR TextWikiMediawiki)

前回Wiki記法で書かれたテキストをPEARのTextWikiを使って HTMLに変換することができたが、 Wikipediaは、MediaWikiを使っているため、TextWikiだけでは、不十分。 そこで、TextWikiMediawikiというモジュールを使用することにした。

続きを読む

Sun, June 17, 2007

Wiki記法で記述されたテキストをHTMLに変換する(PEAR Text_Wiki)

PEAR Text_Wiki モジュールを使えば変換できることが判明。 日本語が通らないと思っていたが、適切に設定していなかっただけのようだ。

以下のように設定してから変換してやれば日本語が通った。 (テキストエンコーディングはUTF-8)

続きを読む

Fri, June 15, 2007

ウィキペディアコンテンツの活用 XML形式のWikipediaデータからJavaを使って記事だけを取り出す方法

Wikipediaのコンテンツを活用して自前のアプリケーションを書くために、 今回Javaで処理する方法を調べました。

まず下準備として、 以下のWikimediaのダウンロードページからコンテンツを 入手します。

XML,SQL,StaticHTMLの形式が選択できますが、今回は、XMLデータをダウンロードして それを活用することにします。

StaticHTMLは便利そうですが、データが古いのと、 HTML中にこちらが意図しない情報も含まれていると取り除くのが面倒です。 XMLであれば、直接wiki textで書かれたコンテンツデータを入手できるので、 このwiki textをこちらの都合のよいように変換して使うことができます。

続きを読む

 Twitter
follow me on Twitter
 Categories
 Archives