2 min read

Wikipedia to MySQL to SQLite3

MySQLへの変換方法はこちらのサイト様丸パk参考にさせていただきました。

環境

  • MacBook Pro (Retina, 15-inch, Late 2013)
  • El Capitan 10.11.6

MySQLの文字コード

$ mysql -uroot

mysql> show variables like "chara%";
+--------------------------+----------------------------+
| Variable_name            | Value                      |
+--------------------------+----------------------------+
| character_set_client     | utf8                       |
| character_set_connection | utf8                       |
| character_set_database   | utf8                       |
| character_set_filesystem | binary                     |
| character_set_results    | utf8                       |
| character_set_server     | utf8                       |
| character_set_system     | utf8                       |
| character_sets_dir       | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+

ほぼ全てがutf8になってればおk
なってなければ設定ファイルのmy.cnfに追記

[mysqld]
character-set-server=utf8

[client]
default-character-set=utf8

ダンプデータDL

$ wget https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
$ bzip2 -d jawiki-latest-pages-articles.xml.bz2

解凍にちょっと時間かかる
解凍後は10.53GBあった

xml2sql

ダンプデータをsql形式に変換するやつ

$ git clone https://github.com/Tietew/mediawiki-xml2sql
$ cd mediawiki-xml2sql/
$ ./configure
$ make
$ sudo make install

xmlからsqlの形式に変換

$ cat jawiki-latest-pages-articles.xml | sed -e 's/<dbname>.*<\/dbname>//' -e 's/<ns>.*<\/ns>//' -e 's/<parentid>.*<\/parentid>//' -e 's/<sha1>.*<\/sha1>//' -e 's/<model>.*<\/model>//' -e 's/<format>.*<\/format>//' -e 's/<redirect>.*<\/redirect>//' -e 's/<redirect.*\/>//' | xml2sql

24分かかった
page.txt text.txt revision.txtが作られる

ダンプデータをMySQLへ

sqlのテーブル定義をいれる

$ wget https://releases.wikimedia.org/mediawiki/1.29/mediawiki-1.29.0.tar.gz
$ tar xzvf mediawiki-1.29.0.tar.gz
$ mysql -uroot

mysql> create database wikipedia;
mysql> exit

$ mysql -uroot wikipedia < mediawiki-1.29.0/maintenance/tables.sql

データを挿入する

$ mysqlimport --fields-terminated-by="\t" --default-character-set=utf8 -uroot -dLp wikipedia page.txt
$ mysqlimport --fields-terminated-by="\t" --default-character-set=utf8 -uroot -dLp wikipedia text.txt
$ mysqlimport --fields-terminated-by="\t" --default-character-set=utf8 -uroot -dLp wikipedia revision.txt
  • page.txt - 186MB - 1分半
  • text.txt - 8.6GB - 12分
  • revision.txt - 235M - 4分

MySQL to SQLite3

$ git clone https://github.com/dumblob/mysql2sqlite
$ cd mysql2sqlite/
$ mysqldump --skip-extended-insert --compact -uroot wikipedia > dump_wiki.sql
$ ./mysql2sqlite dump_wiki.sql | sqlite3 wiki.sqlite3

15分かかった。

おしまい

jawiki-latest-pages-articles.xmlに関してはこの方法でできるが、要約だけが記載されているjawiki-latest-abstract.xmlでは通用しない。

要約だけが欲しいので、今度パースするプログラムを作ろう。