2 min read
Wikipedia to MySQL to SQLite3
MySQLへの変換方法はこちらのサイト様を丸パk参考にさせていただきました。
環境
- MacBook Pro (Retina, 15-inch, Late 2013)
- El Capitan 10.11.6
MySQLの文字コード
$ mysql -uroot
mysql> show variables like "chara%";
+--------------------------+----------------------------+
| Variable_name | Value |
+--------------------------+----------------------------+
| character_set_client | utf8 |
| character_set_connection | utf8 |
| character_set_database | utf8 |
| character_set_filesystem | binary |
| character_set_results | utf8 |
| character_set_server | utf8 |
| character_set_system | utf8 |
| character_sets_dir | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+
ほぼ全てがutf8になってればおk
なってなければ設定ファイルのmy.cnf
に追記
[mysqld]
character-set-server=utf8
[client]
default-character-set=utf8
ダンプデータDL
$ wget https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
$ bzip2 -d jawiki-latest-pages-articles.xml.bz2
解凍にちょっと時間かかる
解凍後は10.53GBあった
xml2sql
ダンプデータをsql形式に変換するやつ
$ git clone https://github.com/Tietew/mediawiki-xml2sql
$ cd mediawiki-xml2sql/
$ ./configure
$ make
$ sudo make install
xmlからsqlの形式に変換
$ cat jawiki-latest-pages-articles.xml | sed -e 's/<dbname>.*<\/dbname>//' -e 's/<ns>.*<\/ns>//' -e 's/<parentid>.*<\/parentid>//' -e 's/<sha1>.*<\/sha1>//' -e 's/<model>.*<\/model>//' -e 's/<format>.*<\/format>//' -e 's/<redirect>.*<\/redirect>//' -e 's/<redirect.*\/>//' | xml2sql
24分かかった
page.txt
text.txt
revision.txt
が作られる
ダンプデータをMySQLへ
sqlのテーブル定義をいれる
$ wget https://releases.wikimedia.org/mediawiki/1.29/mediawiki-1.29.0.tar.gz
$ tar xzvf mediawiki-1.29.0.tar.gz
$ mysql -uroot
mysql> create database wikipedia;
mysql> exit
$ mysql -uroot wikipedia < mediawiki-1.29.0/maintenance/tables.sql
データを挿入する
$ mysqlimport --fields-terminated-by="\t" --default-character-set=utf8 -uroot -dLp wikipedia page.txt
$ mysqlimport --fields-terminated-by="\t" --default-character-set=utf8 -uroot -dLp wikipedia text.txt
$ mysqlimport --fields-terminated-by="\t" --default-character-set=utf8 -uroot -dLp wikipedia revision.txt
page.txt
- 186MB - 1分半text.txt
- 8.6GB - 12分revision.txt
- 235M - 4分
MySQL to SQLite3
$ git clone https://github.com/dumblob/mysql2sqlite
$ cd mysql2sqlite/
$ mysqldump --skip-extended-insert --compact -uroot wikipedia > dump_wiki.sql
$ ./mysql2sqlite dump_wiki.sql | sqlite3 wiki.sqlite3
15分かかった。
おしまい
jawiki-latest-pages-articles.xml
に関してはこの方法でできるが、要約だけが記載されているjawiki-latest-abstract.xml
では通用しない。
要約だけが欲しいので、今度パースするプログラムを作ろう。