1 min read

Wikipedia(Abstract) to SQLite3

Wikipedia全文のjawiki-latest-pages-articles.xmlに関しては公式のxml2sqlでできるが、要約だけが記載されているjawiki-latest-abstract.xmlではエラーを吐いて落ちるだけ。

ということで自動でSQLite3に突っ込んでくれるPHPプログラムを書いた。

sugtao4423/WikiAbstractXML2SQLite3

環境:MacBook Pro (Retina, 15-inch, Late 2013)
前回の全文XMLパースの時と同じ

2分半で全てのタイトル URL 要約文 リンク文 リンクURLをSQLite3化できた。

抽出例 ※見やすいようにカラムごとに改行してあります

sqlite> select * from wikipedia where title='GitHub';
GitHub|
https://ja.wikipedia.org/wiki/GitHub|
| alexa          = 61位|
概要,脚注,参考文献,関連項目,外部リンク|
https://ja.wikipedia.org/wiki/GitHub#.E6.A6.82.E8.A6.81,https://ja.wikipedia.org/wiki/GitHub#.E8.84.9A.E6.B3.A8,https://ja.wikipedia.org/wiki/GitHub#.E5.8F.82.E8.80.83.E6.96.87.E7.8C.AE,https://ja.wikipedia.org/wiki/GitHub#.E9.96.A2.E9.80.A3.E9.A0.85.E7.9B.AE,https://ja.wikipedia.org/wiki/GitHub#.E5.A4.96.E9.83.A8.E3.83.AA.E3.83.B3.E3.82.AF

見てもわかる通り、要約文が意味不明。
いろんな単語を見てみても、まともな要約文があまり見つからない。どうしようね。

リンク文、リンクURLは全てカンマ区切りで突っ込んである。
リンク文中にカンマが存在する場合は\,というふうにバックスラッシュでエスケープ風にしてある。