1 min read
Wikipedia(Abstract) to SQLite3
Wikipedia全文のjawiki-latest-pages-articles.xml
に関しては公式のxml2sqlでできるが、要約だけが記載されているjawiki-latest-abstract.xml
ではエラーを吐いて落ちるだけ。
ということで自動でSQLite3に突っ込んでくれるPHPプログラムを書いた。
sugtao4423/WikiAbstractXML2SQLite3
環境:MacBook Pro (Retina, 15-inch, Late 2013)
前回の全文XMLパースの時と同じ
2分半で全てのタイトル
URL
要約文
リンク文
リンクURL
をSQLite3化できた。
抽出例 ※見やすいようにカラムごとに改行してあります
sqlite> select * from wikipedia where title='GitHub';
GitHub|
https://ja.wikipedia.org/wiki/GitHub|
| alexa = 61位|
概要,脚注,参考文献,関連項目,外部リンク|
https://ja.wikipedia.org/wiki/GitHub#.E6.A6.82.E8.A6.81,https://ja.wikipedia.org/wiki/GitHub#.E8.84.9A.E6.B3.A8,https://ja.wikipedia.org/wiki/GitHub#.E5.8F.82.E8.80.83.E6.96.87.E7.8C.AE,https://ja.wikipedia.org/wiki/GitHub#.E9.96.A2.E9.80.A3.E9.A0.85.E7.9B.AE,https://ja.wikipedia.org/wiki/GitHub#.E5.A4.96.E9.83.A8.E3.83.AA.E3.83.B3.E3.82.AF
見てもわかる通り、要約文が意味不明。
いろんな単語を見てみても、まともな要約文があまり見つからない。どうしようね。
リンク文、リンクURLは全てカンマ区切りで突っ込んである。
リンク文中にカンマが存在する場合は\,
というふうにバックスラッシュでエスケープ風にしてある。