2014年2月22日土曜日

IIP特許データベースの導入

研究で特許のデータベースが欲しくなって調べてみると,知的財産研究所さんがIIPパテントデータベースなる物を公開してくれているのを発見.
Debian GNU/LinuxのMySQLに導入する話.

ファイルのダウンロード,解凍

知的財産研究所さんのサイトからダウンロードし,適当に解凍します.回線によっては結構時間がかかるかもしれません

文字コード

ダウンロードしたファイルはCSV形式なのですが,サイズがサイズなのでデータベースに取り込んだ方が良いと思います.
が,ファイルがShift-JISで何かと不都合が出てくるのでUTF-8に変更します.
文字コード変換ソフトnkfをインストールして,以下のスクリプトを実行します.

mkdir utf8/
for a in `ls *.csv`
do
    echo $a
    nkf -w $a > utf8/$a
done

MySQLの文字コードを(たぶん)調整する必要があるのですが,割と情報が錯綜してます.
/etc/mysql/my.cnfを
…略…
[mysqld]
character-set-server = utf8
collation-server = utf8_general_ci
init-coonect = SET NAMES utf
…略…
[mysql]
default-character-set = utf8
みたいな感じに修正してみてください.
忘れないように再起動
service mysql restart

データベースへの取り込み

MySQLにログインして,データベースの作成
CREATE DATABASE iip;
テーブルの作成
use iip;
source iipcreate.sql;
データ取り込み
LOAD DATA INFILE 'ap.csv' into table ap FIELDS terminated by ',' ENCLOSED by '"';
LOAD DATA INFILE 'applicant.csv' into table applicant FIELDS terminated by ',' ENCLOSED by '"';
以下同様
データの取り込みは結構時間が掛かりますので,スクリプトにでもした方が良いかも.

テスト

上手く取り込めたかテストテスト.MySQLにログインして
mysql> select * from reg limit 10;
mysql> select * from applicant where name llike "鳥取大学%"



上手くいってる?

0 件のコメント:

コメントを投稿