有報の開示情報のテキスト分析

2019年6月30日 | By 縄田直治 | Filed in: データの利活用.

有報の分析といえば、だいたいは数字情報の分析を想像するが、数字の分析は既に色々なところで取り組まれているので、なにか新規性を打ち出すには、大掛かりなデータ分析環境があって長期に渡る大量なデータを分析するというところまで取り組まなければならない（と勝手に思い込んでいる）。

今回は、MD&Aの部分を拾い出してテキスト解析を仲間と共に試みたが、結果云々の前にいろいろな課題にぶつかったので、忘れないうちにメモっておく。

１．EDINETのAPIが使いづらい
先日の実証実験に参加したときから分かっていたが、一旦提出文書リストをダウンロードした上で、必要な文書の文書番号を指定してZIPファイルをダウンロード。さらにその中からXBRLファイルを拾い上げて、該当箇所をXBRLタグにより手繰るというアプローチは、APIの利便性をそいでいる。

２．XBRLタグの統一感
理由はわからないが、XBRLタグを独自拡張して記述している会社がある。勘定科目ならまだしも、法定開示項目で単にテキストを入力するだけなのに、独自拡張する必要性はないはずだが、もしあるなら知っておきたい。

３．文字化け
EDINETはインタネットなので文字コードはUTF8が標準。しかしWindows環境はShiftJIS拡張のCP932である。
通常のWindowsソフトはこの辺はわきまえているので問題なく使えるが、ことテキスト解析となると文字コードの違いは文字化けをおこす。

４．形態素解析における辞書の整備
有報で使われる単語は複合語が多くあるため、形態素解析をするとやたらと小さな形態素に分けてくれるところが厄介である。たとえば「有価証券報告書」は、「有価」「証券」「報告」「書」と解析される。

５．数字の扱い
XBRLタグの中身は単なるテキスト文である。ゆえに形態素解析をすると数字はカンマで分けられたり文字単位で独立語となったり面倒である。

６．４と５の問題は次元数の大きさに繋がる
バイグラムを作ったら百万を超えてしまった。３６００社×百万のマトリクスは初めてだったが、結局システムが落ちたのでバイグラムを作って終わってしまった。

７．故にAWSを使う
一緒にやっていた者が、AWSを使おうと決心しサーバを立ち上げてくれたおかげで、文字化け問題は即座に解決。さらに形態素解析もテキストファイルができたことからLinuxコマンドと正規表現を使って生テキストから不必要な言葉を置き換えた。例えば数字に相当するものは、スウジとか、日付に相当するものはヒヅケとした。

８．バイグラムの枝狩り
数値、記号、名詞のなかでも接尾語などはフィルタをかけて排除した。
そのうえで、さらに使用頻度を８００件くらいにしてその上を分析の対象にしたら、百万件あったバイグラムが一気に数千件まで減った。
これは、あまり使われない単語がそれなりに有報の中で使われていることを示している。

これで何をしようというわけでもないが、個性のある開示はそれ相応に全体の頻出度の少ない単語が多く出てくる。頻出度の少ない単語の使われ方を見れば個性があるかどうかがわかりそうだ。
一方、頻出度の高い単語ばかりが使われていると、紋切り型の開示だということになるが、誰もが使っている単語が使われていないとなると、何かの開示が漏れているとも考えられる。

結局わかったことは、業種によってかなり書きぶりの違いがあるものの、逆に業種の中では似通った書き方になっていることが多いことから、業種分類を先に行った上で内容を分析したほうがよさそうだということ。同業の中で書きぶりが同じであればまさに横並びであり、逆に書きぶりが違えば個性の発揮ということになる。

いずれデータで示したい。

Tags: EDINET, テキスト解析

One comment on “有報の開示情報のテキスト分析”

縄田直治 より:

2019年10月12日 4:41 PM

実証実験の結果が金融庁から公表されました。

＜政策オープンラボの取組＞
「有価証券報告書等の審査業務等におけるAI等利用の検討」
実証実験の結果の概要について
令和元年９月27日
金融庁

https://www.fsa.go.jp/news/r1/openlab/20190927/20190927.html

返信

有報の開示情報のテキスト分析

One comment on “有報の開示情報のテキスト分析”

縄田直治 へ返信する コメントをキャンセル

縄田直治へ返信するコメントをキャンセル