弊社は世界で初めて語の分布の数式表現の導出に成功しました. 語の分布を用いた検定は非常に高い検出力を有し, 限られたデータから僅かな統計的差異を検出できます. それにより他社では実現できない検定方法,遺伝子解析技術を提供できます. 古典的手法から最先端技術まで統計解析業務全般に対応します.
語の分布とは有限記号列に現れる語の出現回数の分布です. 例えば有限記号列010011101に対して語01の出現回数は3, 語11の出現回数は2です.語の出現回数とその分布は 情報理論,統計科学,遺伝子解析,計算機科学等の分野で重要となります. これまで0や1など一つの記号の出現回数は17世紀のフランス人数学者パスカル により研究され2項分布などとして知られていました. ところが11など語の出現回数分布の明示的数式表現は80年代以降 になって一部の場合に限って得られるようになりました.
計算機では本当の意味での乱数は生成できません. 多くの場合,擬似乱数という計算機で生成できる列でその代用をします. 擬似乱数は暗号,計算機実験,モンテカルロ法など様々な場面で用いられています. そのため擬似乱数が正しく振舞っているかを確認する作業は重要となります. NIST(米国標準局)は語の分布の平均,分散を用いた疑似乱数のカイ2乗検定を提供しています. カイ2乗検定は優れた検定法ですが分布の一部の情報しか用いていません. 弊社では独自に開発した語の分布の明示的公式を用いた疑似乱数のコルモゴロフスミルノフ検定を 提供します.詳しくはICIAM2023で発表したスライド, ポスター を参照してください.
代表社員 高橋勇人
hayato AT h-takahashi DOT sakura DOT ne DOT jp
1993年3月早大理工数学修士卒(修士,理学)
1993年4月日本電気中央研究所
2002年3月総研大統計科学専攻博士後期課程修了(博士,学術)
2004年12月情報理論とその応用学会奨励賞
2012年4月科研費基盤C,乱数の理論と擬似乱数検定,研究代表者
2016年12月ランダムデータラボラトリ(個人事業)設立
2018年10月同法人化
2019年2月IEEE シニアメンバ
日本電気在職時には数時間要するマルコフ過程平衡状態の計算を数秒に短縮しました.
現在は10^9サイズ(人DNAサイズ)の語の分布を数秒で計算するアルゴリズムと語の分布を使用した検定ツールを開発しています.
専門は乱数.一般化van Lambalgen定理を証明し,条件付き確率に関する乱数の定義を与えています. これは1960年代のコルモゴロフやマルチンレフによる乱数の研究以来の大きな進展だと思っています.
他に停止時間推定量の限界について研究しています.
趣味は読書.