「データとは?」
「データドリブンで意思決定を!」なんて言う時代になりましたが、私はその「データ」について何を知っているのだろうと、ふと思いました。
そこで今回は「データ」について掘り下げることで、データに対する思いを新たにしたいと思います。
共感いただける方は、少し長いですがぜひご覧ください。
この記事をお読みいただくと次のような疑問が解決できます。
- データとは何か?
- データの種類
- データの持つ価値
目次
01データとは?
いきなりですが、結論を先に言っちゃいます。
データとは、
「事実の集まり」
のことです。
例えば、天気予報の「晴れ」や「雨」「曇」などは「データ」です。
主体の状態を表した値が「データ」と言えると思います。
データと情報の堺
そのデータを利用して、「明日は曇りのち雨なので傘を持って外出した方が良い」という「かたち」にしたら、それは「情報」になります。
では、権威のある国際標準化機構の「ISO」、およびJIS(日本産業規格)が「データ」をどのように定義しているかを見てみましょう。
ISO/IEC 2382 – 1:1994 01.01.02 data
A reinterpretable representation of information in a formalized manner suitable for communication, interpretation, or processing. Note 1 to entry: Data can be processed by humans or by automatic means.
コミュニケーションに適した形式化された方法で、情報を再解釈可能に表現したもの。情報の解釈や処理に適した、形式的に再解釈可能な表現。
項目への注記1: データは人間によって処理されることもあれば、自動的な手段によって処理されることもある。(※DeepLで翻訳)
JIS X 0001:1994 01.01.02 データ
情報の表現であって、伝達、解釈または処理に適するように形式化され、再度情報として解釈できるもの
備考1. データに対する処理は,人間が行ってもよいし,自動的手段で行ってもよい。
ほぼ同じ表現ですね。JIS規格は国際規格と整合化が図られているそうなので、そういうことなのかと思います。 権威のある規格の表現を知ることで、よりデータとは何かが見えてきたのではないでしょうか?
02データの種類
「データとは何か?」という問いの根本的なところは分かってきましたので、ここからは、そのデータに関連する事柄を紹介していきます。これらを知ることで、より「データ」に対する理解を深めていきたいと思います。
まずはデータの種類を調べてみました。種類といっても無限にあったのですが、その中でもよく聞く名称や、個人的に面白いと思ったデータの種類を集めてみましたのでご覧ください。
01:量的データ(定量データ)
数値で表されるデータのことです。例えば、身長、金額、人口など、数字の大小に意味をもつデータです。
02:質的データ(定性データ)
数値で表すことが出来ないデータのことです。例えば、趣味、血液型、商品名などがこれにあたります。これらのデータは主に分類し、そこに意味を持たせて活用されます。
03:連続型データ(計量データ)
計測器の最小単位が無限としたら数えられないデータのことです。例えば、身長、体重、時間や気温などがこれにあたります。
04:離散型データ(計数データ)
計測器の最小単位が無限としても数えられるデータのことです。例えば、人数、個数、性別や正・誤判定、サイコロの目がこれにあたります。前述の連続型データと合わせて考えると面白くないでしょうか?連続型データで例にあげた「時間」ですが、年、月、時間、分といった枠で測れば離散型データになります。このように条件によって連続データは離散データに、逆に離散型データは連続型データになります。「最小単位が無限としたときに数えられるかどうか?」という基本をしっかり抑えておきましょう!
05:構造化データ
事前に定義された形式で収集されたデータのことです。例えば、お客様の名前や住所、属性を記録したデータや、店舗の売上額、売上商品名や個数などを記録した販売データ、所蔵されている書籍のタイトルや著者名、出版日が記録された所蔵書籍データなどがこれにあたります。
06:非構造化データ
事前の定義無しで収集されたデータのことです。例えば、ソーシャルメディアの投稿、画像、動画などがこれにあたります。データの形式が定義されていないため、データの検索や分析は困難になります。
07:時系列データ、クロスセクションデータ(断面データ)、パネルデータ
まずは以下の表を見てください。時間順に収集され実績から定量的に検証できるのが時系列データ、特定の時点で収集され複数の主体を検証できるのがクロスセクションデータ、複数の同じ主体について時間順に収集され実績から定量的に検証できるのがパネルデータです。この3つのデータの表やグラフを嫌というほど作ったという人も少なくないと思います。
08:コーホートデータ
同じ時期に生まれた人々、同じイベントを経験した人々といった個々を特定しない主体に、複数の時点で計測をしたデータです。例えば、世代ごとの人口や就業率の推移、特定の体験に基づく世代ごとのアンケート結果などがこれにあたります。以下の表もコーホートデータですが、パッと見、クロスセクションデータやパネルデータと何が違うの?と思った方も少なくないと思います。コーホートデータとクロスセクションデータやパネルデータの決定的な違いは、主体です。個人や企業といった個々を特定できない主体に対するデータがコーホートデータ、個人や企業といった個々を特定できる複数の主体を表したのがクロスセクションデータやパネルデータです。この点は重要ですので抑えておきましょう。コーホートデータは世代間の変化といった大きな流れを分析するのに使用され、パネルデータは、同じ個人または同じ組織の変化を検証するのに使用されます。
A商品に対するアンケート
09:ビッグデータ
人間が全体を把握することが難しいデータの集まりのことです。2017年にダグラス・レイニー氏が、ビッグデータの特徴は「Variety(ソースのレンジの広さ・多様性)」「Volume(サイズ・量)」「Velocity(スピード・生成の速さ)」の「3つのV」であると提唱しました。その後いろいろな「V」を、いろいろな人が追加して提唱しています。みなさんはどう感じますか?
10:スモールデータ
手頃な規模のデータで、一般的なデータベースやスプレッドシートで管理可能なデータのことです。ビッグデータの逆ですね。
11:フローデータ
特定の期間内の変化を表すデータのことです。例えば、1年間の売上、7日間の歩数、5年間で伸びた身長などがこれにあたります。フロー(flow)はフロー図のフローと同じく流れ(変化)を表すデータという意味です。
12:ストックデータ
ある時点においての状態を表すデータのことです。例えば、財布を開けたときに入っていた金額、決算日の売上、身体測定日の身長や体重などがこれにあたります。ストック(stock)は蓄え、蓄積といった意味を持ち、過去から繋がるある時点の累積データという意味です。
03
データの種類を12個見ましたが、そのデータの種類を表す「型」というものがあります。 実際には種類だけでなく、保存場所を示すだけの「型」もあります。 次にこのデータ型について見ていきましょう。
データ型の発見者や提唱者は特定されていないそうです。データ型の概念の起源は、1940年代に開発された初期のコンピュータの時代にまで遡ると言われます。当時のコンピュータは、数値や文字などのデータしか扱えなかったそうですが、このデータを区別するためにデータ型は必要でした。データ型の概念は、コンピュータの進化とともに発展してきたと言えそうです。
04基本データ型と参照型
そのデータ型ですが、大きく分けて基本データ型と参照型の2種類があります。 基本データ型は変数に値が直接代入されます。参照型はメモリ上のアドレスが代入されます。
基本データ型
データの値そのものを表す型です。
例
浮動小数点型:
1.2、3.4などの数値
文字型:
“Hello”、”World”などの文字列
論理型:
true、falseなどの真偽値
参照型
データの保存場所を示す型です。
例
オブジェクト型:
参照値1、参照値2、参照値3といったオブジェクト
配列型:
[“参値1”, ”参照値2”, “参照値3”]といった配列
データの型により、データの処理方法や演算方法が決まります。
例えば、整数型と浮動小数点型では演算方法が、オブジェクト型と配列型では処理方法がそれぞれ違います。
このため、データの型を理解すると、自ずとデータの処理や演算を効率的に行うことが出来ます。
05データの伝え方
次にそのデータの伝え方に着目したいと思います。 当たり前と言えば当たり前のことですが、人間、その他の動物、そして機械では適切なデータの伝え方が違います。 少し調べてみたら面白かったのでご紹介をさせていただきます。
人間
人間は一般的には視覚情報に大きく影響を受ける傾向があります。そのため、表やグラフなどで見える化することが、理解を深める適切な伝え方と言えます。でも、人間も動物です。「その他の動物」で指摘された点も参考になりそうです。
その他の動物
個々の動物の持つ視覚や聴覚、嗅覚などの特性に合わせることが適切です。またそこに行動や習性を加味して伝え方を考えます。そして人間より記憶力が劣る点から繰り返し行う行為もデータを伝える重要なポイントになります。
機械
機械はデータの目的や用途に合わせて、適切なデータ形式を選択し、合わせることが重要です。これはデータを伝えるために必須であり前提になります。Ethernet(有線接続規格)やRS-232C(シリアル通信規格)などは、そのデータ形式の中の1つです。
06
概念的なお話が多く、お腹いっぱいですよね。 小難しい話ではなく、ざっとデータが何か掴めるようにまとめてみたのですが、如何でしたでしょうか? 最後にデータの価値は何か?との問いで、よく使われる表現を5つご紹介して終わりにさせていただきます。
データとは、「情報の宝庫」である
データとは、「未来を切り拓く鍵」である
データとは、「競争力の源泉」である
データとは、「課題の解決の糸口」である
データとは、「新たな価値の創造の源泉」である