Excelを活用したマーケティングデータのクレンジング、名寄せ方法

 2021.07.09  カスタマーデータ活用ポータル編集部

顧客情報を適切に管理する上で欠かせないことが「データクレンジング」と「名寄せ」です。どちらも顧客情報の重複を避け、同一顧客のデータが2重3重に管理されることによるトラブルを回避し、適切な営業活動やマーケティング活動を行うために非常に重要な取り組みです。

しかし、顧客情報管理基盤としてCRMを活用していたとしてもこのような事態は起こります。小規模な組織やチームなどでExcelを顧客データベースとして活用している場合にはなおさらです。またCRMへのデータの投入の前処理やデータの管理そのものをExcelで行っているケースも多いでしょう。

そこで今回はExcelを活用したデータクレンジングと名寄せの方法についてご紹介します。

データクレンジングと名寄せの基本

最初にデータクレンジングと名寄せの基本である「整理」「標準化」「統合」についてご紹介します。

そもそもなぜ顧客情報が複数できてしまうのかというと、情報を登録する発生源のフォーマットが個別に違っていたり、顧客自身や営業担当者などの入力の「表記ゆれ」や「ゆらぎ」によって発生することが大半です。たとえば名刺情報を登録した営業Aさんは「株式会社リードプラス」と社名を入力し、マーケティング担当者のBさんは「(株)リードプラス」と略称で入力します。顧客本人がセミナーの登録をした際に「LeadPlus」と入力してしまうと、それだけで同じ会社や人に対して3件のレコードが登録されてしまいます。

さらに、たとえばメディアや外部の登録サイトからデータを入力しようとすると、メディアA社は氏名の姓と名が別フィールド、メディアB社は姓と名が一つのフィールド、さらに姓と名をつなげて入れたり、スペースを入れたりとあらゆるパターンが存在してしまいます。

顧客管理データベースにデータが投入されるパターンは大きく2つです。ひとつは営業担当者などが名刺情報をもとに個別に入力するケース、もうひとつがマーケティング活動などによって、セミナーやイベントなどの登録情報をまとめてインポートするケースです。どちらの場合にも、大もとは手入力なので、表記ゆれを完全に防ぐことはできず、それをCRMやSFAに投入しても、Excelのままで管理しても、そのまま入れてしまうと複数の顧客レコードが生成されることになってしまいます。

それを防ぐためにも、データクレンジングと名寄せは常に行う必要があります。Excelはそのような場合にも使える機能がありますので、データクレンジングと名寄せの手順に沿ってご紹介していきます。

まず「整理」ですが、これは重複している情報を統合するためにデータを並べ替えることです。類似したデータを保有している顧客情報をグループ化するのが一般的です。いくつかのグループが完成したら、グループごとに「標準化」を行っていきます。これは異なるフォーマットで登録されているデータを同じフォーマットに直して、名寄せをするための前準備のようなものです。ちなみにこれをデータクレンジング(データの洗浄)と呼びます。

標準化し、同一顧客情報と思われるものを「統合」して名寄せの完了です。この3つの基本を手順通りに行えば、Excelでもクレンジングと名寄せが行えます。

方法1.不要なデータを削除する

データの入力が人の手で行われる以上、表記ゆれによる情報の重複を完全に防ぐことはできないでしょう。ユーザー個人の入力の違いとしてまず挙げられるのが「不要なスペースや改行」です。

たとえば担当者氏名を入力する際に「顧客太郎」と入力するか「顧客 太郎」と入力するかで、システム的に別のデータとして認識されます。住所を入力する際は県名や市名ごとに改行を使用しているか否かで、これも別のデータとして識別されます。

こうした不要なスペースや改行の削除に関しては「TRIM関数」を活用しましょう。

TRIM関数は不要なスペースや改行を削除するための関数で、指定したセルでのスペースや改行削除を簡単に行えます。「数式」タブにある「関数の挿入」から「文字列の操作」を選択し、表示されたリストからTRIMを選択します。文字列を指定してOKをクリックすれば、不要なスペースや改行が削除され文字列が揃えられます。

方法2.略称を標準化する

不要なスペースや改行と同じくらい多いのが「株式会社」と「(株)」のように、正式名称を略すパターンです。この場合、略称を標準化することでデータの統合を図ります。そのためには「データの置換機能」を活用します。

「Ctrlキー+Hキー」を入力すると「検索と置換」というダイアログが表示されます。その「検索する文字列」欄に「(株)」と入力してみましょう。「すべて検索」をクリックすると、株式会社を略称で入力しているデータがすべてヒットします。その上で「置換後の文字列」欄に「株式会社」と入力し、「すべて置換」をクリックすると正式名称に置換されます。

注意する点は、「株」を囲むカッコが人によって半角だったり全角だったりすることです。そのため半角カッコと全角カッコのどちらも検索をかけて正式名称に置換する必要があります。

この方法は株式会社の略称を正すだけでなく、様々なデータの標準化に使えるので幅広く活用しましょう。

方法3.重複データの削除

顧客情報を標準化した上で重複しているデータを削除するためには「重複の削除」というシンプルな機能があります。重複を削除したいセルを選択し、「データ」タブにある「重複の削除」をクリックするだけです。あとは表示されたダイアログボックスで削除したい値を選択すれば、重複は削除されます。

ただし注意点もあります。この機能を使用すると「重複したデータはすべて削除されてしまう」ため、同一データを保有する顧客情報が削除されてしまう可能性があります。

たとえば企業Aと企業Bの担当者氏名がどちらも「顧客太郎」で同姓同名だっととします。すると、重複したデータと認識して削除してしまうため、重要なデータを損失してしまう可能性があるでしょう。

重複したデータを削除せずに調べたい場合は「COUNTIF関数」を利用しましょう。方法は次の通りです。

  1. 「数式」タブをクリック
  2. リボン内の「関数の挿入」をクリック
  3. COUNTIFを検索で探して、選択して「OK」をクリック
  4. 「関数の引数」ダイアログボックスが表示され、「範囲」を指定(セル範囲をドラッグで指定可能)
  5. 「検索条件」に値を入力する(入力する場合は二重引用符の"で囲うのを忘れないようにする)
  6. 「OK」をクリックする

このようにCOUNTIF関数を利用すれば削除せずに重複したデータを調査でき、その上で重複の削除機能を活用すれば効率良くデータクレンジングが行えます。

また、どの列の値で重複とみなすかも重要です。最近はメールアドレスなどをユニークのキーとみなすことが多いと思いますが、一部の金融機関などでは個人のメールアカウントが付与されないような業種もあるので、これだけで行うと複数の担当者のレコードを削除してしまう可能性があるので注意が必要です。

顧客情報が重複している際の弊害とは?

本稿で紹介するExcelでのデータクレンジングと名寄せ機能は以上の3つです。これらの機能を利用するだけでも、重複しているデータを一元的に統合できるでしょう。では、データクレンジングと名寄せを行わずに、顧客情報が重複しているとどのような問題が起きるのでしょうか?

一番大きな問題は「顧客との取引情報が正確に管理されないこと」です。たとえば営業担当のAさんがExcel顧客データベースに登録されている情報を参考に営業活動を行ったところ、相手先に失礼があり怒らせてしまったという事例がありました。原因は、違う部署の営業担当のBさんが同じ相手先に対して行った営業活動を、別の顧客データに記入していたため、Aさんがそれに気づくことができなかったためです。

顧客情報が2重3重と増えていくとこうしたトラブルが起きやすくなり、次第に自社の顧客情報管理体制について疑問を抱かれることになります。そうなれば信頼低下は時間の問題です。

こうしたトラブルが起きないためにも、データクレンジングや名寄せによる適切な顧客情報管理が重要です。効率的な営業やマーケティング活動など企業利益に直結するような場面を考慮しても、顧客情報の統合は必要です。

普段使用しているExcelを活用して、ここで紹介した方法でデータクレンジングや名寄せを行い、効果的な営業活動やマーケティング活動につなげてください。


Excelを活用したマーケティングデータのクレンジング、名寄せ方法