為什麼重要
若你曾把Census人口資料、BLS就業資料與HUD公平市場租金接在一起做分析,你就用過FIPS代碼。它是美國聯邦標準的州(2位)與縣(3位,合成5位的州+縣代碼)識別碼。每一個聯邦資料集都會用FIPS給縣級資料列編碼。投資人為何要在意:CBSA邊界會隨OMB版本變動,但縣FIPS代碼是穩定的。把聯邦資料聚合到CBSA層級時,你透過縣FIPS做連接——而不是透過發布方給出的、可能對也可能對不上的MSA字串。
速覽
- 它是什麼: 為每個美國縣分配的聯邦5位數字識別碼——2位州 + 3位縣代碼。
- 為何重要: 每一個聯邦資料集都以FIPS作為縣的權威鍵。它是把Census + BLS + BEA + HUD + FHFA資料串在一起的那一欄。
- 如何運用: 聚合到CBSA層級時,透過`geo.county.fips`連到CBSA代碼。查單一縣時,用FIPS代碼,不要用縣名(縣名會撞——美國有30多個「Washington County」)。
- 格式: `SSCCC`,SS為州FIPS(01-78),CCC為縣FIPS(001-840)。
- 治理: 原本是NIST標準(縣用FIPS 6-4)。2008年正式由ANSI/Census的「GNIS」代碼取代,但5位數格式完全相同,業界仍沿用「FIPS代碼」這一稱呼。
運作原理
FIPS到底是什麼。 FIPS指的是聯邦資訊處理標準——美國政府從1960年代開始制定的一套代碼,用來標準化聯邦機構之間的資料交換。對不動產投資人而言,最重要的那一個是FIPS 6-4,也就是縣代碼標準。它為每一州分配一個2位數字(Alabama = 01,California = 06,Ohio = 39,Texas = 48),為州內每一縣分配一個3位數字(Franklin County OH = 049,Harris County TX = 201)。合起來的「州+縣FIPS」5位代碼唯一標識每一個縣:俄亥俄的Franklin County是39049,德州的Harris County是48201。每一家聯邦機構都在使用這套代碼。這一標準最初由國家標準局(NIST的前身)發布;FIPS 6-4的正式刊物至今仍被引用,儘管FIPS在2008年正式由ANSI/Census代碼取代。5位數格式與多數代碼值完全相同,因此業界仍習慣稱作「FIPS代碼」。
為何FIPS比縣名更重要。 縣名會撞。全美有30多個「Washington County」、15多個「Jefferson County」、9個「Franklin County」。若你拉到的資料集只用縣名做標籤,要把它與另一個資料集合併,就必須先釐清你指的是哪一個「Washington County」。FIPS代碼把歧義一次解決:賓州Washington County是42125、俄勒岡Washington County是41067、馬里蘭Washington County是24043。Census的ANSI代碼列表是整套代碼的權威參考。對於使用多個聯邦資料來源的投資人——把FHFA HPI與HUD公平市場租金、Census建築許可、BEA個人所得串起來分析——FIPS正是讓這一切分析能夠成立的前提。
FIPS與CBSA——政治單位 vs 經濟單位。 FIPS代碼標識政治單位:州、縣。CBSA標識經濟單位:共享一個勞動力市場的若干縣。對於某個具體的不動產問題,你通常兩個都需要。「Columbus都會區經濟發生了什麼?」——這是CBSA問題(CBSA 18140)。「Columbus都會區包含哪些縣?」——這由CBSA定義回答:Columbus MSA 18140包含8個縣,每一個都有自己的FIPS代碼。要把縣級聯邦資料(例如BLS月度就業)加總到都會區層級,你要:(1)以縣FIPS為粒度取數,(2)查每個FIPS對應到哪個CBSA,(3)聚合。FIPS → CBSA的映射由OMB隨每次CBSA劃定一併發布。當OMB更新CBSA定義時,映射會變;但FIPS代碼本身不變——變的只是映射。這就是為何在跨年份分析中把FIPS作為穩定連接鍵至關重要。
FIPS在投資人工作流裡的身影。 任何一個認真的聯邦資料管線,都是以FIPS為縣級表的主鍵。FRED在縣級BLS就業與BEA個人所得序列中把FIPS作為序列識別碼。我們自家的管線以`fips`欄位作為縣級表的鍵,再透過映射表加總到CBSA。HUD的Section 8所得上限按FIPS發布。IRS移民資料——房價分析要用——以FIPS作為起點/終點鍵。若你在做任何多來源分析,FIPS就是你要統一的識別碼。若你正在採購的資料來源不帶FIPS,就請對方提供——否則你只能靠名稱做模糊比對,而資料錯誤就是這樣產生的。
實戰案例
林俊傑(Lin Chun-Chieh)嘗試把三個聯邦資料集合併,才懂FIPS為何存在。
林俊傑正在為俄亥俄州3個縣搭一張核保試算表。他下載了:
- BLS LAUS: 按縣名 + 州縮寫的月度失業率
- Census ACS: 按縣名 + 州名的家戶所得中位數
- BEA Regional: 按縣FIPS的人均個人所得
前兩個資料集都有「Franklin County」列。他必須先釐清各自指的是哪個Franklin County——俄亥俄有一個,另外8個州也都有。肯塔基、印第安納、維吉尼亞......這些州的「Franklin County」在只按縣名標籤的資料集裡都會一起出現。
他可以按州名欄過濾,但他發現BLS用「OH」、Census用「Ohio」——以字串比對做連接若沒做規範化就會失敗。
然後他查BEA資料集,看到一欄FIPS。39049。他用一張以(州 + 縣名)為鍵的查表,幫BLS與Census行補上FIPS欄位。三份資料集現在共用同一把鍵,連接成立。
他做出的核保試算表能延展:再加第四個資料集(HUD FMR)、第五個(FHFA HPI)、第六個(IRS移民資料)——全部都以FIPS為主鍵。若他一開始就用縣名做連接,每加一個新資料集都要做一次專門的對齊。
優劣分析
- 每一個聯邦資料集都以FIPS作為縣的權威識別碼——一把鑰匙就能把所有資料串在一起
- 5位數代碼消除了縣名帶來的歧義(全美光是「Washington County」就有30多個)
- FIPS代碼在時間上穩定——CBSA會被重新編號,縣不會
- Census免費發布權威ANSI代碼列表,是單一可信來源
- FIPS是聯邦統計體系的通用語——Census、BLS、FRED都講同一種話
- 商業資料供應商不一定包含FIPS代碼,你有時得自己用一張查表補上去
- 2位州FIPS是01-78,但並不連續(因歷史原因跳號);你無法從編號直接推導「39 = 按字母序的第39州」
- FIPS自2008年起正式由ANSI/Census代碼取代,文件裡偶爾會看到混用——但格式與值是一致的
- 一些資料集把5位FIPS當字串處理時會把前導零去掉(「01011」vs「1011」),若檔案存成數字欄,字串連接就會失敗
- 波多黎各、關島和其他領地的縣有自己的FIPS代碼,某些工具處理不正確
注意事項
- 前導零遺失: 把FIPS代碼存成CSV再用Excel打開時,「01011」(Alabama的Autauga County)會變成「1011」,因為Excel會把數字欄的前導零去掉。一定要把FIPS存成文字,或在讀入時補回5位數。
- FIPS與ANSI: NIST於2008年正式廢止FIPS 6-4,改由Census維護的ANSI代碼。值與格式完全一致,只是治理方不同。業界仍以「FIPS」稱之。
- 州代碼不是按順序配的: 州FIPS代碼是歷史分配的(Alaska = 02,因為它是第49個加入聯邦的州;California = 06,因為它是第31個——編號反映加入前的領地編號,而非字母序)。從數字本身推不出任何資訊。
- 縣的歷史變動要留意: 有些縣被改名或合併(例如South Dakota的Shannon County在2015年改名為Oglala Lakota County,新FIPS 46102取代舊的46113)。以FIPS做歷史資料連接時,需要處理版本問題。
- 領地FIPS: 波多黎各的縣用州代碼72,關島用66,維京群島用78。一些工具會默默把它們濾掉,以為是無效值。若你的分析涵蓋PR,先確認你的工具鏈能正確處理。
投資者問答
一句話總結
FIPS代碼是縣級資料的聯邦連接鍵。若你在搭多來源不動產分析,儘早把FIPS定為標準,一切連接都透過FIPS走。這個代碼會熬過OMB的版本更替,會消除縣名歧義,由Census免費發布。其他任何連接方式——按縣名、按州縮寫、按發布方特定ID——最終都會反咬你一口。
