作者| Sephirah
各位飆網高手對各式各樣的"心理測試"一定不會陌生,比如用幾個非常生活化的問題來測出你最適合哪個職業的:
測一下你的性格是什麼樣的:
還有你最像哪個人物的:
從30年前樸素的雜誌花邊測試專欄,到如今精美的H5頁面乃至互動視頻,在描述你自己的相關領域,這些測試是真正的國民級產品。 p>
雖然,它們不准。 p>
當然不准啦……要是只用幾道簡簡單單的題目,甚至只要輸入名字/生日就能知道你的性格,那人生未免也太簡單了吧?! p>
用心理學的話來說,就是這些題目的效度太低,不够有效。 p>
如果你想要知道一個人的體重,卻拿一把卷尺量了他的身高,然後告訴自己,這個人的體重就是1.70米,這就是一個低效度的量測。 p>
如果你想知道自己的性格,回答的問題卻是"你最喜歡哪種顏色",甚至是你的名字或是生日,這也是一個低效度的量測,和用尺子測體重沒有太大區別。 p>
編制形式類似、但更加準確可信的題目,來幫助人們認真地瞭解自己,並為其他的研究者們提供便利的工具,這就是心理測量學家要做的工作了。 p>
開發專業量表的人都在幹啥
開發一個專業心理量表的過程,大概是這樣的:
首先,我們需要先確定構念。 也就是說,我們想要量測的究竟是一個什麼東西。 p>
比如說我們想知道「一個人有多想要破壞現有的秩序,帶來混亂,以獲得愉悅感」,我們就要用一個名詞去概括這個特質,並且給出一個定義,例如混亂需求(Need for Chaos)。 p>
在確定了構念後,我們就需要編制條目,也就是說哪些描述能够對應上我們想要量測的這個概念,例如混亂需求的條目就有"我認為我們的社會制度爛到極點了"、"有時候我真想毀掉漂亮的東西"。 p>
編制條目有很多種管道,大致可以分為借鑒已有量表和自編條目兩種。 p>
借鑒前人編制的量表是較為簡單的做法,但如果你想要量測的是全新的構念,像是混亂需求前人基本沒有做過,那就只能自己考慮後一種,自己編制了。 p>
自編條目的來源有很多種,比如通過蒐索關鍵字找到相關的描述,請專家寫下他們對此概念的理解,或者是找普通人做結構化/半結構化的< span>訪談,綜合上述的文案資料後, 就能够得到初版的題本。 p>
但這版題本很可能是不够科學的,只是說編制者主觀上認為這些描述和他想要研究的概念是一樣的,但實際可能並非如此。 p>
為了解决這個問題,就需要研究者去找很多人(從數百到數千不等)回答這個初版的問卷,使用他們的作答數據來分析題目質量,删掉那些質量不好的題目。 p>
並且,題目確定之後還要再找一群人作答,來作為分數的參攷。 p>
分數的參攷? 這又是什麼意思呢? p>
原始分數與常模分數
分數的參攷其實就是通過收上來的數據,計算出平均值和標準差。 p>
一個人的得分離平均值越遠,就說明他的排名越高或越低,將這個差值與反映數據離散程度的標準差一比較,我們就能確定一個人相對排名的高低。 p>
囙此使用這兩個名額,量測學家就能將某一比特作答者原始分轉換為可以反映相對排名的標準分。 p>
以一道最標準的量測宜人性的題目為例,在看到"我心腸柔軟,有同情心"這個描述後,作答者需要從"非常不同意"至"非常同意"的5個選項中選擇一個選項,而這些選項在後臺對應著1-5分。 p>
在將作答者回答的所有量測宜人性的題目上的得分相加後,我們就能够得到這個人在宜人性上的原始得分。 p>
原始分計算非常簡單,但它也會有一些缺點,比如說很難跨維度比較。 比如說宜人性滿分50分你拿了38分,盡責性滿分50分你拿了25分,就代表你宜人性一定高於盡責性嗎? p>
不一定,因為題目都不一樣,是不能在同一尺度下比較的。 p>
可以比較的其實是排名,像是語文的120分和數學的130分我們也不好比較,但如果語文是年級前十,數學的年級排名只有一百多位,那麼我們自然可以說語文比數學考得好。 p>
類似地,如果將人格問卷的原始分轉換成常模,進而轉換成排名,也就是你的宜人性高於70%的人,你的盡責性只高於20%的人,那麼就能更好地幫助拿到報告的人瞭解自身性格究竟是怎樣的。 p>
當然,這樣的前提是人們要認真答題,根據自己的實際情況選擇回答,但現實情况就是,大部分心理測量的問卷都是主觀報告的,作答者隨意填,或者掩飾作答怎麼辦? 比如說去醫院心理門診就診,醫生讓填量表,一個人都往壞裏填,他能裝病嗎? p>
不認真作答的檢測管道
對於裝病這個情况來說,量表只是一個診斷的參攷工具,醫生或者說諮詢師往往會當面與來訪患者訪談,如果訪談中患者的表現和量表差距甚遠, 醫生是能够憑藉經驗去辨別出這個人究竟有無精神方面困擾以及困擾的强烈程度的。 p>
但在無法面談的大規模施測問卷裏,怎麼把隨便作答的人挑出來,也是心理測量學家需要去解决的。 p>
解決辦法分為兩種,一種是在事前措施,例如降低任務難度,比如說儘量減少題目數量,你一口氣丟給人兩三百道題,大家看到就怵自然不會太認真地答。 p>
或者是添加測謊題,也就是顯而易見有正確答案的題目,例如"請在本題選擇非常不同意"、"我的生日是2月31日"、"我認真回答了上述問題"等,讓參與者選擇有多同意這些描述,如果在這些題目上的作答表現比較糟糕, 那麼我們就更容易把這個人標記為不認真作答的人。 p>
第二種是事後分析,可以通過分析一個人的作答模式來把那些不認真作答的人篩除,比如整體作答時間過短的,大部分題目選擇同一個答案的,正向題和反向題都選擇了"非常同意"的等等, 這些都可以通過一些資料統計的方法計算不認真作答的名額。 p>
當然,上述這些都是自陳量表(自己給自己打分)的弊端,也就是讓作答者自行回答關於他們在各種情况下的行為或感受等問題,歸根結底較為主觀 strong>,其實心理測量學遠不止編制這些自陳量表。 p>
不止是答題,還有很多量測管道 例如讓被試進鬼屋遊玩,研究者既讓被試從鬼屋出來後用自陳量表評定自己每次遇上驚嚇事件的恐懼和享受程度,還收集了被試全程的心率數據, 以及通過景點內的閉路監視器實时記錄了參與者的反應,並讓獨立的編碼員給他們的情緒反應打分[1]。 p>
在這裡心理學家就用了多種方式來交叉量測了鬼屋中的情緒反應,盡力做到讓數據豐富多樣。 p>
除此之外,還有利用大數據的量測管道,例如—— 通過在FaceBook上的點贊進而推斷用戶的性格[2]; p>
通過選取遊戲過程中電腦所記錄的日誌檔,進而量測受測者的元認知水准[3]; p>
或是使用文字挖掘和機器學習的方法評估中國社交媒體中的自殺風險和情緒困擾[4]。 p>
最後 總之,心理測量學家們一直在"量