招標采購
北京朝陽醫院向量化數據預處理服務項目詢價采購公告
我院擬對《向量化數據預處理服務》項目按照詢價采購方式進行采購。凡有意向參與此次采購的供應商,請攜帶報價單、營業執照、資質文件復印件并加蓋公章,于2024年11月25日上午9:00前交至北京朝陽醫院信息中心。
項目名稱:《向量化數據預處理服務》
采購人: 首都醫科大學附屬北京朝陽醫院
采購項目最高限價:5萬元,超過最高限價的報價,將被取消詢價資格。
響應文件提交截止時間及地點:
提交截止時間:2024年11月25日09:00(北京時間)
地點:工體南路8號北京朝陽醫院信息中心
在以上截止時間后送達到指定地點的響應文件為無效文件,該文件將被拒收。
項目需求:為了提升在生成式文本模型方面的技術能力和用戶體驗,現需進行數據脫敏、數據準備、數據向量化等一系列工作。
本項目旨在通過這些步驟,為建立一個高效、安全且用戶友好的生成式文本模型系統打好基礎。具體要求如下:
1. 數據脫敏
對原始數據中的個人身份信息(如姓名、身份證號、電話號碼、聯系人信息、地址信息等)進行脫敏處理,確保這些信息無法被重新識別。
對敏感詞匯進行脫敏處理,確保這些信息不會泄露。
使用多種脫敏技術,如替換、加密、哈希等,以確保脫敏后的數據仍能保持其原有的語義和結構。
進行脫敏效果驗證,確保脫敏后的數據符合相關法律法規的要求。
2. 數據準備
收集來自不同來源的文本數據,包括但不限于醫療文書、護理文書、專業文獻等。
清洗數據,去除重復項、糾正錯誤、處理缺失值等,確保數據的質量。
整理數據,使其符合后續處理的要求,例如統一格式、標準化處理等。
進行數據標注,對部分數據進行人工標注,以便于模型訓練和驗證。
構建數據流水線,自動化處理數據采集、清洗和整理過程,提高效率。
3. 數據向量化
使用預訓練的詞嵌入模型將文本數據轉換為向量表示。對向量進行歸一化處理,以確保它們在同一尺度上比較。
選擇合適的詞嵌入模型,并根據實際需求進行微調,以提高向量的質量。
驗證向量的質量,通過相似度計算、聚類分析等方法評估向量的有效性。
應答人資格要求:
1、在中華人民共和國境內注冊,能夠獨立承擔民事責任。
2、遵守國家有關法律、法規、規章,具有良好的商業信譽和健全的財務會計制度。
3、具備對故障設備提供緊急修復的技術能力;具備設備的升級、維護、保養等綜合技術支持和實際維護經驗。
4、供應商企業經濟狀況良好,在近三年內無重大經營違法活動。
5、良好的商業信譽和健全的財務會計制度。
6、具備履行合同所必須的設備和專業技術能力。
聯系人:何宜楠
聯系電話:010-85231654