JavaScript 如何讀取本地文件

于安全和隱私的原因，web 應用程序不能直接訪問用戶設備上的文件。如果需要讀取一個或多個本地文件，可以通過使用input file和FileReader來實現。在這篇文章中，我們將通過一些例子來看看它是如何工作的。

文件操作的流程

獲取文件

由于瀏覽器中的 JS 無法從用戶的設備訪問本地文件，我們需要為用戶提供一種方法來選擇一個或多個文件供我們使用。這可以通過文件選擇器<input type='fule' />來完成。

<input type="file" id="fileInput">

如果想允選擇多個文件，可以添加multiple屬性:

<input type="file" id="fileInput" multiple>

我們可以通過change事件來監聽文件的選擇，也可以添加另一個 UI 元素讓用戶顯式地開始對所選文件的處理。

input file 具有一個files屬性，該屬性是File對象的列表（可能有多個選擇的文件）。

File對象如下所示：

讀取文件

讀取文件，主要使用的是[FileReader][1]類。

「該對象擁有的屬性：」

「FileReader.error」 ：只讀，一個DOMException，表示在讀取文件時發生的錯誤。

「FileReader.readyState」：只讀表示 FileReader 狀態的數字。取值如下：

常量名值描述EMPTY0還沒有加載任何數據LOADING1數據正在被加載DONE2已完成全部的讀取請求

「FileReader.result」：只讀，文件的內容。該屬性僅在讀取操作完成后才有效，數據的格式取決于使用哪個方法來啟動讀取操作。

「該對象擁有的方法：」

readAsText(file, encoding)：以純文本形式讀取文件，讀取到的文本保存在result屬性中。第二個參數代表編碼格式。

readAsDataUrl(file)：讀取文件并且將文件以數據URI的形式保存在result屬性中。

readAsBinaryString(file)：讀取文件并且把文件以字符串保存在result屬性中。

readAsArrayBuffer(file)：讀取文件并且將一個包含文件內容的ArrayBuffer保存咋result屬性中。

FileReader.abort()：中止讀取操作。在返回時，readyState屬性為DONE。

「文件讀取的過程是異步操作，在這個過程中提供了三個事件：progress、error、load事件。」

progress：每隔50ms左右，會觸發一次progress事件。

error：在無法讀取到文件信息的條件下觸發。

load：在成功加載后就會觸發。

在下面的示例中，我們將使用readAsText和readAsDataURL方法來顯示文本和圖像文件的內容。

例一：讀取文本文件

為了將文件內容顯示為文本，change需要重寫一下：

首先，我們要確保有一個可以讀取的文件。如果用戶取消或以其他方式關閉文件選擇對話框而不選擇文件，我們就沒有什么要讀取和退出函數。

然后我們繼續創建一個FileReader。reader的工作是異步的，以避免阻塞主線程和 UI 更新，這在讀取大文件(如視頻)時非常重要。

reader發出一個'load'事件(例如，類似于Image對象)，告訴我們的文件已經讀取完畢。

reader將文件內容保存在其result屬性中。此屬性中的數據取決于我們使用的讀取文件的方法。在我們的示例中，我們使用readAsText方法讀取文件，因此result將是一個文本字符串。

例二：顯示本地選擇的圖片

如果我們想要顯示圖像，將文件讀取為字符串并不是很有用。FileReader有一個readAsDataURL方法，可以將文件讀入一個編碼的字符串，該字符串可以用作<img>元素的源。本例的代碼與前面的代碼基本相同，區別是我們使用readAsDataURL讀取文件并將結果顯示為圖像:

總結

1）由于安全和隱私的原因，JavaScript 不能直接訪問本地文件。

2）可以通過 input 類型為 file 來選擇文件，并對文件進行處理。

3） file input 具有帶有所選文件的files屬性。

4）我們可以使用FileReader來訪問所選文件的內容。

作者: Martin Splitt 譯者：前端小智來源：dev

原文：https://dev.to/g33konaut/reading-local-files-with-javascript-25hn

本Pandas教程中，我們將詳細介紹如何使用Pandas read_html方法從HTML中獲取數據。首先，在最簡單的示例中，我們將使用Pandas從一個字符串讀取HTML。其次，我們將通過幾個示例來使用Pandas read_html從Wikipedia表格中獲取數據。在之前的一篇文章(關于Python中的探索性數據分析)中，我們也使用了Pandas從HTML表格中讀取數據。

在Python中導入數據

在開始學習Python和Pandas時，為了進行數據分析和可視化，我們通常從實踐導入數據開始。在之前的文章中，我們已經了解到我們可以直接在Python中輸入值(例如，從Python字典創建Pandas dataframe)。然而,通過從可用的源導入數據來獲取數據當然更為常見。這通常是通過從CSV文件或Excel文件中讀取數據來完成的。例如，要從一個.csv文件導入數據，我們可以使用Pandas read_csv方法。這里有一個如何使用該方法的快速的例子，但一定要查看有關該主題的博客文章以獲得更多信息。

現在，上面的方法只有在我們已經有了合適格式的數據(如csv或JSON)時才有用(請參閱關于如何使用Python和Pandas解析JSON文件的文章)。

我們大多數人會使用Wikipedia來了解我們感興趣的主題信息。此外，這些Wikipedia文章通常包含HTML表格。

要使用pandas在Python中獲得這些表格，我們可以將其剪切并粘貼到一個電子表單中，然后，例如使用read_excel將它們讀入Python。現在，這個任務當然可以用更少的步驟來完成:我們可以通過web抓取來對它進行自動化。一定要查看一下什么是web抓取。

先決條件

當然，這個Pandas讀取HTML教程將要求我們安裝Pandas及其依賴項。例如，我們可以使用pip來安裝Python包，比如Pandas，或者安裝一個Python發行版(例如，Anaconda、ActivePython)。下面是如何使用pip安裝Pandas: pip install pandas。

注意，如果出現消息說有一個更新版本的pip可用，請查看這篇有關如何升級pip的文章。注意，我們還需要安裝lxml或BeautifulSoup4，當然，這些包也可以使用pip來安裝: pip install lxml。

Pandas read_html 語法

下面是如何使用Pandas read_html從HTML表格中抓取數據的最簡單的語法:

現在我們已經知道了使用Pandas讀取HTML表格的簡單語法，接下來我們可以查看一些read_html示例。

Pandas read_html 示例1:

第一個示例是關于如何使用Pandas read_html方法的，我們將從一個字符串讀取HTML表格。

現在，我們得到的結果不是一個Pandas DataFrame，而是一個Python列表。也就是說，如果我們使用type函數，我們可以看到:

如果我們想得到該表格，我們可以使用列表的第一個索引(0)

Pandas read_html 示例 2:

在第二個Pandas read_html示例中，我們將從Wikipedia抓取數據。實際上，我們將得到蟒科蛇(也稱為蟒蛇)的HTML表格。

現在，我們得到了一個包含7個表(len(df))的列表。如果我們去Wikipedia頁面，我們可以看到第一個表是右邊的那個。然而，在本例中，我們可能對第二個表更感興趣。

Pandas read_html 示例 3:

在第三個示例中，我們將從瑞典的covid-19病例中讀取HTML表。這里，我們將使用read_html方法的一些附加參數。具體來說，我們將使用match參數。在此之后，我們還需要清洗數據，最后，我們將進行一些簡單的數據可視化操作。

使用Pandas read_html和匹配參數抓取數據：

如上圖所示，該表格的標題為:“瑞典各郡新增COVID-19病例”。現在，我們可以使用match參數并將其作為一個字符串輸入：

通過這種方式，我們只得到這個表，但它仍然是一個dataframes列表。現在，如上圖所示，在底部，我們有三個需要刪除的行。因此，我們要刪除最后三行。

使用Pandas iloc刪除最后的行

現在，我們將使用Pandas iloc刪除最后3行。注意，我們使用-3作為第二個參數(請確保你查看了這個Panda iloc教程，以獲得更多信息)。最后，我們還創建了這個dataframe的一個副本。

在下一節中，我們將學習如何將多索引列名更改為單個索引。

將多索引更改為單個索引并刪除不需要的字符

現在，我們要去掉多索引列。也就是說，我們將把2列索引(名稱)變成唯一的列名。這里，我們將使用DataFrame.columns 和 DataFrame.columns,get_level_values:

最后，正如你在“date”列中所看到的，我們使用Pandas read_html從WikiPedia表格抓取了一些注釋。接下來，我們將使用str.replace方法和一個正則表達式來刪除它們:

使用Pandas set_index更改索引

現在，我們繼續使用Pandas set_index將日期列變成索引。這樣一來，我們稍后就可以很容易地創建一個時間序列圖。

現在，為了能夠繪制這個時間序列圖，我們需要用0填充缺失的值，并將這些列的數據類型更改為numeric。這里我們也使用了apply方法。最后，我們使用cumsum方法來獲得列中每個新值累加后的值:

來自HTML表格的時間序列圖

在最后一個示例中，我們使用Pandas read_html獲取我們抓取的數據，并創建了一個時間序列圖。現在，我們還導入了matplotlib，這樣我們就可以改變Pandas圖例的標題的位置:

結論: 如何將HTML讀取到一個 Pandas DataFrame

在這個Pandas教程中，我們學習了如何使用Pandas read_html方法從HTML中抓取數據。此外，我們使用來自一篇Wikipedia文章的數據來創建了一個時間序列圖。最后，我們也可以通過參數index_col來使用Pandas read_html將' Date '列設置為索引列。

英文原文：https://www.marsja.se/how-to-use-pandas-read_html-to-scrape-data-from-html-tables
譯者：一瞬

要代碼:

Dim doc, objhtml As Object

Dim i As Integer

Dim strhtml As String

If Not Me.WebBrowser1.Busy Then

Set doc = WebBrowser1.Document

i = 0

Set objhtml = doc.body.createtextrange()

If Not IsNull(objhtml) Then

Text1 = objhtml.htmltext

End If

示例下載：（在“了解更多”里下載）

圖示:

在線咨詢

上一篇：sass文件命名，sass注釋，sass（@import）
下一篇：10款語音文字互轉工具，為了你我找了兩星期

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商